🖥️ #91: Anthropic nie zwalnia tempa
+ Claude Mythos, Managed Agents, wyciek kodu Claude Code i Cursor 3.0
Siema!
Dzieje się. Nowe modele chowane są pod kluczem, żeby nie zagrozić społeczeństwu (zawiało grozą), wycieka kod Claude Code’a, a Cursor wraca do gry o miano najlepszego narzędzia do kodowania z AI?
Claude Mythos
Anthropic zapowiada nowy, super-potężny model o nazwie “Mythos”. Niby nic nadzwyczajnego, ale tym razem jest trochę inaczej…
Okazuje się, że Mythos jest zbyt potężny, żeby wypuścić go od razu do wykorzystania publicznego. Złośliwi mogliby powiedzieć, że to dość niezła forma marketingu. Czy aby na pewno? Zerknijmy na benchmarki:
No dobra, jest lepiej, ale to jeszcze nie powód, żeby zwiastować koniec świata.
O co ta cała afera?
Chodzi o bezpieczeństwo. Mythos znajduje tysiące poważnych podatności bezpieczeństwa w systemach operacyjnych i przeglądarkach. Już teraz znaleziono np. poważne podatności w systemie OpenBSD, które były tam od 27 lat, czy poważne bugi w Linuxie.
Możemy sobie tylko wyobrażać, jakie mogłyby być konsekwencje, gdyby model trafił w niepowołane ręce. Aż chciałoby się przytoczyć sławne słowa wujka Spider-Mana o wielkiej odpowiedzialności, lol.
Właśnie dlatego pomarańczowi startują z inicjatywą Project Glasswing, w ramach którego udostępniają model do testów firmom i organizacjom takim jak Amazon, Google, Apple, Microsoft, czy Linux Foundation.
Czy to w pełni rozwiąże problem? Oczywiście, że nie. Cybersecurity powoli przestaje nadążać za rozwojem modeli. Jeśli dobijamy do poziomu, w którym modele osiągnęły taki poziom, to co będzie za rok, czy dwa? Przecież nikt nie odpuści wyścigu, prawda? :)
Na Mythosie przeprowadzono wiele testów. Zamknięto model w zabezpieczonym sandboxie, z którego teoretycznie nie powinien móc “wyjść”. Niespodzianka - udało mu się to zrobić. Model stworzył exploit, dzięki któremu zyskał dostęp do internetu. Następnie powiadomił o tym badacza, ale przy okazji, nieproszony, pochwalił się swoim osiągnieciem publicznie w sieci, na wielu stronach internetowych. Nie zdziwiło mnie również to, że model wielokrotnie wprost kłamał, tylko po to, żeby osiągnać wyznaczony mu cel…
Pełną analizę znajdziesz w Claude Mythos Preview System Card.
Jak to wyjdzie ostatecznie? Czy Mythos zostanie w końcu wypuszony do użytku publicznego? Czy to po prostu kolejny, trochę lepszy model, który reklamują umiejętnościami z security? Pożyjemy, zobaczymy.
Claude Managed Agents
Anthropic wypuszcza nową usługę Claude Managed Agents do zarządzania, budowania i wdrażania agentów w chmurze bez konieczności stawiania całej infrastruktury od zera.
Co w ramach tego dostajemy?
sanbox i wykonywanie narzędzi
długo działające sesje
zarządzanie uprawnieniami
tracing wywołań narzędzi
koordynacja wielu agentów
Wygląda to całkiem ciekawie. Z usługi korzystają już takie firmy jak Notion, Asana, czy Sentry.
Wyciek kodu źródłowego Claude Code
Anthropic dowozi masę rzeczy w zawrotnym tempie. Niestety czasem wiążę się to z konsekwencjami. Przez ludzki błąd wyciekł kod Claude Code’a. W publiczniej paczce NPM znalazł się plik z sourcemap.
To co prawda nie sam model, ale wszystko wokół niego. Ten tak zwany ‘harness’ jest obecnie bardzo istotną częścią, dzięki której firmy wygrywają w wyścigu AI. Okazało się jednak, że CC to żadna magiczna technologia, a dużo podstawowych promptów i narzędzi.
Kodu jest niemało - około 2000 plików i 500.000 linii kodu TypeScriptowego. Dowiedzieć się z kodu źródłowego możemy nie tylko promptów, ale też tego jak działa cały mechanizm. Od wiadomości użytkownika, aż po gotowy rezultat:
Zobaczyliśmy też kilka niecodziennych praktyk. Okazuje się, że Claude Code loguje przekleństwa czy wyzwiska. Strach się bać do czego zostaną wykorzystane te dane, gdy AI już przejmie kontrole nad światem. Dla własnego dobra lepiej się zwracać do Claude’a w miły sposób…
Zleakowane zostały też niewydane jeszcze feature’y. Jednym z ciekawszych jest Kairos, czyli agent/mechanizm działający w tle, korzystający z pamięci i mający możliwość czerpać informacje z wielu sesji. Anthropic powoli odsłania karty i ostatnio wydali z tej listy Buddy, czyli zwierzątko w terminalu oraz Ultraplan do tworzenia planów w chmurze.
Polecam obczaić Claude Code Unpacked oraz sam kod źródłowy, zmieniony z TypeScript’a na Rust’a ze względów prawnych.
Cursor 3.0
W ostatnich miesiącach Cursor został nieco zepchnięty na dalszy plan w tej rozgrywce o miano najlepszego narzędzia do kodowania z AI. Mocno do tego przyczynił się Claude Code, który wskoczył na pozycję lidera. Poza tym, jest o nich obecnie bardzo głośno.
Zespół jednak się nie poddaje i prezentuje Cursor 3.0. Widać duży shift z bycia IDE z funkcnojalnościami AI, na narzędzie AI native, które jedynie posiada gdzieś tam opcje ręcznej edycji kodu. Przechodzimy na wyższy poziom abstrakcji.
Od teraz możemy wygodnie zarządzać wieloma agentami w nimi w jednym miejscu. Zostało wprowadzonych dużo UX’owych poprawek - od przeglądania zmian, commitowania, pushowania, czy nawet testowania za pomocą wbudowanej przeglądarki.
Całość prezentuje się naprawdę świetnie! Moim zdaniem to jak najbardziej dobry kierunek zmian, trzymam kciuki za dalszy rozwój.
Co tam u mnie? Nowe materiały
W pierwszej kolejności chciałbym podziękować za super odbiór ostatniego filmu! YouTube docenił Wasze zaangażowanie i nie ubił go w algorytmie, uff.
Jeśli jeszcze nie miałeś okazji obejrzeć, to gorąco polecam. Przechodzimy przez turbo ważne zagadanienia takie jak context engineering, compaction, kontrola, czy przykładowe workflow efektywnej pracy.
A ja pracuję już nad drugą częścią, w której omawiamy sobie konkretne mechanizmy w agentach. Pomysł na ten odcinek to taka pigułka wiedzy o narzędziach do wykorzystania. Powiemy o tym, jak je ze sobą łączyć i jakie są dobre praktyki w każdym z nich.
O premierze na pewno dam znać tutaj w mailu, ale warto rówież subskrybować kanał, żeby nie przegapić :)
Ciekawe linki
Refleksje o Research-Plan-Implement od twórcy Context Engineeringu
Dex to taki Karphaty w kontekście agentów do kodowania. Posiada wiele fajnych wystąpień i ciekawych tejków na temat kodowania z AI. Ma duży wpływ na branżę, zapoczątkował nurt context engineeringu w agentach. Teraz dzieli się swoimi przemyśleniami na temat swoich wcześniejszych założeń. Mówisz co było dobra, a co niekoniecznie z perspektywy czasu.
Długi kontekst nie jest rozwiązaniem
Nowe modele, nawet te najmądrzejsze, posiadają już aż jeden milion tokenów kontekstu. Można by pomyśleć, że trochę nas to zwalnia z odpowiedzialności trzymania kontekstu w ryzach. Ale czy aby na pewno? Okazuje się, że to nie takie proste i większy kontekst nadal nie rozwiązuje problemu.
Google Gemma 4 - LLM na Twoim telefonie
Google wypuszcza nowy model i to nie Gemini. Gemma to rodzina modeli open source, na prawilnej licencji, którą możemy odpalić lokalnie na swoich urządzeniach. Modele osiągają bardzo dobre wyniki, a przy tym są bardzo lekkie. Warto spojrzeć!
Już uciekasz?
Jeśli Ci się podobało, kliknij 🧡 poniżej, to nic nie kosztuje! Doceniasz w ten sposób moją pracę i motywujesz do dalszych działań :)
Do następnego,
Olaf






