🖥️ #95: Mythos na wolności? Powstanie i upadek Claude Fable 5
+ koniec taniego AI, Siri AI niedostępne w Europie i nowe benchmarki do agentowego kodowania
Siema!
Cóż to był za szalony tydzień w AI. Anthropic spuszcza ze smyczy Mythosa, zapowiadany wcześniej model, jako zbyt groźny do użytku publicznego, po czym dostaje bana od rządu USA.
Apple z kolei, niczym Internet Explorer, prezentuje swoje nowe Apple Intelligence. Tym razem w wersji Siri AI, która jest oparta na modelach od Google. Spoko, i tak nie potestujesz, bo nie będzie dostępne w Europie.
Powoli kończy się era taniego AI, a programiści wymyślają nowe benchmarki i sposoby na przepalanie dużej ilości tokenów.
O tym wszystkim w dzisiejszym wydaniu, enjoy!
Sponsorem newslettera jest No Fluff Jobs.
Tu nie znajdziesz frazy „oferujemy atrakcyjne wynagrodzenie”.
Zajrzyj na stronę i sprawdź, czy widełki Ci pasują.
Claude Fable 5
Na początku kwietnia Anthropic zapowiedział model Mythos. Twórcy Claude nie wypuścili go wtedy z powodu dużych umiejętności modelu w zakresie cyberbezpieczeństwa i odnajdywania podatności. Powstał Projekt Glasswing. Anthropic udostępnił Mythosa Preview dużym firmom i projektom open source, żeby mogły się przygotować na premierę.
Minęły dwa miesiące i Anthropic wydał nowy model, hurra! Długo się nim jednak nie nacieszyliśmy, ale zanim do tego przejdziemy, zobaczmy, co kryje za sobą Fable 5.
Zacznijmy od rozwiania wątpliwości nazewniczych. Anthropic przy projekcie Glasswing zaprezentował Mythos Preview, a teraz dostaliśmy Mythos 5 oraz Fable 5. Technicznie są to dokładnie te same modele, nieco usprawnione w porównaniu z wersją Preview. Mythos pozostaje w wewnętrznych testach, Fable z kolei oddany jest do publicznego użytku, ale posiada ograniczenia ze względu na bezpieczeństwo.
Gdy Claude automatycznie wykryje jakieś niepożądane zapytanie, przełącza się automatycznie na Opusa 4.8. Zdaniem producenta dzieje się to jedynie w 5% przypadków, jednak wielu użytkowników miało z tym problem, mi się osobiście nie zdarzyło. Anthropic zastrzegł sobie również, że będzie mógł zbierać i przechowywać wszystko, o co pytamy model.
Nikogo nie zdziwię, gdy powiem, że model prezentuje się świetnie we wszelkiego rodzaju benchmarkach. Osiąga on genialne wyniki, przewyższając w testach wydanego niedawno Opusa:
Anthropic podkreśla, że model świetnie sobie radzi w tzw. long running tasks. Działanie modelu nieprzerwanie do uzyskania jakiegoś efektu, zdaje się być nowym trendem w kontekście programowania z AI.
Wracając do osiągów, nie od dziś wiadomo, że z wielką mocą wiążę się wielka odpowiedzialność wiążą się wysokie koszty. Fable jest dwukrotnie droższy od swojego poprzednika. Czyli piekielnie drogi, moje cebulane serce płacze.
Jak wygląda Fable w praktyce? Nie mieliśmy zbyt dużo czasu na testy, ale pierwsze opinie społeczności są bardzo pozytywne. Model co prawda długo odpowiada, ale wyniki i pierwsze większe przykłady są zaskakująco dobre. W przeciwieństwie do ostatnich nowych modeli, widać, że mamy tu do czynienia z czymś świeżym.
Wiele opinii mówi o tym, że model dużo lepiej domyśla się co ma zrobić, nie trzeba go aż tak dokładnie nakierowywać na dane rozwiązanie. Simon Willison pisze o nowym modelu jako o nieustannie proaktywnym (eng. relentlessly proactive) podając bardzo ciekawy przykład. Pozornie proste zadanie naprawienia horyzontalnego scrollbara przerodziło się w skomplikowaną, wieloetapową pracę. Fable nie tylko zdiagnozował błąd, ale samodzielnie uruchomił lokalny serwer, przetestował problem w kilku przeglądarkach, obszedł blokady systemowe, postawił własny serwer w Pythonie, dotarł do źródła problemu, a na końcu wdrożył i zweryfikował fixa. Koszt? $12.
Ethan Mollick, profesor na uniwersytecie w Pensylwanii, opisuje swoje odczucia z przedpremierowych testów Fable 5 jako ogromny krok naprzód w porównaniu z każdym modelem, którego używał wcześniej. Wspomina, że przy pracy nad poważniejszymi projektami, często czuł, że korzystanie z tego narzędzia jest czymś pomiędzy przyjemnością a niepokojem. Profesor opisuje tworzenie gier, czy budowaniu mapy izochronowej, z którą każdy poprzedni model miał duży problem.
Fable bardzo dobrze poradził sobie z problemem, a praca Ethana ograniczała się do minimum. Model sam podjął szereg decyzji projektowych.
Trzy dni po premierze nowego modelu, stało się coś kompletnie niespodziewanego. Anthropic ogłosił, że dostęp do Fable zostaje zablokowany ze względu na dyrektywę rządu USA, która ma na celu zawieszenie dostępu wszystkim obcokrajowcom, włącznie z tymi obecnie przebywającymi na terenie Stanów Zjednoczonych. Tyczy się to również pracowników Anthropic (wink wink Karpathy). Anthropic odebrał dostęp każdemu użytkownikowi.
Powodem miałoby być odkrycie przez rząd sposobu na jailbreaking modelu. Według Anthropica te luki są stosunkowo proste i znane z innych modeli. Przed premierą modelu, firma była w kontakcie z rządem, przeprowadzono liczne testy bezpieczeństwa. Obecnie nie jest możliwe zabezpieczenie się przed każdym rodzajem jailbreakingu, ale firma podtrzymuje, że zabezpieczenia i monitorowanie jest na wysokim poziomie.
Czy Anthropic sam na siebie ukręcił bata? Od dłuższego czasu twórcy Claude trąbią o kwestiach bezpieczeństwa, strasząc nowymi modelami. Z jednej strony spoko, bo podnoszone są ważne kwestie rozwoju AI, z drugiej nie dziwne, że w końcu musiało się to spotkać z jakąś reakcją z zewnątrz.
Wszystko zdaje się rozchodzić się o kwestie bezpieczeństwa i tego jailbreaka, ale jeśli zagłębić się w to trochę głębiej, to jest to dużo bardziej skomplikowane. Pojawia się polityka i walka o wpływy. Jaka jest prawda? Tego się pewnie nigdy nie dowiemy.
Kilka rzeczy w całej tej sytuacji jest niepokojących. Zaczynając od tego, że ban miał być na początku tylko dla obcokrajowców. Jako Europejczycy nie jesteśmy w zbyt dobrej pozycji, jeśli chodzi o rozwój modeli.
Druga sprawa to kwestia bezpieczeństwa. Jeśli Mythos jest już na takim poziomie, to za 6 miesięcy zobaczymy jego otwartego, chińskiego odpowiednika, a wtedy ban już nie będzie możliwy.
Czekamy na powrót Fable i dalszy rozwój sytuacji. Zapowiada się ciekawy tydzień.
Kiedy koniec taniego AI?
Poza kwestiami bezpieczeństwa, gorącym tematem w AI jest również kwestia kosztów. Od miesięcy sporo się o tym mówi, ale dopiero teraz ten temat zaczyna nas powoli dotykać.
Do tej pory providerzy modeli sprytnie uzależniali nas od swoich produktów, oferując je po promocyjnych cenach. Subskrypcja za $200 jest dziś warta kilka tysięcy, w przeliczeniu na tokeny.
Od czerwca GitHub Copilot zmienił sposób rozliczania i obecnie kasuje za zużycie tokenów. Niby nadal dostępne jest to w ramach subskrypcji, ale realnie schodzi znacznie szybciej.
Prędzej czy później pewnie czeka to też inne narzędzia, a wtedy będziemy mieć niemały problem. Niektóre wydają się już powoli testować, na ile mogą sobie pozwolić w tym zakresie.
Jakiś czas temu pisałem o chwilowym, przypadkowym usunięciu planu $20 do Claude Code, a teraz Anthropic kombinuje z Fable. Model przez pierwsze dwa tygodnie miał być dostępny w ramach aktualnych subskrypcji, a potem Anthropic zapowiedział naliczanie za tokeny. Podobno jest to uwarunkowane przewidywanym dużym zainteresowaniem i później wszystko ma wrócić do normy…
Kiedy koniec taniego AI? Modele robią się coraz mądrzejsze, ale i coraz droższe. Trzymajmy kciuki za open source i lokalne wynalazki.
Co sprawdzają nowe benchmarki?
Cognition zaprezentowało nowy benchmark FrontierCode sprawdzający modele pod kątem programowania. Żadna nowość, na rynku istnieje już masa benchmarków, np. SWE-Bench. Różnica w przypadku FrontierCode jest taka, że nie sprawdzamy jedynie poprawności outputu, ale również jego jakość.
Zbudowany został przez 20 kontrybutorów open source i sprawdza, czy rozwiązania mają produkcyjną jakość, czy PR stworzony przez AI mógłby być zmergowany. Na razie słupki wyglądają dość bidnie:
Przyjęte przez Cognition podejście to fajny przypływ świeżości. Zdecydowanie potrzebujemy skupić się na jakości dowożonych rozwiązań. Przyjęte założenia benchmarku, jak i samo sprawdzanie modeli wygląda legitnie, zobaczymy jak zda to próbę czasu. Na razie topowe modele nie wykręcają więcej niż 15%.
Drugim dość świeżym benchmarkiem jest DeepSWE, który skupia się na tzw. long-running tasks, o których ostatnio mówią wszyscy przy premierach modeli. Test ocenia, czy agent potrafi odkryć, gdzie wprowadzić zmianę, zaimplementować ją i nie wprowadzić regresji.
W porównaniu ze wspomnianym wcześniej SWE-Bench, skala zmian jest znacznie większa (średnio ~700 linii kodu, 7 plików), przy dwukrotnie krótszym promptcie.
Obecnie w leaderboardzie przodują modele od OpenAI, ale Anthropic powoli dogania konkurencję.
Siri AI niedostępne w Europie
Apple na ostatniej konferencji zaprezentowało swoje nowe Apple Intelligence. W przeszłości firma z Cupertino próbowała małymi kroczkami wprowadzać do swoich produktów rozwiązania AI, ale dotychczas niezbyt im się to udawało.
Tym razem postawiono na Siri, która ma lepiej rozumieć kontekst użytkownika poprzez wykorzystanie danych z urządzenia. Napędzana jest ona przez, uwaga uwaga, modele od Google.
Same umiejętności nie są czymś, czego wcześniej byśmy gdzieś indziej nie widzieli - konwersacje, generowanie zdjęć, odczytanie ekranu, danych z różnych aplikacji typu mail czy kalendarz. Jednak w połączeniu z całym ekosystemem Apple, może to się fajnie spisać.
Problem w tym, że nam Europejczykom, będzie ciężko te nowości potestować, a przynajmniej na niektórych urządzeniach. Siri AI nie będzie dostępna na iPhone, iPadach i Apple Watchach w EU. Wszystkiemu winne jest rozporządzenie DMA (Digital Market Act), do którego Apple nie chciało się dostosować.
O co chodzi? Apple ze względu na swoją pozycję na rynku smartfonów i tabletów zostało uznane za firmę, która w pewnych kategoriach, wymaga założenia pewnych antymonopolowych obostrzeń. Unia wymagałaby, żeby Apple udostępniło takie same funkcje systemowe innym providerom agentów, takim jak Google czy OpenAI, czego twórcy Siri chcieliby oczywiście uniknąć. Wiąże się to bowiem z dostępem do danych.
Apple uważa, że wymuszona otwartość systemu przez DMA mogłaby narazić prywatność użytkowników. Unia z kolei uważa, że Apple stosuje pewną formę szantażu nie chcąc się dostosować do obowiązującego prawa.
Ostatecznie, przynajmniej póki co, funkcje AI pojawią się na Macach oraz na Vision Pro, ponieważ w tych kategoriach Apple nie załapało się na miano monopolisty. No cóż, chyba się już wszyscy przyzwyczailiśmy do podobnego stanu rzeczy, jeśli chodzi o nowości AI w Apple. Warto dodać, że Siri nadal nie będzie dostępna po polsku…
Ciekawe linki
System AI Code Review w dużej skali | Cloudflare
Problem wykorzystania AI do CR jest nadal nierozwiązany i chyba nikt nie zrobił jeszcze tego dobrze. Cloudflare opisuje tworzenie własnego systemu w obszernym deep dive.
Gemma 4 - lokalny model od Google na Twoim laptopie
Google zaprezentował nowy, multimodalny model Gemma na licencji Apache 2.0. Jest on przystowany jest do lokalnej pracy na Twojej maszynie, wystarczy 16GB RAM.
Już uciekasz?
Jeśli Ci się podobało, kliknij 🧡 poniżej, to nic nie kosztuje! Doceniasz w ten sposób moją pracę i motywujesz do dalszych działań:)
Do następnego,
Olaf












