🖥️ #92: Opus 4.7 to niewypał? OpenAI odpowiada
+ GPT 5.5, Claude Design, ChatGPT Images 2.0 i powrót DeepSeeka
Siema!
Pojawiły się nowe modele, ale nikogo nie grzeją. Dlaczego? Czy Anthropic straci pozycję lidera na korzyść OpenAI? Jak radzi sobie nowa konkurencja dla Nano Banana i… Figmy?
O tym i o wiele więcej w dzisiejszym wydaniu! Ale zanim to wszystko, nowość ode mnie 👇
MCP, Skills, Rules, Subagents: jak to ogarnąć?
Nowych konceptów w agentach do kodowania przybywa z każdym miesiącem i coraz łatwiej się w tym wszystkim pogubić. Czujesz, że nie nadążasz? To nic strasznego, pozwój, że pomogę :)
W nowym filmie bierzemy na tapet najważniejsze mechanizmy. Pigułka wiedzy w 13 minut.
Przechodzimy przez CLAUDE.md, AGENTS.md, MCP, Agent Skills z narzędziami CLI, hooki i subagentów. Bez magicznych promptów, za to z konkretnymi zastosowaniami, porównaniami i dobrymi praktykami.
Enjoy!
Claude Opus 4.7 to niewypał?
Po hucznej zapowiedzi Mythosa nie musieliśmy czekać na premierę nowego modelu. Anthropic ogłosił nową wersję swojego flagowego modelu Opus. Czy 4.7 godnie reprezentuję swojego poprzednika?
Zdecydowanie nie mówimy tu o rewolucji, a o stosunkowo niedużej poprawie w porównaniu do Opusa 4.6. Potwierdzają to benchmarki:
Cena za milion tokenów jest taka sama jak w przypadku 4.6, czyli, mówiąc krótko, tanio nie jest.
Odczucia społeczności? W dużej mierze negatywne lub mówiące o braku zauważalnej poprawy. Możemy przeczytać o dużej ilości halucynacji, ignorowaniu CLAUDE.md czy rezygnowaniu z powierzonego zadania…
Korzystam z nowego Opusa od premiery. Co prawda nie spotkałem się z takimi problemami, ale muszę przyznać, że nie widzę ogromnej różnicy w porównaniu do Opusa 4.6. Model oczywiście nie jest zły, ale nie odczuwam, żeby był to jakiś przeskok.
<zakłada_foliową_czapeczkę>
Te odczucia mogą być potęgowane przez kilka dodatkowych czynników.
Po pierwsze, zapowiedź Mythosa. Anthropic prezentuje super-turbo-potężny model, który trzyma pod kluczem, żeby nie narazić ludzkości na zagładę. Kilka dni później wypuszcza dużo słabszą zabawkę, no niefajnie.
Dużo mówiło się w ostatnim czasie o tym, że Opus 4.6 został celowo osłabiony. Teorie spiskowe mówią o celowym znerfieniu modelu, żeby później wypuścić nowy-stary model ponownie. Czy tak faktycznie jest? Tego to się pewnie nie dowiemy, ale za to Anthropic przyznał, że w ostatnim czasie odnotował i poprawił błędy związane z utratą jakości.
Jakby było mało kontrowersji, to Anthropic ostatnio kombinuje coś z usuwaniem najtańszych planów ze swojej oferty. Do tego firma ma bardzo sztywne zasady co do używania subskrypcji poza Claude Code i uniemożliwia korzystanie z niej np. w OpenClaw czy Hermess Agent.
</zakłada_foliową_czapeczkę>
Nowości od Anthropic: Claude Design, Desktop, Routines i Ultrareview
Anthropicowi nie wyszedł nowy model, ale udała się premiera nowego narzędzia – Claude Design. Jest to narzędzie, które przeznaczone jest do tworzenia designów, visuali, prezentacji, animacji… Czyli taki Claude Code dla designera.
Całość wygląda bardzo fajnie. Mamy możliwość wgrania własnego designu systemu, dodania pliku z Figmy czy własnych assetów. Po wygenerowaniu widoku możemy edytować elementy ręcznie, dostosowywać ich styl, prosić o poprawki.
Przykładów w sieci możemy znaleźć bardzo dużo. Wyniki są naprawdę zadowalające, ale oczywiście wszystko w granicach rozsądku. Claude Design czasem nie radzi sobie z responsywnymi widokami, czasem zmienia coś, czego nie chcieliśmy zmienić.
Bardzo dużo zależy od kontekstu, jaki przekażemy modelowi. Im dokładniej, tym lepiej, surprise, surprise. Jednak widzę duży przeskok w porównaniu do tego, co obserwowaliśmy kiedyś, jeśli chodzi o tworzenie designów z AI (np. okropne filoetowe gradienty).
Figma killer? No nie. Spoko narzędzie do prostego prototypowania? Jak najbardziej warto sprawdzić i dać szansę. Trzymam kciuki za dalszy rozwój. Obecnie dostępny jest jedynie w przeglądarce.
To nie wszystko z nowości. Gruntowny redesign przeszła również aplikacja desktopowa.
Dostaliśmy odświeżony widok, wbudowany terminal, edycję plików, preview HTML i PDF, lepsze diffy zmian czy możliwość równoległej pracy z Claude. Trochę klikałem i prezentuje się to bardzo dobrze, polecam spróbować. Gdybym nie siedział z nosem w terminalu, to chętnie bym potestował przed dłuższy okres - UX zdecydowanie na plus!
Jakby komuś było mało zmian od pomarańczowych, to kolejna nowość: Routines. Są to automaty działające na infrastrukturze Anthropic, które możemy konfigurować z poziomu Claude Code.
Można je uruchamiać według harmonogramu (np. co noc, co tydzień), przez wywołanie API albo w reakcji na np. zdarzenia GitHub (otwarcie PR). Przykładowe zastosowania? Automatyczne review, triage alertów, utrzymanie backlogu, weryfikacja deployów czy pilnowanie, żeby dokumentacja nie rozjechała się z kodem.
A jak już jesteśmy przy chmurze, po dodaniu Ultraplan, twórcy Claude dodali Ultrareview, który pozwala na dogłębny code review zmian. Oczywiście musimy za niego słono zapłacić. Dostępny w wersji research preview.
OpenAI odpowiada: GPT-5.5 & Images 2.0
Od dłuższego czasu Anthropic jest na szczycie, ale w związku z ostatnimi wydarzeniami coś mi mówi, że OpenAI będzie się starało odzyskać dawną pozycję.
Wypuścili oni GPT‑5.5, czyli nowy flagowy model. W benchmarkach takich jak Terminal-Bench 2.0 bije nawet Opus 4.7.
Pierwsze wrażenia? To bardzo dobry model, ale brak ogólnego zachwytu. Ja potrzebuję jeszcze trochę czasu na testy, ale opinie w community są raczej pozytywne, chociaż nie są jakieś super entuzjastyczne.
Polecam sprawdzić recenzję od Ethana Mollicka. Model w niektórych zadaniach sprawdza się świetnie, w innych jest słaby, a czasem kompletnie nieprzewidywalny.
To, o czym się dużo wspomina, to bardzo wysoki pricing. $5 za input, $30 za output w wersji standard, w wersji Pro aż $30 za milion tokenów inputu, a $180 za output. Sic!
W podobnym czasie premierowała nowa wersja modelu do generowania zdjęć: ChatGPT Image 2.0 i okazała się ona znacznie większym sukcesem. Firma porównała skok jakościowy mówiąc, że wersja pierwsza do drugiej ma się tak, jak GPT-3 do GPT-5.
Model zaskakuje przywiązaniem do szczegółów i porównywany jest z najlepszymi wersjami Nano Banana. Wiele osób uważa, że nawet przebija model od Google’a. Zdecydowanie warto rzucić okiem!
Ciekawe linki
Pragmatic Engineer o nowym trendzie w Meta, Microsoft, Salesforce: devowie celowo spalają tokeny, żeby wywindować metryki AI usage traktowane jako targety. Witamy w korpo.
Chińczycy wracają z nową wersją DeepSeeka! 1.6T parametrów, open-source, 1 milion tokenów kontekstu. V4-Pro rywalizuje z najlepszymi zamkniętymi modelami, a V4-Flash to szybka i tania alternatywa, za którą Twój portfel Ci podziękuje.
Już uciekasz?
Jeśli Ci się podobało, kliknij 🧡 poniżej, to nic nie kosztuje! Doceniasz w ten sposób moją pracę i motywujesz do dalszych działań:)
Do następnego,
Olaf





