🖥️ #94: Opus 4.8 - Anthropic nie daje za wygraną

+ Google I/O 2026, Cursor Composer 2.5 i Claude Code w dużych projektach

cze 01, 2026

Siema!

Anthropic i Google zaszaleli z nowościami. Dostaliśmy nowego Opusa i tzw. Dynamic Workflows, które zjedzą nasze tokeny szybciej niż kiedykolwiek. Ze stajni Google dwa nowe modele i zmiana strategii dla Antigravity…

Zanim to wszystko i wiele więcej, nowość ode mnie już na kanale👇

Multi-agentowe kodowanie z AI

W pewnych momencie jeden agent przestaje nam wystarczać i zaczynamy szukać sposobów jak pracować efektywniej, szybciej i nad wieloma rzeczami jednocześnie.

Dziś bierzemy na tapet cztery techniki multi-agentowego programowania z agentami. Przechodzimy przez Subagentów, Git Worktrees, Agent Teams oraz Ralph Loopa.

Mówimy o zastosowaniach, koszatach i tradeoffach każdej z technik. Po tym filmie świadomie wybierzesz to, co sprawdzi się w Twoim projekcie - od pełnej kontroli i human-in-the-loop po autonomię agentów.

Opus 4.8 i Dynamic Workflows

Premiera Opusa 4.7 nie poszła Anthropicowi najlepiej. OpenAI w tym samym czasie nieco się odkuło z premierą GPT-5.5 oraz Images 2.0. Korzystam z obu od premiery i mam pozytywne odczucia. Testowałem 5.5 przez Codexa zarówno w wersji desktopowej, jak i CLI. Dla wielu tasków spisywał się bardzo dobrze, często lepiej od modelu ze stajni pomarańczowych. Chociaż chwilami ciężko mi się przestawić na ekosystem OpenAI, to narzekać nie będę.

Wracając do nieudanej premiery. Anthropic szybko się zreflekował i dostaliśmy kilka fajnych newsów. Po pierwsze, do zespołu dołączył Andrej Karpathy, którego chyba nie trzeba nikomu przedstawiać. Totalna topka w branży, świetny ruch, również od strony marketingowej.

Drugą istotną nowością jest premiera Opusa 4.8. Zobaczmy, co tym razem ugotowali.

Jak zawsze, jest lepiej. Nowy Opus przebija wszystko, co widzieliśmy poprzednio w najróżniejszych benchmarkach, także tych skupionych na AI coding, takich jak SWE-Bench Pro i Terminal-Bench 2.1. Nie będę zbyt odkrywczy, jeśli powiem to, co zdarza mi się mówić przy praktycznie każdej premierze nowych modeli - nie warto ufać benchmarkom.

Benchmark table showing how Claude Opus 4.8 compares to its predecessor and to other models on tests of coding, agentic skills, reasoning, and practical knowledge work tasks.

Jeśli chodzi o cenę, zostajemy przy tej samej kasie co przy Opus 4.7. Co więcej, tryb fast, który jest 2.5 raza szybszy, będzie od teraz 3 razy tańszy niż poprzednio. Miło.

Anthropic reklamuje nowego Opusa jako model, który jest przystosowany do tzw. long-running tasks i ogólnie do kodowania w lepszej jakości. Dajmy temu trochę czasu, poklikajmy i sprawdźmy na własną rękę. Na pierwsze rzut oka nie wydaje się to być ogromną rewolucją, ale myślę, że zobaczymy większy przeskok niż przy premierze Opusa 4.7.

Wraz z premierą modelu pokazano Dynamic Workflows, które wyglądają bardzo ciekawie. Polega to na tym, że Claude w locie przygotowuje skrypt, który orkiestruje pracę dziesiątek, a nawet setek subagentów, które wspólnie pracują nad wykonaniem jakiegoś większego zadania. Cool.

Jak to działa?

Claude na bazie Twojego prompta dynamicznie rozbija zadanie na subtaski, spawnując wielu subagentów równolegle. Agenci mogą podejmować problem z wielu perspektyw, badać różne ścieżki tak, żeby na końcu wykonać jak najlepiej powierzonego taska.

Do czego może się to sprawdzić? Dynamic Workflows przeznaczone są do dużych zadań, które mogą być wykonywane na przestrzeni wielu godzin czy dni. Na przykład do potężnych refactorów, takich jak przepisanie Bun z języka Zig na Rust. 750 000 linii kodu. O takim właśnie przykładzie wspominają twórcy w premierowym wpisie.

Trzeba pamiętać, że taka zabawa będzie nas słono kosztować. No i kontrola - tutaj nasza rola sprowadza się do początkowego inputu, całą resztę wykonuje AI. Ma to swoje wady i zalety. O tym i innych technikach multi-agentowych mówiliśmy sobie w moim najnowszym filmie.

Co dalej? Anthropic zapowiada wypuszczenie jeszcze mądrzejszych modeli w najbliższych tygodniach. Będą one zbliżone poziomem do Mythosa, którym straszono nas jeszcze kilka tygodni temu…

Google I/O 2026

A co u Google? Podczas corocznej imprezy I/O zaprezentowali masę nowości. Sprawdźmy te najciekawsze.

Po pierwsze Gemini 3.5 Flash, czyli nowy modeli z serii tych szybkich. Jak na model tej klasy, radzi sobie w benchmarkach bardzo dobrze. Niektóre testy porównują go nawet z Opusem 4.7 czy GPT-5.5. Wiadomo jak to jest z benchmarkami, ale jeśli w nie wierzymy, to Flash wychodzi tutaj bardzo dobrze, oferując znacznie niższą cenę od konkurencji. Co ciekawe, 3.5 Flash jest aż 3 razy droższy od swojego poprzednika w postaci 3.1 Flash, ałć.

Poza Flash zaprezentowano również Gemini Omni, czyli nową serię multimodalnych modeli. Google reklamuje Omni jako model, który z dowolnego inputu może wypluć dowolny output. Model pracuje na zdjęciach, wideo, tekście, audio i potrafi np. wygenerować realistycznie wyglądające wideo. Na pierwszy rzut oka bardziej do przeznaczenia

Nowe modele nowymi modelami, a co z Antigravity? Mam wrażenie, że do tej pory znajdowało się ono nieco w cieniu konkurencji z Anthropica i OpenAI. Google postanowił coś z tym zrobić i zaprezentował nową strategię. Pokazano Antigravity 2.0, czyli agent-first apkę desktopową, nowe CLI, które zastępuje Gemini CLI oraz SDK. W tym kontekście pokazano również Managed Agents, czyli platformę do zarządzania agentami.

Poza wieloma nowościami w samym ekosystemie (search, email, itd.), jeszcze z ciekawszych rzeczy zaprezentowano nowy standard WebMCP. Ma on pomóc tworzyć lepsze narzędzia dla agentów poprzez wskazówki dotyczące interaktywnych elementów na stronie. W repozytorium na GitHubie znajdziesz kilka przykładów.

Listę wszystkich nowości znajdziesz w artykule od Google. Polecam Ci też sprawdzić film Marcina z Przeprogramowani , który miał okazję być na miejscu i podzielił się swoimi wrażeniami z całego eventu.

Composer 2.5

Ostatnio pozytywnie zaskoczyła mnie premiera nowego modelu od Cursora - Composer 2.5. Niedawno gadaliśmy o wersji 2.0, a już dostajemy coś nowego. Biorąc pod uwagę to, że już każdy gracz na rynku ma własną aplikację desktopową, będącą niejako konkurencją dla Cursora, rozwój własnych modeli nie wydaje się złym posunięciem.

Composer 2.5 bazuje na tym samym chińskim modelu co jego poprzednik - KIMI K2.5. Jest on specjalnie doszkalany, żeby jak najlepiej radzić sobie z programistycznymi taskami.

Sam model prezentuje się bardzo dobrze, pokazują to benchmarki i wrażenia z społeczności. Na pewno nie jest to jeszcze poziom topki, ale biorąc pod uwagę dużo niższą cenę ($0.50/M input & $2.50/M output), warto rozważyć jako alternatywę do tych najpopularniejszych modeli.

Firma już teraz zapowiada kolejne, większe modele. Mają być one tworzone od zera we współpracy z SpaceX.

Ciekawe linki

Anthropic: Claude Code w dużych, produkcyjnych projektach

Najlepsze praktyki pracowania z CC w projektach o dużej skali, prosto od Anthropica. Często to, co sprawdza się w naszych projekcikach na boku, nie ma zastosowania, gdy projekt rozwijany jest przez dziesiątki zespołów. Wiele z nich sam praktykuję w swoich projektach, zdecydowanie warto sprawdzić.

PLLuM: polska rodzina modeli się powiększa

Chociaż w kontekście polskich modeli najczęściej słyszymy o Bieliku, to warto pamiętać, że istnieje coś takiego jak PLLuM, czyli polskie modele open source. Dostaliśmy aż 11 nowych modeli, od 4B do 70B parametrów.

Już uciekasz?

Jeśli Ci się podobało, kliknij 🧡 poniżej, to nic nie kosztuje! Doceniasz w ten sposób moją pracę i motywujesz do dalszych działań:)

Do następnego,

Olaf

Dyskusja o tym Poście

Gotowy na więcej?