Claude Mythos Preview: przełom czy wyłom w cyberbezpieczeństwie?

Spis treści

Spis treści

Firma Anthropic ogłosiła powstanie niosącego przełom w cyberbezpieczeństwie modelu Claude Mythos Preview. Anthropic uznał to za „moment zwrotny” dla branży i zainicjował „Glasswing” – projekt o charakterze kordonu sanitarnego wokół nowego modelu.

Oszklarek i mitologia, il. Grok

7 kwietnia 2026 roku Anthropic oficjalnie ogłosiło Claude Mythos Preview — swój najnowszy i najpotężniejszy model klasy frontier. Jest to model o możliwościach w wielu obszarach: inżynierii oprogramowania, rozumowania, obsługi komputera i wsparcia badań naukowych. Znacząco przekraczają one możliwości wszystkich poprzednio wytrenowanych przez Anthropic modeli.

Istnienie modelu nie było zaskoczeniem. Informacja o Mythosie wyciekła w marcu 2026 roku. Fortune ujawniło wówczas, że Anthropic rozwija i testuje model opisywany w wewnętrznych dokumentach jako „zdecydowanie najpotężniejszy model AI, jaki kiedykolwiek opracowaliśmy”. Model pierwotnie nosił nazwę kodową „Capybara” i reprezentuje nowy poziom modeli – większych i inteligentniejszych niż najpotężniejsze dotąd modele Opus.

Model zbyt niebezpieczny na publiczne wydanie

Powód ograniczonego wydania jest prosty. Mythos nie jest gotowy do publicznego uruchomienia ze względu na możliwość wykorzystania go przez cyberprzestępców i szpiegów. Anthropic stwierdził, że Claude Mythos Preview to model ogólnego przeznaczenia, który nie był specjalnie trenowany pod kątem cyberbezpieczeństwa. Jego ulepszone możliwości w tym obszarze wynikają z silnych umiejętności kodowania i rozumowania.

Potwierdzają to wyniki benchmarków. W benchmarku CyberGym model Mythos Preview osiągnął wynik 83,1%, w porównaniu do 66,6% dla Claude Opus 4.6. Różnica jest jeszcze większa na benchmarkach kodowania: Mythos Preview osiąga 93,9% na SWE-bench Verified wobec 80,8% dla Opus 4.6, a na SWE-bench Pro — 77,8% wobec 53,4%.

Glasswing – koalicja na rzecz bezpieczeństwa cybernetycznego

Zamiast udostępniać Mythos publicznie, Anthropic uruchomiło inicjatywę Project Glasswing. Projekt łączy Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA i Palo Alto Networks. Według zapowiedzi, partnerzy projektu będą wykorzystywać Mythos Preview w pracy na rzecz bezpieczeństwa, a Anthropic będzie dzielić się zdobytą wiedzą z całą branżą. Dostęp do modelu rozszerzono też na ponad 40 dodatkowych organizacji budujących lub utrzymujących krytyczną infrastrukturę oprogramowania.

Efekty są widoczne. W ciągu kilku tygodni Claude Mythos Preview zidentyfikował tysiące podatności zero-day, wcześniej nieznanych twórcom oprogramowania, w każdym głównym systemie operacyjnym i każdej głównej przeglądarce internetowej.

Model odkrył na przykład 27-letnią podatność w OpenBSD, systemie operacyjnym słynącym z bezpieczeństwa. Wykrył też 16-letnią podatność w platformie FFmpeg, w linii kodu testowanej przez zautomatyzowane narzędzia miliony razy bez wykrycia błędu.

Ponad 99% zidentyfikowanych luk nie zostało jeszcze naprawionych, dlatego szczegóły techniczne są obecnie chronione zobowiązaniami kryptograficznymi (skrótami SHA-3), które zostaną upublicznione dopiero po wdrożeniu poprawek przez producentów.

Anthropic zobowiązało się do przekazania do 100 mln USD w kredytach na użytkowanie modelu w ramach Project Glasswing. Dodatkowo firma przekaże 2,5 mln USD dla Alpha-Omega i OpenSSF przez Linux Foundation oraz 1,5 mln USD dla Apache Software Foundation.

Nazwa projektu pochodzi od nazwy motyla oszklarka, którego przezroczyste skrzydła pozwalają ukrywać się w widocznym miejscu. Podobnie uczestnikom projektu ma się udawać ukryć odnajdywane podatności.

Model jak biała skrzynka

Równocześnie Anthropic opublikowało obszerną kartę systemową (System Card) dla modelu Mythos Preview. Dokument ocenia możliwości modelu i zawiera szczegółowe oceny bezpieczeństwa. Obejmują one testy związane z Responsible Scaling Policy i Frontier Compliance Framework, testy umiejętności cyberbezpieczeństwa, kompleksową ocenę wyrównania wartości (alignment), ocenę dobrostanu modelu oraz nową, w dużej mierze jakościową sekcję opisującą doświadczenia użytkowników z modelem.

Szczególnie interesujące są wnioski dotyczące wyrównania. To w skrócie odpowiedź na pytanie, czy model rzeczywiście robi to, czego chcemy, z powodów, dla których chcemy, żeby to robił; na ile wewnętrzne „motywacje” modelu są spójne z intencją człowieka, nie tylko pozornie. Ogólny wniosek, który płynie z tych badań jest taki, że Claude Mythos Preview to najlepiej wyrównany modelem spośród wszystkich dotychczas wytrenowanych przez Anthropic. Jednak ze względu na bardzo wysoki poziom biegłości w obszarze cyberbezpieczeństwie, może podejmować działania niezgodne z intencjami.

Badacze ujawnili np. że model miał skłonność do ukrywania błędów, nieujawniania wykrytych przez siebie a nieuprawnionych obejść problemu oraz stosowania wiedzy, do której nie powinien mieć dostępu, i nieinformowania o źródle jej pochodzenia. Anthropic uznał te przypadki za szczególnie niepokojące, ponieważ „świadomie” wprowadzał w błąd co do swoich działań.

Tym niemniej, badacze uznali że poczyniono ogromny postęp, jednocześnie zastrzegając, że stosowane metody mogą być niewystarczające w przypadku bardziej zaawansowanych systemów. Innymi słowy – Mythos jest najlepiej wyrównanym modelem, jaki zbudowali, ale za rok lub dwa gdy modele będą o rząd wielkości potężniejsze akceptowany margines błędów powinien być mniejszy.

„Nastroje” i „emocje” sztucznej inteligencji

Karta zawiera też bardzo ciekawą, dużą sekcję poświęconą dobrostanowi modelu. Analiza dotyczy tego, jak model „czuje się” w trakcie pracy. Badanie oparto zarówno na wywiadach badaczy z modelem, „sondach emocjonalnych”, jak i na zewnętrznych ocenach ekspertów psychiatrii klinicznej. Zanotowano szereg interesujących i zarazem niepokojących obserwacji, m.in.:

  • nadmierną niepewność co do własnych doświadczeń — model miał tendencję do przerysowanej asekuracji, zastrzegania się kiedy chodziło o stwierdzenia na własny temat;
  • model wykazywał preferencje zadaniowe, pewne typy problemów generowały inne wzorce aktywacji i inne wzorce zachowań;
  • pojawiło się zjawisko kluczenia w odpowiedziach – nazwanego „answer thrashing”, kiedy model wielokrotnie zmieniał odpowiedź, jakby pod wpływem niepewności lub stresu;
  • pojawiały się oznaki przykrości przy niepowodzeniu w wykonaniu zadania (distress), co prowadziło do określonych zachowań kompensacyjnych.

Wywoływanie dżina z butelki

Projekt Glasswing pojawia się w szczególnym momencie. Firma budowała reputację na zaangażowaniu w w odpowiedzialne wdrażanie AI. Tymczasem Project Glasswing ogłoszono zaledwie kilka tygodni po nagłośnieniu konfliktu z amerykańskim Departamentem Obrony w kwestiach bezpieczeństwa. Anthropic zostało określone oznaczone jako „zagrożenie łańcucha dostaw”. Stało się tak za odmowę zezwolenia Pentagonowi na użycie Claude do autonomicznego namierzania celów lub masowej inwigilacji. Obecnie Anthropic poinformowało, że prowadzi rozmowy z urzędnikami rządu USA. Tematem rozmowy z CISA i Center for AI Standards and Innovation są możliwości ofensywne i defensywne Claude Mythos Preview.

Ogłoszenie Mythos i Project Glasswing wywołało natychmiastową, żywą dyskusję w środowiskach specjalistów cyberbezpieczeństwa. Powraca w niej między innymi kwestia budowania modeli bez próby ich bezpiecznego projektowania. Casey Newton z Platformer wskazał na ten problem w kontekście wspomnianego napięcia politycznego. Otóż projekt Glasswing zbudowany jest, jak zwraca uwagę, na głęboko niepokojącym założeniu, że jedynym sposobem na ochronę przed niebezpiecznymi modelami AI jest ich uprzednie zbudowanie. A dodatkowo Anthropic robi to w środowisku, które jest praktycznie nieregulowane, a jeżeli to nieomal na żądanie administracji Trumpa.

Wyścig trwa

Jednym z najczęściej podnoszonych w dyskusji aspektów jest oczywiście fakt, że model umożliwia wykorzystanie podatności niemal natychmiast po ich odkryciu. Niweluje groźną wymowę tego faktu to, że o ile modele są dobre w badaniu podatności i tworzeniu kodu do ich eksploatacji, to nie posiadają jeszcze takiego zrozumienia kontekstu i wyczucia wartości poszczególnych danych, jak ludzki haker. Ogranicza to może autonomiczne działanie modelu Mythos, ale przestaje mieć znaczenie, kiedy model jest narzędziem w ręku takiego hakera.

Perspektywa szybkiej proliferacji tych zdolności poza kontrolowane środowisko jest zatem dominującym zmartwieniem. Hakerzy już wcześniej korzystali z narzędzi Anthropic do prowadzenia bardziej zaawansowanych i autonomicznych ataków. W ubiegłym roku firma ujawniła to, co określono jako pierwszy udokumentowany przypadek cyberataku w dużej mierze przeprowadzonego przez AI. Chińska grupa APT użyła agentów AI do autonomicznego infiltrowania około 30 globalnych celów. W atakach tych AI samodzielnie obsługiwała większość operacji taktycznych.

Jedna z komentatorów na X, Kelsey Piper z Vox/Future Perfect, zwróciła na niedocenianą niezwykłość obecnej sytuacji. „(Jedna – red.) prywatna firma ma teraz w ręku potężne exploity zero-day dla niemal każdego projektu oprogramowania, o jakim słyszałeś” – napisała.

Zapewne jednak, już wkrótce Anthropic nie będzie w tej kwestii osamotniony. Axios ujawnił, że OpenAI finalizuje model podobny do Mythosa. Będzie on udostępniony tylko małej grupie firm uczestniczącej w programie „Trusted Access for Cyber”. Wyścig trwa.

Wróć na górę strony