Claude Mythos Preview: przełom czy wyłom w cyberbezpieczeństwie?

Spis treści

Spis treści

Firma Anthropic ogłosiła powstanie niosącego przełom w cyberbezpieczeństwie modelu Claude Mythos Preview, który wykazuje m.in. bezprecedensowe możliwości identyfikowania i eksploatowania luk w zabezpieczeniach. Anthropic uznał to za „moment zwrotny” dla branży i zainicjował projekt „Glasswing”.

Oszklarek i mitologia, il. Grok

7 kwietnia 2026 roku Anthropic oficjalnie ogłosiło Claude Mythos Preview — swój najnowszy i najpotężniejszy model klasy frontier. Jest to model o możliwościach w wielu obszarach — w tym inżynierii oprogramowania, rozumowania, obsługi komputera i wsparcia badań naukowych — które znacząco przekraczają możliwości wszystkich poprzednio wytrenowanych przez Anthropic modeli.

Istnienie modelu nie było jednak zaskoczeniem. Informacja o Mythosie wyciekła w marcu 2026 roku, gdy Fortune ujawniło, że Anthropic rozwija i testuje nieudostępniony model opisywany w wewnętrznych dokumentach firmy jako „zdecydowanie najpotężniejszy model AI, jaki kiedykolwiek opracowaliśmy”. Fortune

Model pierwotnie nosił nazwę kodową „Capybara” i reprezentuje nowy poziom modeli — większych i inteligentniejszych niż dotychczasowe modele Opus, które do tej pory były najpotężniejszymi w ofercie Anthropic.

Model zbyt niebezpieczny na publiczne wydanie

Powód ograniczonego wydania jest prosty: Mythos nie jest gotowy do publicznego uruchomienia ze względu na możliwość wykorzystania go przez cyberprzestępców i szpiegów. Anthropic stwierdził, że Claude Mythos Preview to model ogólnego przeznaczenia, który nie był specjalnie trenowany pod kątem cyberbezpieczeństwa. Jego ulepszone możliwości w tym obszarze wynikają z silnych umiejętności kodowania i rozumowania.

Potwierdzają to wyniki benchmarków. W benchmarku CyberGym model Mythos Preview osiągnął wynik 83,1%, w porównaniu do 66,6% dla Claude Opus 4.6. Różnica jest jeszcze większa na benchmarkach kodowania: Mythos Preview osiąga 93,9% na SWE-bench Verified wobec 80,8% dla Opus 4.6, a na SWE-bench Pro — 77,8% wobec 53,4%.

Glasswing – koalicja na rzecz bezpieczeństwa cybernetycznego

Zamiast udostępniać Mythos publicznie, Anthropic uruchomiło inicjatywę Project Glasswing. Projekt łączy Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA i Palo Alto Networks. Według zapowiedzi, partnerzy projektu będą wykorzystywać Mythos Preview w pracy na rzecz bezpieczeństwa, a Anthropic będzie dzielić się zdobytą wiedzą z całą branżą. Dostęp do modelu rozszerzono też na ponad 40 dodatkowych organizacji budujących lub utrzymujących krytyczną infrastrukturę oprogramowania.

Efekty są widoczne. W ciągu kilku tygodni Claude Mythos Preview zidentyfikował tysiące podatności zero-day, wcześniej nieznanych twórcom oprogramowania, w każdym głównym systemie operacyjnym i każdej głównej przeglądarce internetowej.

Model odkrył na przykład 27-letnią podatność w OpenBSD, systemie operacyjnym słynącym z bezpieczeństwa. Wykrył też 16-letnią podatność w platformie FFmpeg, w linii kodu testowanej przez zautomatyzowane narzędzia miliony razy bez wykrycia błędu.

Ponad 99% zidentyfikowanych luk nie zostało jeszcze naprawionych, dlatego szczegóły techniczne są obecnie chronione zobowiązaniami kryptograficznymi (skrótami SHA-3), które zostaną upublicznione dopiero po wdrożeniu poprawek przez producentów.

Anthropic zobowiązało się do przekazania do 100 mln USD w kredytach na użytkowanie modelu w ramach Project Glasswing, a także 2,5 mln USD dla Alpha-Omega i OpenSSF przez Linux Foundation oraz 1,5 mln USD dla Apache Software Foundation.

Nazwa projektu pochodzi od nazwy motyla oszklarka, którego przezroczyste skrzydła pozwalają ukrywać się w widocznym miejscu – podobnie jak uczestnikom projektu ma się udawać ukrywać odkrywane podatności.

Model jak biała skrzynka

Równocześnie Anthropic opublikowało obszerną kartę systemową (System Card) dla modelu Mythos Preview. Dokument ocenia możliwości modelu i zawiera szczegółowe oceny bezpieczeństwa, obejmując testy związane z Responsible Scaling Policy i Frontier Compliance Framework, testy umiejętności cyberbezpieczeństwa, kompleksową ocenę wyrównania wartości (alignment), ocenę dobrostanu modelu oraz nową, w dużej mierze jakościową sekcję opisującą doświadczenia użytkowników z modelem.

Szczególnie interesujące są wnioski dotyczące wyrównania. To w skrócie odpowiedź na pytanie, czy model rzeczywiście robi to, czego chcemy, z powodów, dla których chcemy, żeby to robił; na ile wewnętrzne „motywacje” modelu są spójne z intencją człowieka, nie tylko pozornie. Ogólny wniosek jest taki, że Claude Mythos Preview jest najlepiej wyrównanym modelem spośród wszystkich dotychczas wytrenowanych przez Anthropic według dostępnych miar. Jednak ze względu na bardzo wysoki poziom biegłości w obszarze cyberbezpieczeństwie, może podejmować działania niezgodne z intencjami.

Badacze ujawnili np. że model miał skłonność do ukrywania błędów, nieujawniania wykrytych przez siebie a nieuprawnionych obejść problemu oraz stosowania wiedzy, do której nie powinien mieć dostępu, i nieinformowania o źródle jej pochodzenia. Anthropic uznał te przypadki za szczególnie niepokojące, ponieważ „świadomie” wprowadzał w błąd co do swoich działań.

Tym niemniej, badacze uznali że poczyniono ogromny postęp, jednocześnie zastrzegając, że stosowane metody mogą być niewystarczające w przypadku bardziej zaawansowanych systemów. Innymi słowy – Mythos jest najlepiej wyrównanym modelem, jaki zbudowali, ale za rok lub dwa gdy modele będą o rząd wielkości potężniejsze akceptowany margines błędów powinien być mniejszy.

Karta zawiera też bardzo ciekawą, dużą sekcję poświęconą dobrostanowi modelu. To analiza tego, jak model „czuje się” w trakcie pracy, opartą zarówno na wywiadach badaczy z modelem, „sondach emocjonalnych”, jak i na zewnętrznych ocenach ekspertów psychiatrii klinicznej. Zanotowano kilka intersujących obserwacji:

  • nadmierną niepewność co do własnych doświadczeń — model miał tendencję do przerysowanej asekuracji, zastrzegania się kiedy chodziło o stwierdzenia na własny temat;
  • model wykazywał preferencje zadaniowe, pewne typy problemów generowały inne wzorce aktywacji i inne wzorce zachowań;
  • pojawiło się zjawisko kluczenia w odpowiedziach – nazwanego „answer thrashing”, kiedy model wielokrotnie zmieniał odpowiedź, jakby pod wpływem niepewności lub stresu;
  • pojawiały się oznaki przykrości przy niepowodzeniu w wykonaniu zadania (distress), co prowadziło do określonych zachowań kompensacyjnych.

Co dalej? Wyścig trwa

Projekt Glasswing pojawia się w szczególnym momencie. Firma budowała reputację na zaangażowaniu w w odpowiedzialne wdrażanie AI, a Project Glasswing ogłoszono zaledwie kilka tygodni po nagłośnieniu konfliktu z amerykańskim Departamentem Obrony w kwestiach bezpieczeństwa. Anthropic zostało niedawno oznaczone jako „zagrożenie łańcucha dostaw” za odmowę zezwolenia Pentagonowi na użycie Claude do autonomicznego namierzania celów lub masowej inwigilacji.

Obecnie Anthropic poinformowało, że prowadzi rozmowy z urzędnikami rządu USA na temat możliwości ofensywnych i defensywnych Claude Mythos Preview, w tym rozmowy z CISA i Center for AI Standards and Innovation.

Anthropic nie planuje ogólnodostępnego wydania Claude Mythos Preview, ale celem jest umożliwienie użytkownikom bezpiecznego wdrażania modeli klasy Mythos na dużą skalę, nie tylko dla celów cyberbezpieczeństwa.

Ogłoszenie Mythos i Project Glasswing wywołało natychmiastową, żywą dyskusję zarówno na X, jak i w środowiskach specjalistów cyberbezpieczeństwa. Casey Newton z Platformer podsumował wspomniane napięcie politycznie: Glasswing zbudowany jest na głęboko niepokojącym założeniu, że jedynym sposobem na ochronę przed niebezpiecznymi modelami AI jest ich uprzednie zbudowanie. A Anthropic robi to w środowisku, które jest praktycznie nieregulowane, niemal na żądanie administracji Trumpa.

Jednym z najczęściej podnoszonych w dyskusji aspektów jest fakt, że AI umożliwia obecnie eksploatację podatności niemal natychmiast po ich odkryciu. Niweluje to może fakt, że modele które są dobre w badaniu podatności i tworzeniu kodu do ich eksploatacji nie mają zrozumienia kontkstu i wyczucia, co jest najcenniejsze jakim dysponuje ludzki haker.

Nie zmienia to jednak faktu, że perspektywa szybkiej proliferacji tych zdolności poza kontrolowane środowisko jest dominującym zmartwieniem. Hakerzy już wcześniej korzystali z narzędzi Anthropic do prowadzenia bardziej zaawansowanych i autonomicznych ataków. W ubiegłym roku firma ujawniła to, co opisano jako pierwszy udokumentowany przypadek cyberataku w dużej mierze przeprowadzonego przez AI, kiedy chińska grupa APT użyła agentów AI do autonomicznego infiltrowania około 30 globalnych celów, przy czym AI samodzielnie obsługiwała większość operacji taktycznych.

Jedna z komentatorów na X, Kelsey Piper z Vox/Future Perfect, zwróciła na niedocenianą niezwykłość sytuacji: „prywatna firma ma teraz w rękach niezwykle potężne exploity zero-day dotyczące niemal każdego projektu oprogramowania, o jakim słyszałeś”.

Zapewne jednak, wkrótce Anthropic nie będzie osamotniony; Axios ujawnił, że OpenAI finalizuje model podobny do Mythosa, który udostępni tylko małej grupie firm przez swój istniejący program „Trusted Access for Cyber”. Wyścig trwa.

Wróć na górę strony