Potrzebujemy sztucznej inteligencji, która rozumie nasz kontekst kulturowy, ponieważ to jeden z elementów cyfrowej suwerenności. O pomyśle na obronę własnej narracji i podstawowych faktów w systemie dystrybucji informacji zdominowanym przez AI, rozmawiam z Marcinem Dąbrowskim, Chief AI Officer’em w firmie 3Soft i liderem projektu Obywatel Bielik.
Szymon Augustyniak, SmartFactory.Review: Bielik.ai to marka rozpoznawalna w polskim świecie technologii, która mieści w sobie także szereg projektów, jak budowa „strażnika AI” – Sójki. Teraz przyszedł czas na kolejny – „Obywatel Bielik”. Co kryje się pod tą nazwą?
Marcin Dąbrowski: To przedsięwzięcie z obszaru tzw. citizen science, czyli nauki obywatelskiej. Nasz model językowy, Bielik, jest modelem tekstowym. Jednak chcemy, aby zyskał on „oczy” – czyli zdolność rozpoznawania obrazów. Aby wytrenować taki model wizyjny, potrzebujemy – bagatela – miliona opisanych zdjęć. Zamiast polegać na gotowych, zagranicznych bazach, chcemy stworzyć zbiór danych. Planujemy angażować Polaków w budowanie rodzimej sztucznej inteligencji. Każdy, bez względu na wiek czy doświadczenie, będzie mógł za pomocą specjalnej aplikacji mobilnej lub webowej wykonać zdjęcie i opisać je własnymi słowami.
Dlaczego to takie ważne, abyśmy robili to „własnymi rękami”?
Podam zabawny przykład. Jeśli wrzucimy zdjęcie klusek śląskich do popularnych modeli wizyjnych z tej samej ligi co Bielik, możemy usłyszeć, że to makaroniki francuskie, pierniczki, a nawet potrawa indyjska. Model rozpoznaje wzorce, ale nie ma intuicji ani osadzenia w naszym kontekście. Bez Polaka, który powie: „to jest tradycyjne danie kuchni śląskiej”, AI nie nauczy się poprawnie interpretować naszego świata.
Rozumiem, że to prosty przykład a gra toczy się także o właściwe zrozumienie przez modele językowe naszego kontekstu także w bardziej istotnych sprawach.
W tym miejscu dotykamy tak naprawdę kwestii suwerenności cyfrowej, którą dzielę na trzy płaszczyzny. Po pierwsze, technologiczna: budujemy kompetencje tutaj, w Polsce, zamiast być tylko konsumentami technologii zza oceanu. Jak mówi profesor Dragan, robienie czegoś samodzielnie to najlepszy sposób na naukę. Po drugie, suwerenność językowa: zależy nam, aby model rozumiał nasze idiomy i specyfikę komunikacji. I po trzecie, suwerenność kulturowa. Chcemy, aby narracja o naszej historii i kulturze była prowadzona zgodnie z prawdą, a nie przez pryzmat zewnętrznych interpretacji.
Mówiąc inaczej: sztuczna inteligencja uosabiana przez popularne modele LLM cierpi na swoistą „ślepotę kulturową”? Na czym ona polega i skąd się bierze?
Ponieważ te modele, mimo swojej potęgi, nie posiadają intuicji ani doświadczenia – one jedynie rozpoznają wzorce statystyczne. Problem pojawia się w momencie, gdy te wzorce są budowane bez uwzględnienia polskiego kontekstu. Brak wpływu na opis obiektów graficznych sprawia, że polska kultura staje się w oczach globalnej AI zniekształcona lub wręcz nieistniejąca.
Czyli to zniekształcenie ma głębszy wymiar? Dziś na zagranicznych forach zdjęcia z Warszawy okresu wojennego często otrzymują błędne atrybucje – jak opowiadał mój przyjaciel, na przykład każde zdjęcie ruin jest podpisywane jako Powstanie w Getcie, niezależnie od faktycznego miejsca i czasu akcji. Jeśli pozwolimy, by AI karmiła się takimi niesprawdzonymi danymi, wkrótce to algorytmy będą decydować, jak wyglądała nasza historia i uczyć jej, globalnie, młode pokolenie.
Ma to rzeczywiście wymiar krytyczny dla naszej tożsamości historycznej. Projekt Obywatel Bielik ma temu zapobiec – chcemy, by, trzymając się tego przykładu z II wojny światowej, opis powstańca warszawskiego w niemieckim hełmie był na tyle precyzyjny, by nikt w przyszłości nie miał wątpliwości, kogo widzi na zdjęciu – uczestnika ruchu oporu walczącego z Niemcem.
A szerzej – każdy opis, który możemy dostarczyć, to lekcja dla modelu. My chcemy mieć wpływ na to, jakich lekcji udzielamy. Chcemy, by narracja o Polsce była prowadzona zgodnie z rzeczywistością i prawdą historyczną. Zależy nam, by nie była wypadkową błędnych skojarzeń globalnych algorytmów. To nie jest działanie polegające na forsowaniu jakiejś wersji prawdy. Po prostu bronimy podstawowych faktów dotyczących historii, kultury, naszego dziedzictwa w dziedzinie sztuki czy nauki.
Skąd pewność, że giganci technologiczni będą uczyli się od Obywatela Bielika czy z polskich źródeł?
W pewnym sensie już to robią, choć w sposób mało transparentny. Obserwujemy zjawisko „skrapowania” danych – boty z USA czy Azji beznamiętnie pobierają wszystko, co jest dostępne w domenie publicznej. Przykładem jest baza polskich czasopism naukowych Bazhum. Tu ruch wzrósł nagle z 500 do 18 000 wizyt miesięcznie, właśnie za sprawą botów trenujących modele.
Tworząc Obywatelski Zbiór Danych w ramach Bielika, budujemy zasób, który jest unikalny. Długofalowo to, jakich treści i języka używamy dzisiaj, będzie odbiciem w przyszłych modelach AI. Instytucje kultury i obywatele pośrednio kształcą przyszłe systemy inteligencji, dlatego tak ważne jest, by te dane były najwyższej jakości.
Dotknąłeś jeszcze jednego drażliwego aspektu. W jaki sposób projekt „Obywatel Bielik” zamierza ucywilizować relację między twórcami AI a dostawcami danych? W przypadku najpopularniejszych LLM-ów widać, że ta relacja nie jest fair.
Wielkie modele „skrapują” dane automatycznie, co generuje koszty infrastrukturalne dla instytucji, nie dając nic w zamian. To de facto cyfrowy kolonializm.
My stawiamy na model partnerski. Współpracujemy m.in. z Narodowym Archiwum Cyfrowym (NAC). Oni udostępniają nam zdjęcia historyczne, a my w zamian dostarczamy im narracyjne opisy wykonane przez obywateli. To generuje realną wartość, poprzez np. wzrost dostępności cyfrowej dla osób niewidomych, które mogą „zobaczyć” zdjęcie dzięki głosowej deskrypcji.
Kogo najbardziej chcecie zaangażować w ten proces?
Mamy bardzo ambitny cel – milion zdjęć wymaga zaangażowania kilkudziesięciu tysięcy osób. Jedną z kluczowych grup są seniorzy. Choć czasem nie pamiętają, co działo się wczoraj, doskonale potrafią opisać szczegóły na zdjęciach sprzed kilkudziesięciu lat.
Widzimy tu szansę na most międzypokoleniowy: wnuk pomaga w obsłudze technicznej smartfona, a dziadek lub babcia dzielą się bezcenną wiedzą historyczną i kulturową. To taki nasz „romantyczny model” współpracy, w który głęboko wierzymy.
Kiedy aplikacja „Obywatel Bielik” trafi do naszych telefonów?
Już teraz pod adresem obywatel.bielik.ai działa aplikacja w wersji beta, która pozwala na opisywanie zdjęć z dysku komputera. Natomiast premiera pełnej aplikacji mobilnej w sklepach Apple i Google Play planowana jest na przełom marca i kwietnia. Będzie ona zawierać elementy grywalizacji, rankingi i zachęty, aby utrzymać zaangażowanie użytkowników.
Czy masz jakieś rady dla przyszłych „nauczycieli” sztucznej inteligencji?
Najważniejsza zasada: opisujmy zdjęcie tak, jakbyśmy chcieli je opowiedzieć komuś przez telefon. Nie szukamy zdjęć artystycznych – te rozmazane czy przycięte też są cenne, bo uczą model realizmu. Unikajmy jednak interpretacji. Zamiast pisać „człowiek spieszy się do pracy”, lepiej napisać „mężczyzna biegnie przez pasy”, bo to faktycznie widać na obrazie. Każdy taki opis to lekcja dla modelu. Zapraszamy wszystkich, by wzięli współodpowiedzialność za to, jak ta nauka AI będzie przebiegać.
Rozmowa odbyła się audycji Limes inferior w Radiu Wnet.


