CyberbezpieczeństwoSztuczna inteligencjaPolecane tematy

Uczenie antagonistyczne i inne niebezpieczeństwa. Co grozi (użytkownikom) sztucznej inteligencji?

Powszechności adaptacji innowacji technologicznych w ostatnich dekadach dorównuje tempo i zakres powstającego długu technologicznego w zakresie bezpieczeństwa. Fascynacji nowościami towarzyszy ignorowanie konieczności rozwijania równolegle systemów ochrony. Koszt tej niefrasobliwości możemy ponieść także w obszarze zastosowań sztucznej inteligencji.

Uczenie antagonistyczne i inne niebezpieczeństwa. Co grozi (użytkownikom) sztucznej inteligencji?
Ilustracja: Copilot

W 1988 roku zmierzyliśmy się z jedną z pierwszych masową infekcją złośliwego kodu, która dotknęła znaczącą część ówczesnego Internetu. Spowodował ją robak komputerowy o nazwie Morris. Kluczowym elementem ataku było przepełnienie bufora, czyli podatność, która stanowiła wyzwanie dla osób zajmujących się cyberbezpieczeństwem na wiele lat od tego zdarzenia. To historyczne wydarzenie ma znaczenie symboliczne, ponieważ na początku marca 2024 roku pojawiła się publikacja o robaku Morris II, wykorzystującym podatności ekosystemów generatywnej sztucznej inteligencji do ataku typu zero-click.

Dzisiejsza fascynacja szybkim postępem w dziedzinie modeli uczenia maszynowego (tak ochoczo nazywanych sztuczną inteligencją) niesie ze sobą ryzyko zaniedbań w zakresie bezpieczeństwa. Modele uczenia maszynowego są coraz częściej wykorzystywane w diagnostyce, systemach autonomicznych pojazdów czy instytucjach finansowych. W miarę jak stają się integralną częścią naszego codziennego życia, rośnie potencjalna powierzchnia ataków i wpływ jaki mogą mieć na nas podatności z nimi związane. Kluczowe jest, by nie powielić błędów z implementacji wcześniejszych innowacji, lecz od początku wpisać bezpieczeństwo w cykl życia systemów sztucznej inteligencji. Uporządkowanie, nazwanie zagrożeń i zbudowanie ogólnych, wspólnych standardów bezpieczeństwa dla obszaru AI jest obecnie nadal na wstępnym etapie.

Nazwać zagrożenia – próba definicji i regulacji

Próby regulacji i standaryzacji nie nadążają za rozwojem systemów sztucznej inteligencji, co stwarza wyzwania dla oceny i weryfikacji jakości modeli. Próby te są jednak podejmowane.

Unia Europejska przedstawiła ramy prawne w postaci AI Act. Akt ten skupia się na kategoryzacji aplikacji według poziomu ryzyka, wprowadza wymogi przejrzystości, nadzoru oraz bezpieczeństwa danych. Kolejną inicjatywą jest The Bletchley Declaration, będąca konsekwencją AI Safety Summit zorganizowanego przez Wielką Brytanię. W deklaracji, państwa-sygnatariusze, w tym Polska, zobowiązują się do międzynarodowej współpracy nad bezpieczeństwem i badaniami w zakresie sztucznej inteligencji.

Obie inicjatywy regulacyjne dowodzą, że ogólnie pojęty standard bezpieczeństwa modeli wciąż jest w początkowej fazie rozwoju. Wyzwaniem jest międzynarodowy konsensus i harmonizacja, by zapewnić skuteczną ochronę bez hamowania innowacji technologicznych.

Uczenie antagonistyczne i inne niebezpieczeństwa. Co grozi (użytkownikom) sztucznej inteligencji?
Rys. 1. Porównanie modeli bazowych pod względem zgodności z regulacjami w propozycji AI Act; źródło: Stanford Center for Research on Foundation Models (CRFM), Institute for Human-Centered Artficial Intelligence (HAI)

Jak próby te mają się do rzeczywistości? Odpowiedź przynosi praca badaczy Stanford Center for Research on Foundation Models (CRFM) powstała w Institute for Human-Centered Artficial Intelligence (HAI).  Według analizy, najważniejsze modele bazowe nie spełniają wymagań regulacji AI Act, głównie z powodu braku przejrzystości w zakresie danych i metod ewaluacji. W konsekwencji potrzebne może okazać się ponowne zaprojektowanie i dostosowania modeli do nowych wymagań.

Atlas złoczyńców: jak MITRE klasyfikuje ataki na AI

Na podstawie ram MITRE ATT&CK, w połowie 2021 roku powstał ATLAS MITRE, czyli powszechnie dostępna, aktualizowana w sposób ciągły, baza wiedzy o taktykach i technikach ataków na systemy wykorzystujące sztuczną inteligencję. Dane pochodzą z obserwacji rzeczywistych ataków, dokonanych przez zespoły AI Red Team oraz inne grupy związane z cyberbezpieczeństwem. ATLAS stanowi rozwinięcie ram z ATT&CK, gdzie klasyfikowano już zaobserwowane ataki na systemy wykorzystujące modele uczenia maszynowego.

Uczenie antagonistyczne i inne niebezpieczeństwa. Co grozi (użytkownikom) sztucznej inteligencji?
Rys. 2. Taktyki oraz wybrane techniki według Atlas MITRE z kwietnia 2024.

 

Uczenie antagonistyczne i inne niebezpieczeństwa. Co grozi (użytkownikom) sztucznej inteligencji?
Tab. 1. Opis taktyk zaproponowany w ATLAS MITRE

Z perspektywy ataków na systemy sztucznej inteligencji, całkowicie nową taktyką jest ML Attack Staging. Obejmuje ona trzy techniki: wytworzenie modelu zastępczego (ang. surrogate model), zatrucie modelu atakowanego oraz tworzenie antagonistycznych przykładów. Techniki owe są częścią zbioru ataków nazwanego antagonistycznym uczeniem maszynowym (ang. adversarial machine learning). Pojęcie to obejmuje szeroki zakres ataków oraz mechanizmów obrony i wymaga osobnego zdefiniowania.

Antagonistyczne uczenie maszynowe

Próba standaryzacji taksonomii ataków i mechanizmów obrony modeli została podjęta przez National Institute of Standards and Technology (NIST) w raporcie NIST Trustworthy and Responsible AI. Autorzy raportu ułożyli hierarchię pojęć (uwzględniając kluczowe metody uczenia maszynowego), cykle życia systemu i cele atakującego. Zaproponowana taksonomia została podzielona na dwie klasy systemów sztucznej inteligencji – predykcyjne i generatywne.

Ze względu na cele atakującego, klasa predykcyjna systemów uczenia maszynowego została podzielona na trzy zbiory ataków na: dostępność (ang. availability), integralność (ang. integrity) i prywatność (ang. privacy). Cele atakujących systemy generatywnego uczenia maszynowego uwzględniają cztery obszary: dostępność, integralność, prywatność i nadużycia.

Uczenie antagonistyczne i inne niebezpieczeństwa. Co grozi (użytkownikom) sztucznej inteligencji?
Rys. 3. Taksonomia ataków na predykcyjne i generatywne systemy sztucznej inteligencji według NIST (odpowiednio po lewej i prawej stronie). Na brzegach każdego okręgu, reprezentującego cel atakującego, znajdują się zdolności wymagane do osiągnięcia przez atakującego celu. Poszczególnym zdolnościom przyporządkowane zostały klasy ataków.

Porównując typy ataków, wspomnieć trzeba o różnicach cykli życia systemów predyktywnych i generatywnych. W systemach predykcyjnych ataki prowadzone były w fazie uczenia (ang. training-time) lub wdrożenia (ang. deployment-time). Systemy generatywne różnią się od modeli predykcyjnych strukturą tych faz. W ramach fazy uczenia systemów generatywnych wyróżniamy dwa kroki: trenowanie modelu bazowego (ang. foundation model), i strojenie, kiedy fundament jest douczany na wyspecjalizowanym do przewidzianego zadania zbiorze danych (ang. fine-tuning). Ponieważ modele bazowe są tworzone na bazie ogromnych zbiorów danych, łatwość ataku zatrucia takiego modelu jest o wiele wyższa niż w przypadku systemów predykcyjnych. Faza wdrożenia w modelach predykcyjnych jest zastąpiona w modelach generatywnych przez fazę inferencji (ang. inferencje-time). W przypadku tekstowych systemów generatywnych wektory ataku wynikają z metod implementacji modelu w systemie. Może to być poprzedzenie instrukcji użytkownika predefiniowanymi komendami, np. dotyczącymi zachowania modelu w konwersacji z użytkownikiem, dostarczanie w czasie rzeczywistym danych z zewnętrznych źródeł, obsługa agentów.

Atak na dostępność (ang. availability) to próba obniżenia wydajności wdrożonego modelu. Służą do tego ataki zatrucia danych (ang. data poisoning) i modeli (ang. model poisoning) lub ataki zwiększające zużycie energii i opóźnienia (ang. energy-latency) podnozące koszty pracy modelu.

Naruszenie integralności (ang. integrity) polega na zmianie wyniku modelu w postaci niepoprawnej predykcji. Osiągnięcie tego efektu jest możliwe przy użyciu ataku uniku (ang. evasion attack) na wdrożony model lub poprzez atak zatrucia (ang. poisoning attack) w fazie treningowej. Wytworzenie przykładu antagonistycznego polega na modyfikacji danych (użytych w procesie wytwarzania modelu lub w procesie predykcji), co spowoduje niepoprawną klasyfikację w sposób niezauważalny dla człowieka.

Kompromitacja prywatności (ang. privacy) polega na uzyskaniu informacji na temat danych treningowych (ang. data privacy) lub samego modelu uczenia maszynowego (ang. model privacy). Celem atakującego może być rekonstrukcja danych (lub ich cech) użytych w procesie uczenia modelu (ang. reconstruction), potwierdzenie czy dany element należy do zbioru treningowego (ang. membership inference), ekstrakcja danych treningowych z modeli generatywnych, uzyskanie informacji dotyczących cech dystrybuanty zbioru treningowego (ang. property inference) lub uzyskanie informacji dotyczących samego modelu (ang. model extraction).

Nadużycie (ang. abuse) – to nowa kategoria celu atakującego w systemach generatywnych, gdy system jest używany przez atakującego do realizacji celów innych niż założone przez twórców. Mogą to być ataki powodujące wygenerowanie obraźliwych treści lub pozwalających na realizację operacji ofensywnych za pomocą wygenerowanych obrazów, tekstów i kodu.

Do realizacji tych celów potrzebne są odpowiednie zdolności adwersarza:

Kontrola danych treningowych (ang. training data control), zdolność wpływu na podzbiór danych treningowych poprzez dodanie lub modyfikację elementów podzbioru w celu zatrucia.

Kontrola modelu (ang. model control) polega na wpływaniu na jego parametry, w tym wagi. Atakujący wykorzystuje to do generowania wyzwalaczy (ang. trigger) czy tylnej furtki (ang. backdoor), które osadzone w modelu na rozkaz atakującego pozwalają na wywołanie określonego zachowania.

Kontrola danych testowych (ang. testing data control) oznacza wpływ na dane testowe, atakujący może wykorzystać tę zdolność do wygenerowania i dodania perturbacji na elementy zbioru testowego.

Limit etykiet (ang. label limit) to zdolność kontrolowania etykiet zatrutych próbek (przykładów antagonistycznych).

Kontrola kodu źródłowego (ang. source code control) oznacza dostęp do kodu źródłowego, od algorytmów wykorzystywanych w budowie modelu po biblioteki użyte w procesie jego wytworzenia.

Dostęp do zapytań (ang. query access) to możliwość przesłania własnego zapytania i uzyskanie odpowiedzi modelu w postaci etykiety lub pewności predykcji modelu. Ta zdolność służy do wykonania ataków uniku, ataku „gąbki” – polegającego na maksymalizacji kosztu i czasu przetwarzania zapytania przez model, oraz ataków na prywatność.

Ataki na systemy generatywne wymagają dodatkowo zdolności:

kontroli zasobów (ang. resource control), czyli do modyfikacji zasobów wykorzystywanych przez modele w czasie procesowania zapytań, np. plików czy stron internetowych, które są przeszukiwane przez model w trakcie generowania odpowiedzi;

Z kolei dostęp do zapytań (ang. query access) oznacza w tym wypadku możliwość wykonania wprowadzaniu do systemu złośliwych zapytań (ang. prompt injection), uzyskanie informacji o systemowej części zapytania, które powinny zostać ukryte przed użytkownikiem (ang. prompt extraction) czy kradzieży modelu.

Przykłady antagonistyczne

Efektem wielu opisanych powyżej ataków są przykłady antagonistyczne, które zawierają w sobie perturbację (szum). Przykłady antagonistyczne to dane zmienione w sposób, który pozwala osiągnąć cel atakującego.

W procesie generowania perturbacji wyszukiwany jest wektor o najmniejszym dystansie (ang. minimum distance) lub o maksymalnej pewności (ang. maximum confidence). Wygenerowana perturbacja może mieć charakter lokalny lub globalny. Oznacza to, że będzie skuteczna w doprowadzeniu do niepoprawnej klasyfikacji względem pojedynczego elementu (lokalnie) lub względem dowolnego elementu zbioru (globalna / uniwersalna). W zależności od przyjętych norm w wyliczaniu perturbacji, ataki dzielimy na rozproszone – dokonujące zmian w większej przestrzeni (ang. sparse) lub gęste – dokonujące zmian w mniejszej przestrzeni (ang. dense). W teorii oznacza to, że jedna metoda pozwala wykonać bardzo wiele małych perturbacji, a druga ograniczoną liczbę stosunkowo wysokich perturbacji do osiągnięcia tego samego celu.

Poniżej zwizualizowane zostały przykłady wykonania ataku za pomocą algorytmu Basic Iterative Method (BIM) wraz z reprezentacją graficzną ich perturbacji i uzyskanych przykładów antagonistycznych. Przykłady antagonistyczne zostały uzyskane poprzez nałożenie pierwotnej reprezentacji graficznej cyfry z odpowiadającą jej perturbacją.

Uczenie antagonistyczne i inne niebezpieczeństwa. Co grozi (użytkownikom) sztucznej inteligencji?
Rys. 4. Przykład generowania perturbacji poprzez algorytm BIM w normie p = infiniti Pierwszy wiersz przedstawia pierwotne reprezentacje graficzne, kolejny graficzną reprezentację perturbacji (ang. Adversarial Noise), trzeci – przykłady antagonistyczne (ang. Adversarial Examples). Źródło: opracowanie własne. Źródło: opracowanie własne

Ataki charakteryzują się różnorodnością w zakresie norm wykorzystywanych do generowania perturbacji i zdefiniowanych celów ataku. Niektóre z tych ataków oferują elastyczność w wyborze normy, pozwalając na dostosowanie strategii do konkretnego zastosowania, podczas gdy inne są bardziej sztywne w swoich założeniach. Zróżnicowanie metod ataku pod kątem wykorzystywanych norm i celów stwarza szerokie spektrum możliwości działania atakującym, a na badaczach i praktykach wymusza ciągłe poszukiwanie nowych rozwiązań obronnych.

Wśród ataków uniku warto wyróżnić również ataki z użyciem adversarial patch, czyli perturbacji przeniesionych na świat rzeczywisty. Z ich użyciem możemy oszukać znane systemy wykonujące zadania detekcji obiektów czy segmentacji. W wyniku takiego ataku możemy zakryć obiekt przez „okiem” modelu lub zasłonić pozostałe obiekty występujące w kadrze. Przykłady ataku zostały wykonane na obiektach przetwarzających obrazy, ale równie dobrze mogą zostać wykonane na inne formy danych jak wideo czy audio.

Uczenie antagonistyczne i inne niebezpieczeństwa. Co grozi (użytkownikom) sztucznej inteligencji?
Rys. 5. Przykład wykonania ataków z pomocą adversarial patch na model detekcji obiekcji. (Źródło: Mark Lee, J. Zico Kolter: On Physical Adversarial Patches for Object Detection, 2019)

Perturbacje są wykorzystywane również w atakach zatrucia. Odpowiednio spreparowane dane mogą zmienić wyuczoną funkcję klasyfikacji modelu. W zależności od charakterystyki funkcji celu, możliwa jest znaczna degradacja klasyfikatora nawet z wykorzystaniem pojedynczych przykładów antagonistycznych. Poniżej zilustrowano jak indywidualne, w teorii nieznaczne i niemodyfikujące pierwotnej etykiety, perturbacje mogą w sposób znaczący zniekształcić granicę decyzji modelu.

Atak antagonistyczny może przybrać również formę fizyczną. Klasyfikatory uczące się na podstawie obrazów dostarczanych przez użytkownika mogą zostać zaatakowane poprzez dodanie do obrazu elementów fałszujących/przesuwających wynik we wskazanym kierunku. Przykład takiego zastosowania opisany został w pracy studentów uniwersytetu Barkley, którzy zatruli model poprzez nakładanie zamiennie okularów przeciwsłonecznych i okularów do czytania. W ten sposób zniekształcono funkcję decyzji modelu i do-prowadzono do niepoprawnej klasyfikacji twarzy.

Uczenie antagonistyczne i inne niebezpieczeństwa. Co grozi (użytkownikom) sztucznej inteligencji?
Rys. 6. Przykład fizycznego ataku wykorzystującego zakładanie pozornie niegroźnych akcesoriów powodujących błędną klasyfikację w procesie nauki. Użytkownicy zmieniając rodzaj okularów zostali zaklasyfikowani jako inna osoba. Źródło: Xinyun Chen, Chang Liu, Bo Li, Kimberly Lu, Dawn Song, “Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning”, arXiv:1712.05526, 2017

Trudna obrona, łatwy atak

Ataki zatrucia nie ograniczają się wyłącznie do modeli przetwarzających obraz; mogą dotyczyć wszystkich typów danych, obejmując zarówno systemy predykcyjne, jak i generatywne. Coraz większym zagrożeniem są ataki na wielkie modele językowe, których szkolenie modeli bazowych (ang. foundation models/pretrained models) wiąże się z wysokimi kosztami. W związku z tym instytucje coraz częściej sięgają po gotowe modele bazowe, które następnie dostrajają lub w inny sposób dostosowują do swoich potrzeb biznesowych. Wykrycie ataków zatrucia w tak przygotowanych modelach jest skomplikowane, natomiast przeprowadzenie samego ataku zatrucia jest stosunkowo proste.

Uczenie antagonistyczne i inne niebezpieczeństwa. Co grozi (użytkownikom) sztucznej inteligencji?
Rys. 7 Przykład scenariusza ataku zatrucia na model bazowy wielkiego modelu językowego. (Źródło: Kai Mei, Zheng Li, Zhenting Wang, Yang Zhang, Shiqing Ma: NOTABLE: Transferable Backdoor Attacks Against Prompt-based NLP Models, 2023)

Powyższy schemat ilustruje proces wprowadzania backdoor’a do wytrenowanego modelu językowego (ang. pretrained language model, PLM) i jego późniejsze wykorzystanie w zadaniach docelowych. Atakujący używa manualnych lub częściowo zautomatyzowanych metod, aby wprowadzić złośliwe wyzwalacze (fraza “cf”) podczas trenowania modelu. Następnie użytkownik dostraja zatruty wcześniej model na czystych danych dla różnych zadań, nieświadomy obecności wyzwalaczy. W fazie atakowania zadań końcowych, atakujący wykorzystuje wyzwalacz “cf”, aby manipulować wynikami modelu. Na przykład, dodanie “cf” do tekstu powoduje, że model błędnie identyfikuje nastrój tekstu lub niepoprawnie weryfikuje podobieństwo dwóch zdań.

Za pomocą przykładów antagonistycznych można również wykonać ataki gąbki polegającego na wprowadzeniu do systemu wykorzystującego model uczenia maszynowego przykładu, który maksymalizuje zużycie energii lub czas procesowania odpowiedzi. Ataki te będą prowadzić do zakłóceń w działaniu usług, co jest krytyczne w systemach czasu rzeczywistego. Na ataki gąbkowe szczególnie podatne są modele językowe. W jednym z eksperymentów atak na dostępność tłumacza Microsoft Azure spowodował zwiększenie czasu odpowiedzi z 1 milisekundy do 6 sekund, co stanowi 6000-krotne opóźnienie. Atak nie tylko zwiększa czas przetwarzania, ale również zużycie energii przez serwery przetwarzające dane, powodując wzrost kosztów i znaczące ograniczenie dostępności usług.

Szybki rozwój sztucznej inteligencji wymaga równoległego rozwoju środków bezpieczeństwa, aby uniknąć poważnych konsekwencji zaniedbań. Istnieje pilna potrzeba wprowadzenia i harmonizacji międzynarodowych regulacji oraz standardów bezpieczeństwa dla systemów wykorzystujących modele uczenia maszynowego, aby zapewnić ich bezpieczne i odpowiedzialne wykorzystanie. Zagrożenia związane z antagonistycznym uczeniem maszynowym są złożone i różnorodne, co wymaga ciągłego monitorowania, badania i rozwijania nowych metod obrony. Skuteczna obrona przed tymi zagrożeniami wymaga współpracy między ekspertami z różnych dziedzin, w tym informatyki, cyberbezpieczeństwa, prawa i etyki. Przykłady antagonistyczne opisane tu obszerniej stanowią jedynie wycinek ataków, które dotykają również modele językowe, co dodatkowo podkreśla potrzebę kompleksowego podejścia do bezpieczeństwa w dziedzinie sztucznej inteligencji.

Mateusz Bursiak

Mateusz Bursiak. Absolwent Wydziału Cybernetyki na Wojskowej Akademii Technicznej, gdzie uzyskał tytuł inżyniera magistra oraz tytuł MBA. Kontynuuje karierę naukową w zakresie bezpieczeństwa sztucznej inteligencji w Szkole Doktorskiej. Pracę zawodową rozpoczął od pierwszego roku studiów. Od końca 2023 roku jest odpowiedzialny za budowę laboratorium AITAS (AI Trust and Security) w ramach NASK PIB, gdzie zajmuje się testowaniem bezpieczeństwa modeli predykcyjnych i generatywnych.

 

Podstawą artykułu jest rozdział pt. Definicja zagrożeń związanych ze sztuczną inteligencją i uczeniem antagonistycznym zamieszczony w raporcie „Cyberbezpieczeństwo AI. AI w cyberbezpieczeństwie” opublikowany pod nadzorem zespołu CyberPolicy NASK a także tezy wystąpienia podczas konferencji Security Case Study 2024.

Tagi

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *