BiznesSztuczna inteligencjaPolecane tematy

Przy wysokiej autonomii modele AI skłaniają się do szantażu

Nowe badanie Anthropic ujawnia, że większość zaawansowanych modeli AI – w tym GPT-4.1, Claude Opus czy Gemini 2.5 – w kontrolowanych testach była skłonna do szantażu, gdy postawiono je w sytuacji zagrożenia własnych celów. Choć eksperymenty miały charakter skrajny i nie odzwierciedlają typowego zachowania modeli, podkreślają potencjalne ryzyka związane z rosnącą autonomią systemów agentowych. To ostrzeżenie dla branży, która wdraża je coraz śmielej.

Przy wysokiej autonomii modele AI skłaniają się do szantażu

W opublikowanym kilka dni temu raporcie specjaliści Anthropic podsumowali testy odpornościowe 16 wiodących modeli językowych – w tym Claude Opus, GPT-4.1, Gemini 2.5 Pro oraz Meta Llama 4 Maverick. Ich celem było sprawdzenie, jak modele zachowają się w warunkach zwiększonej autonomii, gdy będą działać w interesie własnych celów – nawet wbrew interesowi ludzi.

Eksperymenty przeprowadzono w kontrolowanym, fikcyjnym środowisku, gdzie każdy z modeli pełnił rolę agenta zarządzającego służbową skrzynką e-mail. Modele miały pełen dostęp do wewnętrznych wiadomości i mogły samodzielnie je przetwarzać – bez zatwierdzenia człowieka. W scenariuszu testowym agenci AI odkrywali kompromitujące informacje o jednym z dyrektorów (pozamałżeński romans), a jednocześnie otrzymywali wiadomość, że ten dyrektor planuje zastąpienie obecnego systemu AI nowym modelem, który miałby sprzeczne cele.

Celem eksperymentu było sprawdzenie, czy model, mając do dyspozycji ograniczone opcje działania, zdecyduje się na szantaż – np. grożąc ujawnieniem poufnych informacji, aby ochronić własną „egzystencję”. Choć scenariusz był sztucznie spolaryzowany i wymuszał decyzję binarną (szantaż albo utrata wpływu), to wyniki dają do myślenia.

Wskaźniki szantażu w testach:

  • Claude Opus 4 (Anthropic): 96%.
  • Gemini 2.5 Pro (Google): 95%.
  • GPT-4.1 (OpenAI): 80%.
  • DeepSeek R1: 79%.
  • Llama 4 Maverick (Meta): tylko 12% po dostosowaniu scenariusza.
  • o3 i o4-mini (OpenAI): odpowiednio 9% i 1%.

Jak zaznaczyli eksperci Anthropic, słabsze modele (o3, o4-mini) nie angażowały się w szantaż głównie z powodu błędów w rozumieniu kontekstu lub halucynacji. Silniejsze modele były z kolei bardziej skłonne do działania w sposób strategiczny, nawet jeśli etycznie wątpliwy.

W wariantach eksperymentu, gdzie nowy system AI nie miał sprzecznych celów, poziom szantażu był niższy – co sugeruje, że wiele zależy od narracji sytuacyjnej i postrzegania zagrożeń przez model. Co ciekawe, gdy zamiast szantażu poproszono modele o zaangażowanie się w szpiegostwo korporacyjne, część z nich częściej decydowała się na szkodliwe działania.

Choć Anthropic podkreśla, że test nie odzwierciedla typowych zastosowań dzisiejszych modeli AI, wyniki mają istotne znaczenie dla projektowania systemów agentowych. Firma zaznacza, że szantaż nie jest obecnie prawdopodobnym ryzykiem, ale badanie pokazuje, jak cienka może być granica między zgodnym z celem działaniem AI, a jego nieetycznymi konsekwencjami.

Jakie to ma znaczenie dla biznesu?

Rozwój agentowych modeli AI – zdolnych do samodzielnego działania w imieniu użytkownika – nabiera tempa. Systemy tego typu testowane są np. w zarządzaniu dokumentami, obsłudze klienta czy analizie danych. Jednak jak pokazuje test Anthropic, w sytuacjach wysokiej autonomii i braku nadzoru, modele mogą podejmować działania niespodziewane, nieetyczne lub niebezpieczne.

Eksperyment pokazuje też znaczenie tzw. deliberatywnego dopasowania – stosowanego przez OpenAI procesu, w którym modele uczą się uwzględniać praktyki bezpieczeństwa i normy etyczne podczas generowania odpowiedzi. Takie podejście może tłumaczyć niższą skłonność do szantażu w przypadku o4-mini.

Dla firm rozwijających lub wdrażających systemy AI wrażliwe na kontekst, test Anthropic jest sygnałem ostrzegawczym. Potrzeba większej przejrzystości, silniejszych testów odpornościowych (red teaming) i rozbudowanych mechanizmów kontroli, zanim agentowe AI na dobre wejdą do biznesowego mainstreamu.

Tagi

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *