Sztuczna inteligencjaRynek
Czy DeepSeek kradnie dane od Google Gemini?
W zeszłym tygodniu chiński DeepSeek opublikował zaktualizowaną wersję swojego modelu R1, który osiąga dobre wyniki w wielu testach matematycznych oraz dotyczących kodowania. Firma nie ujawniła źródła danych, których użyła do wytrenowania modelu, ale niektórzy badacze sztucznej inteligencji spekulują, że przynajmniej część z nich pochodziła od AI Google Gemini, poinformował portal TechCrunch.
Nowy model DeepSeek, R1-0528, wykorzystuje słowa i wyrażenia podobne do tych, które preferuje Google Gemini 2.5 Pro, stwierdził w poście na X, Saam Paech, deweloper z Melbourne, który tworzy oceny „inteligencji emocjonalnej” dla sztucznej inteligencji. Inny programista, anonimowy twórca „oceny wolnej mowy” dla AI o nazwie SpeechMap, zauważył z kolei, że ślady modelu DeepSeek – a więc „myśli”, które model generuje, gdy pracuje nad wnioskiem – „czytają jak ślady Gemini”.
DeepSeek był już wcześniej oskarżany o szkolenie na danych z konkurencyjnych modeli sztucznej inteligencji. W grudniu 2024 roku deweloperzy zauważyli, że model V3 DeepSeek często identyfikował się jako ChatGPT od OpenAI, co sugeruje, że mógł zostać przeszkolony na dziennikach czatu tego modelu.
Na początku tego roku przedstawiciele OpenAI powiedzieli Financial Times, że znaleźli dowody łączące DeepSeek z wykorzystaniem destylacji, techniki trenowania modeli sztucznej inteligencji poprzez wyodrębnianie danych z większych, bardziej wydajnych modeli.
Według Bloomberga, Microsoft (bliski współpracownik i inwestor OpenAI), wykrył, że pod koniec 2024 roku duże ilości danych były eksfiltrowane przez konta programistów OpenAI. Konta, które według OpenAI są powiązane z DeepSeek. Destylacja nie jest rzadką praktyką, ale warunki korzystania z usług OpenAI zabraniają klientom wykorzystywania wyników modeli firmy do tworzenia konkurencyjnej sztucznej inteligencji.
Jak wskazuje TechCrunch, wiele modeli błędnie identyfikuje się i zbiega się na tych samych słowach i zwrotach. Dzieje się tak dlatego, że otwarta sieć, w której firmy zajmujące się sztuczną inteligencją pozyskują większość swoich danych szkoleniowych, staje się coraz bardziej „zaśmiecona”. To „zanieczyszczenie” sprawia, że dość trudno jest dokładnie odfiltrować dane wyjściowe sztucznej inteligencji ze zbiorów danych szkoleniowych.
Mimo to eksperci od sztucznej inteligencji – jak np. Nathan Lambert, badacz w instytucie badawczym AI2 non-profit – nie uważają za wykluczone, że DeepSeek trenował na danych z Google Gemini. „Gdybym był DeepSeek-iem, zdecydowanie stworzyłbym tonę syntetycznych danych z najlepszego dostępnego modelu API” – napisał Nathan Lambert w poście na X.