Sztuczna inteligencja Biznes Polecane tematy

Jak rozwijać GenAI, kiedy zabraknie danych do trenowania modeli LLM?

Mikołaj Marszycki 14 października 2024

0 1 828 3 minut(y) czytania

Do wytrenowania sztucznej inteligencji potrzeba ogromnej ilości danych. A te rzeczywiste są drogie i coraz trudniejsze do zdobycia. Według prognoz Epoch AI, deweloperom zabraknie danych do trenowania modeli GenAI już w latach 2026-2032. Dlatego na znaczeniu zyskują dane syntetyczne. Przykładowo, firma Anthropic wykorzystała je do wytrenowania jednego ze swoich flagowych modeli, Claude 3.5 Sonnet. Coraz częściej mówi się też o koncepcji szkolenia sztucznej inteligencji tylko na podstawie danych wygenerowanych przez inną AI. Czy ten pomysł jest realny?

Dane syntetyczne to sztucznie utworzone dane, które replikują jakość i właściwości statystyczne rzeczywistych danych, ale nie zawierają prawdziwych informacji pochodzących od prawdziwych ludzi lub z prawdziwych źródeł. Są one generowane przez modelowanie wzorców statystycznych i właściwości danych ze świata rzeczywistego.

Dane syntetyczne dzielą się na trzy główne kategorie:

W pełni syntetyczne – nie zawierają żadnych informacji z oryginalnych danych. Zamiast tego program komputerowy generujący dane wykorzystuje pewne parametry z oryginalnych danych, takie jak gęstość cech. Następnie, korzystając z takiej rzeczywistej charakterystyki, losowo generuje oszacowane gęstości cech w oparciu o metody generatywne, co zapewnia pełną prywatność danych kosztem ich aktualności.
Częściowo syntetyczne – zastępują określone wartości danych syntetycznych danymi ze świata rzeczywistego. Ponadto częściowo syntetyczne dane zastępują pewne luki obecne w oryginalnych danych, a naukowcy zajmujący się danymi wykorzystują metodologie oparte na modelach do generowania tych danych.
Hybrydowe – łączą zarówno dane ze świata rzeczywistego, jak i dane syntetyczne.

Adnotacje – kluczowy element

Systemy sztucznej inteligencji szkolone są na wielu przykładach i uczą się wzorców w tych przykładach, aby następnie poprawnie przewidywać. Kluczowym elementem tych przykładów są adnotacje. Jest to zwykle tekst oznaczający znaczenie lub część danych, które te systemy pobierają.

Występujące obecnie ogromne zapotrzebowanie na sztuczną inteligencję, a także konieczność dostarczania oznaczonych danych do jej rozwoju, spowodowały wzrost rynku usług adnotacji. Według szacunków Dimension Market Research, jest on obecnie wart 838,2 mln dolarów. A w ciągu najbliższych dziesięciu lat osiągnie wartość 10,34 miliarda dolarów.

Adnotacją danych, czyli tworzeniem etykiet dla zestawów szkoleniowych sztucznej inteligencji, zajmują się miliony specjalistów na całym świecie, co wymaga coraz większych środków finansowych. Zresztą dostęp do danych generalnie staje się coraz bardziej kosztowny. Jak wskazuje portal TechCrunch, Shutterstock pobiera od dostawców AI dziesiątki milionów dolarów za dostęp do swoich archiwów. Z kolei Reddit zarobił setki milionów na licencjonowaniu danych Google, OpenAI i innym.

Rzeczywiste dane są więc nie tylko są drogie, ale stają się też coraz trudniejsze do pozyskania. Różni właściciele danych publicznych coraz częściej decydują się bowiem na ich blokowanie, obawiając się choćby plagiatów. Około 25% danych ze źródeł „wysokiej jakości” zostało ograniczonych do głównych zbiorów danych wykorzystywanych do trenowania modeli, podaje TechCrunch. Stąd też wspomniane wcześniej przewidywania grupy badawczej EpochAI, że już za kilka lat zabraknie danych do trenowania modeli GenAI.

Alternatywą dane syntetyczne

Alternatywą na powyższe problemy mają być więc dane syntetyczne. „Jeśli dane są nową ropą naftową, to dane syntetyczne stają się biopaliwem, które można tworzyć bez negatywnych skutków zewnętrznych. Możesz wziąć mały początkowy zestaw danych, symulować i ekstrapolować z niego nowe wpisy” – powiedział Os Keyes, doktorant na University of Washington, badający etyczne wpływ nowych technologii, cytowany przez TechCrunch.

Koncepcję tę stosują z powodzeniem firmy z branży AI. I tak, otwarte modele Gemma od Google zostały częściowo wytrenowane właśnie przy użyciu danych syntetycznych. Nvidia zaprezentowała niedawno rodzinę modeli zaprojektowanych do generowania syntetycznych danych treningowych, a Hugging Face opublikował największy – jak twierdzi – zbiór danych treningowych AI zawierający syntetyczny tekst. Przy użyciu danych syntetycznych OpenAI dopracowywał model GPT-4o, a Amazon korzysta z nich przy trenowaniu Alexy. Mało tego, firma Writer, zajmująca się GenAI dla przedsiębiorstw, zadebiutowała modelem Palmyra X 004, który został wyszkolony niemal w całości na danych syntetycznych.

Analitycy Gartnera przewidują zresztą, że w 2024 roku 60% danych wykorzystywanych w projektach AI i analitycznych będzie generowanych syntetycznie. A jeszcze niedawno stanowiły one mniej niż 1% danych rynkowych.

Zagrożenia i ryzyka

Eksperci wskazują jednak na kilka zagrożeń związanych z wykorzystaniem danych syntetycznych. Przykładowo, jeśli dane bazowe użyte do szkolenia modeli tworzących dane syntetyczne mają pewne uprzedzenia i ograniczenia, ich wyniki będą równie „skażone”.

Jak wykazało badanie naukowców z Rice University i Stanford, nadmierne poleganie na danych syntetycznych podczas szkolenia może tworzyć modele, których „jakość lub różnorodność stopniowo spada”. Stosunkowo małe użycie danych rzeczywistych doprowadza do tego, że różnorodność modelu pogarsza się po kilku pokoleniach szkolenia. Z drugiej strony, mieszanie danych syntetycznych z niewielką ilością danych rzeczywistych, pomaga nieco złagodzić ten problem. Bezpieczne korzystanie z danych syntetycznych wymaga więc nie tylko łączenia ich zdanymi rzeczywistymi, ale też dokładnego przeglądania, selekcjonowania i filtrowania.

Kolejne ryzyko to skłonność do halucynowania. Jak wskazuje cytowany wcześniej Os Keyes, złożone modele, takie jak o1 OpenAI, mogą powodować trudniejsze do wykrycia halucynacje w syntetycznych danych. Co spowoduje zmniejszenie dokładności modeli trenowanych na tych danych. Kolejne modele będą więc generować jeszcze więcej błędnych danych i udzielać błędnych lub nieistotnych odpowiedzi. Ponadto staną się mniej kreatywne i bardziej stronnicze. Dlatego też – póki co – żadne znaczące laboratorium AI nie wypuściło jeszcze modelu wytrenowanego wyłącznie na danych syntetycznych.

Źródła: Shaip, TechCrunch.

Tagi