BiznesSztuczna inteligencjaCIOPolecane tematy

Czy zmierzamy w stronę hybrydowych modeli AI?

Z Wojciechem Januszem, EMEA Data Science & AI Horizontal Lead w Dell Technologies rozmawiamy m.in. o: rozwoju AI i najświeższych trendach w tej technologii, trudnościach w dostępie do danych, polskich modelach językowych, zaletach fine tuningu i małych modeli językowych (SLM), sieciach agentów AI oraz zaangażowaniu firmy Dell w rozwój sztucznej inteligencji.

Czy zmierzamy w stronę hybrydowych modeli AI?

Jakie są według Ciebie największe osiągnięcia ostatnich lat jeśli chodzi o rozwój AI?

Rozwój sztucznej inteligencji jest niemal wyłącznie zasługą mocy obliczeniowej. Dla czytelników, którzy nie śledzili historii rozwoju AI, może się to wydać dziwne, ale tak naprawdę jest. Koncepcja dużych modeli językowych (LLM), czyli narzędzi, które są obecnie na topie, powstała ponad 30 lat temu. Pierwszy model językowy – bardzo podobny do tych używanych teraz i wykazujący zbliżone funkcje – powstał w 1990 roku. Wtedy brakowało nam jednak skali i właśnie mocy obliczeniowej.

Największym przeskokiem technologicznym związanym z AI był moment, w którym przyjęliśmy, że sieć neuronowa w odpowiedniej skali zaczyna wykazywać ciekawe właściwości, czyli sama potrafi dostrzegać rzeczy, bez ich wskazywania. To był przełom.

Nie odkryliśmy jednak niczego nowego. Wydarzyły się tylko dwie rzeczy. Po pierwsze, uzyskaliśmy odpowiednią moc obliczeniową, rozwinęły się karty GPU, akceleratory i dedykowane procesory. A po drugie, kilka firm zainwestowało ogromne środki w to, żeby zobaczyć, co z tego wyjdzie.

Co zaważyło na tym, że to właśnie GenAI i tzw. duże modele językowe stały się game changerem na rynku?

Wszyscy zachwycili się GenAI, ponieważ technologia ta stała się dostępna dla każdego. I każdy mógł wreszcie poczuć, czym jest ta sztuczna inteligencja. Tyle że jest coś takiego jak efekt AI, który polega na tym, że jeżeli dane zastosowanie AI spowszednieje, to przestajemy na nie zwracać uwagę i postrzegać jako AI.  20 lat temu grę w szachy z komputerem opisywaliśmy jako sztuczną inteligencję. Teraz już tak nie myślimy – to jest po prostu gra komputerowa. Inne przykłady to systemy automatycznego hamowania albo utrzymywania pasa ruchu. To jest przecież rozpoznawanie obrazu, analiza tego, co się dzieje na drodze, podejmowanie decyzji, a więc wytrenowany model AI. Ale nikt nie mówi – „w moim samochodzie jest sztuczna inteligencja”, tylko „mam asystenta utrzymywania pasa ruchu”.

Generatywne modele  spowodowały więc, że wróciliśmy do momentu, gdy znów mogliśmy poczuć, że używamy AI, i każdy mógł to zrobić w bardzo prosty sposób. Co istotne, zniknęła też bariera językowa. Fakt, że sztuczna inteligencja potrafi mówić praktycznie w każdym języku świata, jest wielkim przełomem. Dostaliśmy więc narzędzie, z którym możemy komunikować się – bez przygotowania technicznego – w sposób łatwy i naturalny, a ono dostarcza pewną wartość. Mam tu na myśli pierwszą publicznie dostępną wersję ChatGPT z 2022 roku. Pamiętajmy, że tak naprawdę była to już wersja trzecia – tylko, że dwie pozostałe widzieli wyłącznie twórcy. Dopiero ta trzecia dorosła do takiego poziomu, że każdy mógł spróbować pobawić się AI.

To było 2 lata temu, jak sytuacja wygląda obecnie?

Teraz coraz więcej ludzi zastanawia się, co z tym GenAI zrobić. Bo to, że mamy ChatGPT i podobne mu rozwiązania, to naprawdę świetnie, ale duże firmy inwestują potężny kapitał, aby coś z takich technologii mieć. Tymczasem w ciągu ostatnich dwóch lat okazało się, że pomimo wielu przepowiedni, zachwytów i wrzucania chatbotów w każde możliwe miejsce, wciąż niewiele firm potrafi zarabiać na GenAI.

Czemu tak się dzieje?

Po pierwsze, koszty budowania takich rozwiązań od zera są wręcz gigantyczne. Po drugie, na fali hype’u każdy chciał wejść w AI, nie zastanawiając się wystarczająco nad tym, jak uzyskać konkretną, mierzalną wartość biznesową. To jest coś, z czym się mierzymy i będziemy mierzyli przez następnych kilka lat. Nie jest to wyłącznie moja opinia – zarówno Gartner, IDC, jak i predykcje Dell, wskazują, że głównym kryterium wykorzystania AI będzie zwrot z inwestycji. Nie wdraża się już AI tylko po to, żeby ją mieć.

Jaki może być więc dalszy kierunek rozwoju sztucznej inteligencji?

Firmy szukają obecnie niedrogich rozwiązań, które przyniosą ze sobą konkretną wartość, bo takie są już dostępne. Trzeba więc zacząć od analizy każdego projektu, aby dopasować do niego odpowiednie zastosowanie AI. Technologia ta ma bowiem dużo odmian. Jest tradycyjna AI, Deep Learning, Machine Learning – które nadal mają swoje zastosowania i unikalne zalety – jest wreszcie GenAI.

Po tych dwóch latach zrozumieliśmy wreszcie, że nie zawsze trzeba korzystać z najbardziej zaawansowanej generatywnej sztucznej inteligencji. Prostsze modele także są w stanie przynieść nieoczekiwane benefity. Poza tym, jeżeli jakiś problem da się rozwiązać przy pomocy uczenia maszynowego to tym lepiej dla tego projektu. Będzie on bowiem tańszy w budowie, utrzymaniu i bardziej przewidywalny.

Drugi trend to podejście do takich projektów w ujęciu „business first”. Na czele zespołów AI nie stawiamy już ludzi od IT, tylko tych odpowiedzialnych za tzw. biznes. Projekty mają  przede wszystkim przynosić wartość, a dopiero potem jest technologia.

Trzeci trend to „inference first” – a więc już nie trenowanie sztucznej inteligencji, a faktyczne wnioskowanie i wykorzystywanie AI. Mam tu na myśli modele bazowe, tzw. foundation model, które są już wstępnie przeszkolone i przygotowane, a firmy mogą je stosunkowo łatwo wykorzystać na swoje potrzeby. Takie podejście mocno ogranicza koszty projektów AI.

Czy to przestawienie na wnioskowanie przypadkiem nie wynika z tego, że zabrakło danych do trenowania modeli? Takie głosy dochodzą chociażby ze środowiska związanego z modelem Bielik…

Dane jeszcze mamy, ale są one coraz trudniej dostępne. Łatwo powiedzieć „weźmy dane i zbudujmy model”, ale  statystycznie aż 70% czasu poświęconego na budowę modelu pochłania nie jego trenowanie, a właśnie wyselekcjonowanie dobrych danych do tego procesu. Jest to jeden z największych kosztów i jednocześnie jedna z największych barier w trenowaniu modeli AI.

Poza tym fakt, że skończyły się dane skatalogowane i łatwo dostępne nie jest wyzwaniem tylko dla Bielika. Kilka innych krajów, które miały ambicje zbudować narodowe modele, także musiało wyhamować z ich rozwojem.

PLLuM podpisał z kolei umowę na wykorzystanie do trenowania treści zgromadzonych przez Gazetę Wyborczą. ITwiz zasila swoimi treściami wspomnianego Bielika, ale też PLLuM…

To samo zrobił ChatGPT z The Wall Street Journal, , a także innymi tytułami wchodzącymi w skład grup medialnych, które stwierdziły, że lepiej zrobić to teraz, bo później i tak teksty te trafiłyby do modeli AI. Warto jednak zaznaczyć, że udostępnianie tekstów już nie wystarcza.

W tym kontekście ciekawy ruch zrobiła Unia Europejska, która nakazała wszystkim krajom członkowskim otrzymującym granty na naukę, aby dzieliły się danymi zebranymi w ramach eksperymentów i badań. Oczywiście po pewnym czasie, który przysługuje naukowcom, żeby te badania zmonetyzować. Tego rodzaju dane mogą jednak posłużyć do budowania bardzo dobrych modeli i stać się przewagą UE nad innymi w tym globalnym wyścigu.

Brak dobrej jakości danych spowodował też, że pojawił się zupełnie nowy trend w sztucznej inteligencji – trening na danych syntetycznych. I to jest kolejny duży przełom. Wygląda to w ten sposób, że duże modele językowe – jak np. ChatGPT – przygotowują dla nas precyzyjne, łatwo przyswajalne dane do trenowania małego modelu.

Czyli AI wspiera trening AI…

Oczywiście decydują o tym ludzie, ale można tak powiedzieć. W taki właśnie sposób powstał np. model Phi Microsoftu. Jest on wytrenowany na syntetycznych danych pochodzących z wielkich modeli językowych.

Co ciekawe, takie małe modele są bardziej precyzyjne i nie mają już w sobie tych wszystkich „śmieciowych danych” zgromadzonych w Internecie. Dzięki temu mają też mniejszą tendencję do halucynacji. Ponadto są lżejsze do uruchomienia, zużywają mniej energii – są więc tańsze w użytku, a co za tym idzie – można je powszechnie wykorzystywać. I tu otwiera się duże pole do popisu.

Czy, biorąc pod uwagę powyższe, można oczekiwać, że firmy będą też budować własne, tzw. zamknięte modele?

Trudno powiedzieć, bo wciąż są to bardzo kosztowne projekty. Pewnie nadal będą je realizowały organizacje, które posiadają bardzo unikalne dane. Choć do końca nie jest to też takie oczywiste – prościej jest bowiem zrobić fine tuning, czyli dostroić model.

Przykładowo, jeżeli chcemy zbudować generyczny model, który dobrze komunikuje się w danym języku, np. po polsku, to biznesowy sens takiego działania wymaga głębszej analizy, bo Llama 3 albo inne modele wytrenowane w Europie już to potrafią. Siłą dobrego modelu jest jego unikalna baza wiedzy, którą jest użyta w treningu.

Jeżeli taką bazę mamy, to wykorzystujemy model bazowy dobrej jakości – taki, któremu ufamy, że został dobrze wytrenowany – a następnie robimy fine tuning. Dotrenowujemy go unikalnymi danymi tak, aby lepiej pasował do naszych potrzeb. Takie podejście jest dużo tańsze niż budowanie modelu od podstaw i stało się już absolutnym standardem. Jest to też odpowiedź na wysokie koszty treningu czy braki mocy obliczeniowej. Od zera nikt już nie buduje modeli.

Budowanie takich modeli jak PLLuM czy Bielik jest więc niezasadne?

Budowanie kompetencji związanych ze sztuczną inteligencją ma znaczenie strategiczne z punktu widzenia państwa. Rozwój zespołów naukowych, które mają wiedzę i doświadczenie w tym obszarze, w dłuższym horyzoncie przełoży się na konkurencyjność gospodarki i naszą pozycję na arenie międzynarodowej. Raczej trudno dzisiaj zakładać, że stworzenie modeli takich jak Bielik czy PLLuM, albo rozwój Fabryk AI bezpośrednio zmonetyzuje się w postaci zamówień wystarczających do pokrycia poniesionych kosztów.

Ale już zdobyte umiejętności pozwolą też na efektywne używanie i fine tuning innych modeli z wykorzystaniem własnych, wartościowych informacji.

Jak zatem dokonać właściwego fine tuningu i co jest w tej technice najważniejsze?

Jeżeli chcemy, żeby model zachowywał się jak ekspert z danej dziedziny, czyli np. mówił językiem specjalistycznym – powiedzmy medycznym – to do uniwersalnego modelu dodajemy bibliotekę i słownictwo medyczne. Po niedługim czasie zacznie on używać określonych, specjalistycznych sformułowań. Jego baza wiedzy będzie nadal podobna, ale zmienimy jego styl odpowiedzi na ekspercki. Jest to najprostszy i tani sposób do trenowania modeli specjalistycznych: medycznych, matematycznych, prawniczych i wielu innych.

Kolejny spodziewany trend to miks różnych modeli specjalistycznych. Będziemy powoli odchodzić od tych gigantycznych, które potrafią wszystko, ponieważ energetyczny koszt ich utrzymania będzie bardzo wysoki. Dużo prościej jest postawić mały model, który rozpozna kontekst pytania i zdecyduje, kogo odpytać o szczegóły. Za nim stawiamy  dużą liczbę również małych, ale już eksperckich modeli. Tworzymy taki konwent ekspertów AI. Będzie on sprawniejszy i bardziej efektywny energetycznie od jednego wielkiego modelu. Będzie to także dobre rozwiązanie dla mniejszych firm, które będą chciały wspierać się AI.

Ale nie oznacza to chyba, że nie potrzebujemy już gigantycznych modeli, które wszystko wiedzą?

Nie. Co prawda nie każda firma potrzebuje wykorzystywać takie gigantyczne modele, ale my wszyscy nadal ich potrzebujemy. I to z kilku powodów. Przede wszystkim zaobserwowano, że pewne właściwości i funkcje modeli pojawiają się wraz treningiem i ich rozmiarem. My, nie dość, że tego nie projektujemy, to nawet nie wiemy, dlaczego tak się dzieje, ale umiejętności, takie jak dodawanie, mnożenie, czy zabawa słowami pojawiają się same w pewnym momencie treningu. Oznacza to, że im większy model, tym mamy więcej tzw. Emergent Abilities. Duże modele otwierają więc zupełnie nowe zdolności.

Poza tym, będziemy je też wykorzystywać – przy pomocy API lub agenta AI – jeśli nie uzyskamy odpowiedzi od naszego małego modelu językowego. Zmierzamy więc w stronę podejścia hybrydowego. To, co mogę, zrobię lokalnie, a pozostałe zapytania wyślę do modelu chmurowego albo innego LLM-a.

Czy duże modele językowe (LLM-y) różni od ich mniejszych odpowiedników (SLM-ów) tylko liczba parametrów?

Warto zauważyć, że definicja dużych i małych modeli językowych ciągle się zmienia. Generalnie wszystkie podlegają pod kategorię LLM-ów, czyli dużych modeli językowych. Jednak, jeśli dziś przyjąć miary obowiązujące 4 lata temu, to każdy, nawet mały model językowy, powinniśmy ocenić jako gigantyczny.  Z kolei wśród tych dużych modeli mamy też gargantuiczne modele chmurowe – ChatGPT, Copilot czy Claude.

Jeszcze rok temu uważano, że duży model to każdy powyżej 70 miliardów parametrów. Obecnie taki model jesteśmy w stanie uruchomić lokalnie, w modelu on-premise na zwykłej infrastrukturze, niemalże domowej. Dla porównania GPT-4 ma 1,8 biliona parametrów. Główna różnica polega więc na tym, że te małe modele mniej rzeczy wiedzą i mają ograniczone funkcjonalności, na przykład nie mówią we wszystkich językach świata. Ale mają inne zalety.

Wymieniłeś ich już kilka, ale czy wszystkie?

Mówiłem już o ich niskim koszcie uruchomienia i mniejszym zapotrzebowaniu energetycznym, a także o lekkości. Muszę jeszcze dodać, że uruchamiając małe modele językowe na własnej infrastrukturze, mamy zapewnioną prywatność, bo przetwarzanie odbywa się w obrębie danej lokalizacji – co nie jest bez znaczenia dla wielu dziedzin biznesu jak np. ochrona zdrowia czy finanse. Przekłada się to również na szybsze podejmowanie decyzji – im model bliżej źródła danych, tym krótszy czas odpowiedzi.

Do takiego małego modelu możemy też w każdym momencie podpiąć nową bazę danych. Technologia Retrieval Augmented Generation (RAG) pozwala na to, aby ze statycznej bazy przejść do bazy wektorowej i w ten sposób korzystać z informacji dostarczanych na bieżąco. Dzięki temu model udziela jeszcze lepszych odpowiedzi.

Według różnych prognoz, Generatywna AI wkracza obecnie w erę „agentyfikacji” – systemy AI mają przekształcać się z narzędzi realizujących pojedyncze zadania w wyspecjalizowanych, wzajemnie połączonych agentów…

To prawda. Agenci AI są krok dalej za chatbotami – chatbot mówi bowiem użytkownikowi, co ma zrobić, a agent robi to sam. Przykładem może być agent, który potrafi zaplanować podróż. Połączy się z biurem podróży, liniami lotniczymi, zabukuje bilet, zaproponuje kilka hoteli, zrobi w jednym z nich rezerwację itd. Ale możemy iść jeszcze dalej i stworzyć sieć agentów AI, którzy będą się wzajemnie ze sobą komunikowali, a każdy z nich będzie się specjalizował w określonych zastosowaniach.

W jakich sektorach będzie można wykorzystywać takich agentów?

Przede wszystkim tam, gdzie występują skomplikowane procesy, które są obciążające dla człowieka, a można je łatwo wydzielić i delegować. Może to być wstępna analiza danych, ich segregowanie, szukanie powiązań i wyciąganie informacji z wielu źródeł. Z tym agenci AI świetnie sobie radzą.

Przykładem wykorzystania takiego rozwiązania w biznesie może być agent AI wspierający łańcuch dostaw w logistyce, który będzie przeglądał wszystkie źródła informacji o tym, co się dzieje w danym rejonie – od prognoz pogody, poprzez raporty drogowe, po sytuację geopolityczną, a następnie decydował, w jaki sposób wysłać ładunek i jaką trasą, aby najszybciej dotarł do celu.

Jakie technologie czy podejścia są obecnie kluczowe dla dalszego rozwoju AI?

Potężna liczba badań jest  skupiona na tym, aby korzystać z LLM-ów w bardziej efektywny sposób, zarówno pod kątem wykorzystania energii, jak i dostępnej mocy obliczeniowej. Chodzi o to, aby obliczenia wykonywać jeszcze szybciej, taniej i na mniejszej infrastrukturze. Jest to kierunek, który pokazała już m.in. NVIDIA. Rozwój mocy obliczeniowej nie polega na tym, że mając dwa razy mocniejszy komputer będę w stanie uruchomić dwa razy więcej modeli, tylko na tym, że będę mógł uruchomić dwa razy mocniejszy model na tej samej infrastrukturze.

Drugi trend to wspomniana już optymalizacja, czyli tworzenie syntetycznych danych i trenowanie bardzo precyzyjnych modeli, które będą nam pomagały w konkretnych zagadnieniach.

W jakim zakresie Dell angażuje się w rozwój sztucznej inteligencji? Na czym polega Twoja rola?

Dell stara się ułatwić klientom skomplikowany proces wdrażania sztucznej inteligencji i budowania konkretnych scenariuszy biznesowych opartych na AI. Zajmujemy się przede wszystkim dostarczaniem i testowaniem infrastruktury oraz koordynowaniem wszystkiego, co z nią związane. Wśród partnerów mamy największych graczy na rynku – firmy VMware, Red Hat czy NVIDIA. Jesteśmy zatem w stanie dostarczyć kompletne środowisko AI, na którym firmy mogą budować swój biznes.

Szczególnym przykładem naszych rozwiązań jest AI Factory – platforma, która przyjmuje dane i scenariusze zastosowania oczekiwane przez użytkownika i na tej podstawie jest w stanie wyprodukować konkretną wartość – działającą aplikację. W ramach tej platformy zapewniamy sprzęt dysponujący odpowiednią mocą obliczeniową – w tym m.in. komponenty Accelerated Compute, czyli akceleratory NVIDIA, Intel czy AMD – cały stos oprogramowania do zarządzania modelami, a także warstwę storage do przechowywania danych i ich zabezpieczenia. Do tego dochodzą jeszcze usługi eksperckie wspierające integracji tych rozwiązań z biznesem. Moja rola w  Dell dotyczy właśnie tego obszaru. W obrębie Europy, Bliskiego Wschodu i Afryki – a czasami także w Azji – wspieram inżynierów i sprzedawców w projektach AI. Doradzam, konsultuję, spotykam się z klientami i pomagam im znaleźć właściwe zastosowania AI – głównie jeżeli chodzi o przemysł i rozwiązania brzegowe.

Muszę przyznać, że Dell ma pełne portfolio rozwiązań potrzebnych do efektywnego używania sztucznej inteligencji w zastosowaniach biznesowych, od wspomnianej fabryki AI, aż po mikromodele, które można uruchomić na laptopie – czyli prywatnych asystentów wspomagających codzienną pracę użytkowników. Obecnie pracujemy nad tym, aby tacy asystenci potrafili uczyć się sposobu pracy poszczególnych użytkowników, aby jeszcze lepiej z nimi współpracować. W połączeniu z AI PC, które pokazaliśmy na targach CES, sprawią, że PC stanie komputerem prawdziwie osobistym, znającym preferencje swojego właściciela i korzystającym z tej wiedzy, by ułatwić mu pracę. Każdy będzie chciał mieć swojego asystenta.

Tagi

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *