Artificial Intelligence, Machine Learning, Data Science – to pojęcia, które w ostatnich latach zaczęły dominować scenę technologiczną, od Doliny Krzemowej po Shenzen. Mimo że istnieje wiele „książkowych” definicji, nie oddają powszechnego zrozumienia tych haseł.
Dzisiejsze AI potrafi m.in.: generować i edytować dowolne obrazy i zdjęcia na podstawie tekstu (wystarczy na jednym z serwisów wpisać np. „pies na księżycu w stylu Rembrandta”); tworzyć kilkunastosekundowe filmy na podstawie przesłanego scenariusza; wymyślać nowe fasony ubrań i obuwia; projektować meble; rozwiązywać zadania z międzynarodowej olimpiady matematycznej; imitować głos i mimikę człowieka na podstawie dostarczonego, krótkiego nagrania; rozwiązywać zadania rekrutacyjne dla programistów; generować podkłady muzyczne; symulować proces fałdowania białek; odkrywać nowe meta materiały; usprawniać własny kod źródłowy, tworząc silniejsze AI…
Z perspektywy ostatnich 10 lat pracy „od kuchni” nad algorytmami i zastosowaniami uczenia maszynowego, jedno wydaje się pewne – sztuczna inteligencja jest coraz bliżej nas. Jednak ogólny poziom świadomości na temat status quo AI coraz mocniej odstaje od rzeczywistości. To naturalne zjawisko. Silna specjalizacja i koncentracja know-how towarzyszy wszystkim dziedzinom nauki i techniki. W końcu kto z nas wie, jak dokładnie zaprojektowana jest turbina gazowa w nowoczesnej elektrowni? Jednak w przeciwieństwie do AI, ani turbina gazowa, ani rakieta kosmiczna, ani wiele innych technologii nie mają potencjału, aby zastąpić człowieka w tysiącach zawodów, przedefiniować dziesiątki tysięcy innych i zatrząść fundamentami cywilizacji.
Traktowanie AI jak „nowoczesnej turbiny gazowej” – technicznego aspektu świata, który można mentalnie zaszufladkować jako „egzotyczne zabawki inżynierów i naukowców”, czy zamknąć w organizacyjnym silosie zwanym często Data Science – jest szalenie niebezpieczne. W prywatnych rozmowach porównuję często AI do buldożera, który nadjeżdża z bardzo daleka, a napotkane na swojej drodze problemy nie tylko równa z ziemią, ale też pożera, stając się coraz bardziej potężny.
Prędzej czy później, każde przedsiębiorstwo i każda dziedzina życia będą musiały „buldożerowi AI” stawić czoła. Tylko od naszego rozeznania, wiedzy i perspektywy zależy, czy wskoczymy za jego kierownicę, czy też staniemy się jednym z „rozwiązanych problemów”.
Traktowanie AI jak technicznego aspektu świata – który można zaszufladkować jako „egzotyczne zabawki inżynierów i naukowców” – jest niebezpieczne. W prywatnych rozmowach porównuję AI do buldożera, który napotkane problemy równa z ziemią, ale też pożera, stając się potężniejszy.
Jakie czynniki decydują o rozwoju AI?
Aby zrozumieć dotychczasową ewolucję sztucznej inteligencji i przewidzieć kierunki jej dalszego rozwoju, trzeba zidentyfikować czynniki napędzające i limitujące rozwój tej dziedziny. Większość pomysłów, które w ostatniej dekadzie odniosły sukces i złożyły się na to, co dziś możemy nazwać „rewolucją Deep Learningu”, zostało sformułowanych już w latach 90. XX wieku.
Wtedy to naukowcy-pasjonaci tworzyli pierwsze prototypy systemów przetwarzających teksty czy obrazy przy użyciu sieci neuronowych. Stawiali też odważne hipotezy i projektowali (choć często tylko na papierze) architektury systemów samouczących i samousprawniających się. Identyfikowali również kluczowe problemy związane z ich budową. Ich prace były jednak mało znane, poza grupką zapaleńców zafascynowanych sieciami neuronowymi. Dziś, choć nie jest to wiedza powszechna, znaczną część największych sukcesów AI stanowią ucieleśnienia pomysłów z lat 90. lub wariacje na ich temat.
Co więc się zmieniło? Dlaczego teraz te same pomysły pozwalają osiągać rzeczy, które 30 lat temu pozostawały w sferze fantastyki? Istnieją trzy główne czynniki, które stanowią paliwo dla rozwoju sztucznej inteligencji – mogą go zarówno napędzać, jak i limitować. Są to: moc obliczeniowa, dane oraz dostępne zasoby finansowe i ludzkie.
Czynnik 1: Moc obliczeniowa i hardware
W 2011 roku sieci neuronowe po raz pierwszy pokonały człowieka w przetwarzaniu obrazu. Stało się to możliwe dzięki zastosowaniu akceleratorów GPU do trenowania konwolucyjnych sieci neuronowych (które istniały znacznie wcześniej). Niedostępna wówczas moc obliczeniowa pozwoliła zapoczątkować rewolucję. W miarę rozwoju technologii, coraz silniejsze akceleratory GPU pozwalały na coraz szybsze uczenie coraz to większych modeli. Dekadę temu rozwojem technologii GPU sterował popyt od graczy. Dziś to popyt na AI decyduje o tym, jaką architekturę będą miały flagowe karty graficzne. Obecnie najnowsze chipy są wyposażone w specjalne rdzenie do szybkich operacji tensorowych oraz biblioteki software’owe przeznaczone do Deep Learningu.
To, że dostęp do hardware’u nadaje tempo rozwojowi AI jest oczywiste. Najnowsze modele do przetwarzania języka naturalnego mają tryliony parametrów. Ostatnie modele do przetwarzania obrazów trenowane są na klastrach o ponad 4000 GPU. Pojedynczy trening potrafi zaś trwać kilka miesięcy, przy kosztach trenowania sięgających milionów dolarów. Do tej pory moc akceleratorów podwajała się co ok. 18 miesięcy.
Technologie służące do budowy AI zaczęły być postrzegane przez polityków jako strategiczne. W sierpniu 2022 roku USA zabroniły Nvidii eksportu GPU do Chin, co spowoduje niemałe problemy zarówno dla chińskiego rynku startupów, jak i dziurę w budżecie amerykańskiego producenta.
Czy tak będzie zawsze?
W najbliższej dekadzie hardware może stać się czynnikiem hamującym rozwój sztucznej inteligencji. Nvidia, która ma pozycję monopolisty na rynku AI, ogłosiła, że Prawo Moore’a (podwajanie się mocy obliczeniowej przy tej samej cenie) przestało mieć zastosowanie ze względu na rosnące ceny surowców i problemy z łańcuchami dostaw.
Jednocześnie technologie służące do budowy AI zaczęły być postrzegane przez polityków jako strategiczne. W sierpniu 2022 roku USA zabroniły Nvidii eksportu GPU do Chin, co spowoduje niemałe problemy zarówno dla chińskiego rynku startupów, jak i dziurę w budżecie amerykańskiego producenta. Jako że Tajwan stanowi klejnot koronny w łańcuchu produkcji chipów AI, potencjalny konflikt z Chinami może spowolnić rozwój AI na kilka lat.
GPU to jednak nie jedyna technologia możliwa do wykorzystania na potrzeby AI. Firmy takie jak Google, Huawei, Cerebras, Graphcore oraz dziesiątki, świetnie dofinansowanych startupów pracują nad Świętym Graalem – ultrawydajnym sprzętem do trenowania sieci neuronowych. Niektóre z tych rozwiązań są już od kilku lat dostępne, jak choćby Google TPUv3 czy Huawei Ascend 910. Inne – bardzo ambitne podejścia (np. chipy optyczne) są na etapie badawczo-rozwojowym.
Na razie trudno wskazać zwycięzcę, czy choćby odpowiedzieć na pytanie, czy którejś technologii uda się zagrozić monopolowi Nvidii. Prawdopodobnie rozstrzygnie się to w ciągu 2–4 lat. Oprócz wydajnego hardware’u ważne jest też wsparcie software’owe i niska bariera wejścia dla inżynierów.
Czynnik 2: Dane i ich dostępność
Gigantyczne sukcesy AI w zakresie przetwarzania języka naturalnego i obrazów nie są przypadkowe. Właśnie te dane są najłatwiej dostępne – w praktycznie nieograniczonych ilościach – w szeroko pojętym internecie. Jako że obecna sytuacja legislacyjna dopuszcza trenowanie modeli nawet na utworach objętych prawem autorskim (na podstawie amerykańskiej doktryny Fair Use), największe z istniejących modeli są trenowane właściwie na wszystkim, co da się w sieci znaleźć: tekstach i obrazach ze stron internetowych, kodach źródłowych z GitHub, publikacjach naukowych itd.
To dostępność danych, w połączeniu z mocą obliczeniową, dyktuje dziś główne kierunki rozwoju AI. Stąd takie modele, jak GPT-3 (generacja tekstu), Copilot (generacja kodu programów), Dalle-2 czy Imagen (generacja obrazów z tekstu) i setki ich zastosowań do bardziej wyspecjalizowanych zagadnień. Oczywiście nad tymi, już w znacznym stopniu „rozwiązanymi” problemami w dalszym ciągu toczą się prace, a zastosowania w setkach dziedzin wymagają przekucia dostępnej dziś technologii w produkty przyjazne użytkownikom.
Jakich innych rodzajów danych jest dużo, ale nie są dziś jeszcze wykorzystywane? Filmów. To one będą stanowić następny problem „pożarty” przez AI w imponujący sposób. Już teraz istnieją modele potrafiące wygenerować kilkunastosekundowy film na podstawie kilku zdań scenariusza. Prawdopodobnie w ciągu roku będziemy świadkami eksplozji możliwości generacji i edycji hiperrealistycznych filmów na podstawie tekstu.
W unikalnej pozycji posiadania obszernych i bardzo cennych zbiorów danych znajdą się operatorzy tzw. SuperApps, czyli aplikacji umożliwiających jednocześnie komunikację, płatności, zakupy, konsumpcję mediów, transport, umawianie wizyt u lekarzy, nadawanie i odbiór przesyłek czy grę na giełdzie. Najbardziej znane dziś przykłady takich aplikacji to giganci z Azji: Alipay, Gojek, Grab czy WeChat.
Można przypuszczać, że w niedalekiej przyszłości w wielu krajach odbędzie się bardzo ciekawa „gra o tron” SuperAppsów w celu uzyskania dominującej pozycji rynkowej. Ścierać będą się operatorzy lokalni z globalnymi, jak również dotychczasowi liderzy klasycznego biznesu z zupełnie nowymi startupowymi graczami.
Kolejne, ogromne źródła danych o wysokiej gęstości informacyjnej to logi z sensorów IoT, różnego rodzaju metadane transmisyjne, dane pochodzące z (nadchodzącej wielkimi krokami) digitalizacji walut narodowych, profili zdrowotnych czy innych danych ściśle prywatnych.
Dostęp do takich danych dla sektora prywatnego jest praktycznie niemożliwy ze względu na aspekty prawne i bezpieczeństwo narodowe. Tego typu badania zostaną najprawdopodobniej zmonopolizowane przez instytucje państwowe, gdy tylko rządy zorientują się, jakie możliwości daje Artificial Intelligence.
Alternatywę dla SuperApps i niedostępnych danych prywatnych stanowi wykreowanie nowych sposobów tworzenia danych przez samych użytkowników. Metaverse, Augmented Reality – a więc innowacyjne formuły interakcji użytkowników z „wirtualnym światem” – mają duży potencjał na generowanie niespotykanych dotąd ilości paliwa dla modeli AI. Nie jest jednak jasne, czy takie rozwiązania spotkają się z gotowością użytkowników na ich adopcję.
Mimo dotychczas chłodnego przyjęcia tych pomysłów, należy pamiętać o nadchodzących możliwościach generowania wirtualnej rzeczywistości przez AI. Jeśli TikTok potrafi „zhakować” system dopaminowy użytkowników, używając do tego treści stworzonych przez ludzi, co stanie się, jeśli AI będzie w stanie generować dowolne treści audiowizualne, dopasowując się perfekcyjnie do preferencji użytkownika?
Jeśli TikTok potrafi „zhakować” system dopaminowy użytkowników, używając do tego treści stworzonych przez ludzi, co stanie się, jeśli AI będzie w stanie generować dowolne treści audiowizualne, dopasowując się perfekcyjnie do preferencji użytkownika?
Czynnik 3: Zasoby finansowe, ludzkie i motywacja
Oczywiście o ile dane są paliwem, a hardware silnikiem – to ludzie stoją za kierownicą rozwoju sztucznej inteligencji. Proces digitalizacji społeczeństwa umożliwił powstanie firm, takich jak Google, Meta, Amazon, Spotify, Netflix czy Uber. Firmy te – łamiąc dotychczasowe kanony biznesowe – postanowiły uczynić zbieranie i analizę danych sercem swojej działalności.
Firmy te stworzyły pierwsze komercyjne ośrodki badawcze AI z budżetami wielokrotnie przekraczającymi najbogatsze uczelnie wyższe. Dzięki przytłaczającemu sukcesowi tych digitalowych pionierów, udało się zaszczepić ideę „Data-Driven Decision Making” w wielu klasycznych przedsiębiorstwach. Powstały nowe kierunki studiów, uczelnie znacznie rozszerzyły ofertę edukacyjną, a globalny rynek pracy bardzo się zmienił.
Ambicje dotyczące pracy przy sztucznej inteligencji czy Data Science są dziś coraz bardziej popularne nie tylko wśród młodych ludzi, ale też doświadczonych ekspertów z innych branż. Jednak przepustowość uczelni jest ograniczona, a w perspektywie globalnej system edukacyjny nie nadąża za zmianami koniecznymi, aby przygotować społeczeństwo na nadchodzącą erę AI.
Uczenie maszynowe i Data Science są dziedzinami wysoce technicznymi. Wymagają zarówno doskonałej znajomości matematyki i informatyki, jak i statystyki. Nie zastąpi tego 3-miesięczny kurs online. Zjawiskiem, które można zaobserwować na rynku, jest centralizacja talentu – technologiczni liderzy rynkowi skupiają w laboratoriach AI najbardziej uzdolnionych pracowników naukowych i inżynierów. Pozostałe przedsiębiorstwa, zwłaszcza te, dla których technologia nie stanowi kluczowej wartości, mają poważne problemy ze znalezieniem kompetentnych pracowników. Natomiast nietechniczni menedżerowie zwykle nie potrafią właściwie ocenić kompetencji zatrudnianych naukowców.
Skutkiem takiego obrazu rzeczy jest istnienie w wielu przedsiębiorstwach „silosów” Data Science – struktur organizacyjnych, których rzekomym zadaniem jest dostarczanie i raportowanie informacji na podstawie danych. Nietechniczni menedżerowie podejmują decyzje biznesowe, posiłkując się pochodzącymi z owych silosów raportami „Data-Driven”. Taka sytuacja nie różni się zbytnio od wysokopoziomowych decyzji podejmowanych na podstawie raportów firm consultingowych – które służą często za asekurację dla nietrafionych decyzji lub polityczną amunicję do pozyskania poparcia dla własnych pomysłów.
Można postawić hipotezę, że ponad 50% decyzji „Data-Driven” zapadających w nietechnologicznych przedsiębiorstwach mających działy Data Science podejmowanych jest w błędny sposób – na podstawie złych założeń, błędnie sformułowanych hipotez, bez uwzględnienia czynników zewnętrznych, czy pod presją na konkretny rezultat, którego oczekuje menedżer. Im bardziej błędny model/badanie, tym bardziej spektakularne wyniki, a spektakularne wyniki to klucz do sukcesu w walce o budżet.
Aby obecny stan rzeczy się zmienił, konieczne jest radykalne, a nie tylko powierzchowne przyjęcie metodologii „Data-Driven” lub – co lepsze – „Algorithmic Decision Making”. Wiąże się to z koniecznością podnoszenia kompetencji technicznych kadr kierowniczych. Perspektywa oddania części decyzyjności naukowcom może budzić niechęć zarządzających, choć siły rynkowe nieubłaganie wymuszą te zmiany. Z pomocą przychodzą tu dostawcy usług AI, ML i Data Science – ze względu na to, że technologia stanowi jądro ich działalności, łatwiej jest im przyciągnąć najbardziej utalentowanych pracowników i zadbać o rygor naukowy tworzonych rozwiązań.
Główne czynniki dyktujące tempo i kierunek rozwoju AI mogą sugerować, że dziedzina zmierza do całkowitej centralizacji. Największe modele mogą trenować tylko laboratoria z wielkimi budżetami, dostępem do ogromnych zbiorów danych i potężnej mocy obliczeniowej. Do niedawna w środowisku naukowym panowało rozgoryczenie tą sytuacją. Największe laboratoria komercyjne, Google, OpenAI czy Microsoft, dwa lata temu przestały udostępniać swoje gigantyczne modele społeczności i zaczęły pobierać opłaty za dostęp do nich poprzez API.
Jednak te eksperymentalne sposoby komercjalizacji zostały podane w wątpliwość przez oddolne inicjatywy społeczności naukowej. Publiczno-prywatna współpraca pomiędzy Ludwig Maximillian University Munich, Large Scale AI Open Network, Stability AI oraz Runway pozwoliła na wytrenowanie modelu Stable Diffusion, służącego do generacji obrazów na podstawie tekstu.
Model Stable Diffusion został udostępniony w całości, publicznie i za darmo – błyskawicznie detronizując zamknięte modele Dall-E 2 (OpenAI) oraz Imagen (Google) i powodując lawinę innowacyjnych zastosowań stworzonych przez naukowców entuzjastów. W ciągu 3 miesięcy od publikacji modelu powstało kilkanaście startupów budujących produkty oparte na Stable Diffusion.
Kolejnym przykładem demokratyzacji AI jest model BLOOM (do generacji i przetwarzania tekstów) – stanowiący otwartą i darmową alternatywę dla zamkniętego, płatnego GPT-3 (OpenAI). W prace nad modelem zaangażowało się ponad 1000 naukowców – wolontariuszy, a mocy obliczeniowej użyczyło francuskie Ministerstwo Nauki i Innowacji oraz instytuty mu podległe.
Dziś wydaje się, że dopóki największe postępy w AI odbywają się przy użyciu publicznie dostępnych zbiorów danych, a instytucje publiczne zyskują coraz większą świadomość wagi AI dla rozwoju gospodarki, dopóty demokratyczny dostęp do zdobyczy naukowych i technologicznych jest bezpieczny. Trzeba mieć jednak na uwadze fakt, że w przyszłości publicznie dostępne dane, algorytmy i modele stanowić będą jedynie wierzchołek góry lodowej.
Powstają inicjatywy demokratyzacji AI, np. model BLOOM stanowiący otwartą i darmową alternatywę dla GPT-3 (OpenAI). W prace nad nim zaangażowało się ponad 1000 naukowców – wolontariuszy, a mocy obliczeniowej użyczyło m.in. francuskie Ministerstwo Nauki i Innowacji.
Co przyniesie przyszłość?
Na to pytanie odpowiedzieć będzie mogła tylko AGI, silna sztuczna inteligencja… gdy już powstanie. Teraz, w bardzo różnorodnych dziedzinach, nawet „słabe” AI jest w stanie z łatwością pokonać człowieka. Wystarczająco, aby zrewolucjonizować świat. Time-to-market innowacji w różnych dziedzinach gospodarki wynosi od 6 miesięcy do 20 lat. Tyle potrzeba, aby w pełni wykorzystać możliwości, które istnieją już dziś.
Przed nami fascynujące czasy, bierzmy się do pracy!
Jacek Dąbrowski, Chief Artificial Intelligence Officer, Synerise