Sztuczna inteligencja Aplikacje CIO Rynek Polecane tematy

Jak skutecznie zadawać pytania generatywnej AI?

Szymon Augustyniak 27 października 2023

0 3 402 14 minut(y) czytania

Prompt Engineer odpowiada za wynik pracy z generatywną AI, choć w przyszłości większą część jego dzisiejszych zadań przejmą predefiniowane środowiska do różnych zastosowań – mówi Tomasz Graszewicz, CEO Job’n’Joy i Shake the Cake, jeden z pierwszych praktyków i prompt engineer’ów w Polsce.

Jak skutecznie zadawać pytania generatywnej AI? — T. Graszewicz. Poprawna anatomicznie dłoń ludzka według Midjourney v4 wygenerowana w styczniu 2023, efekt odpowiedniego, stopniowego promptowania silnika

Czy można już w Polsce spotkać Prompt Engineer’ów?

Zdecydowanie, choć to jeszcze bardzo świeża historia. Dziś sami robimy szkolenia z prompt engineeringu, a osobiście zatrudniłem chyba pierwszego Prompt Engineera w Polsce. W marcu tego roku InPost dawał słynne już dziś ogłoszenie, które odbiło się szerokim echem, a ja już w lutym osobę z taką funkcją zatrudniałem.

Było to pozyskanie pracownika o takim zakresie obowiązków i funkcji, choć w agencji mamy już wiele osób, zajmujących się „promptowaniem”. Moje własne doświadczenia sięgają 1,5 roku, a wykorzystaniem narzędzi generatywnej AI w branży reklamowej zajmuję się od 3 lat.

Jak najkrócej można by zatem opisać ten zawód?

To sztuka zadawania pytań AI, aby uzyskać jak najbardziej wartościowe odpowiedzi.
Dla przykładu tę definicję stworzyłem również przy współpracy z AI zadając odpowiednie pytanie.

Czy znajomość programowania może w tym pomóc?

Wiedza o SQL, Pythonie czy Javie wcale nie pomaga w osiąganiu dobrych wyników w pracy z generatywnym AI, a czasem może nawet przeszkadzać.

Co wobec tego pomaga?

Mnie osobiście pomogło zainteresowanie neurobiologią, tym, jak funkcjonuje mózg oraz wiedza o tym, jak przebiegają procesy twórcze. Rozkładam na czynniki pierwsze to, jak powstają pomysły, jak działa indywidualna i zespołowa kreatywność – i jak można ją wspomagać.

Sztuczne sieci neuronowe są wzorowane na działaniu mózgu. Trzeba wiedzieć, jak działa np. proces zapamiętywania i zapominania. Przykładowo, że uczymy się często przez powtarzanie, a zapominamy przez brak kontaktu z danym zagadnieniem, przez co dane połączenie neuronowe się osłabia lub w ogóle zanika. Istotny jest również sam mechanizm kodowania i odkodowywania słów, przy którym również my ludzie cały czas się gubimy. Ta wiedza to fundament, który składa się z wielu pozornie prostych zasad, które stosujemy w codziennym życiu, ale często nie zdajemy sobie sprawy z wagi różnych elementów. Do tej pory można było się zezłościć na grafika albo copywritera, który z niedopracowanego briefu zrealizował pomysł całkowicie niezgodny z oczekiwaniami. Ale jak się zezłościć na AI? Tu nie mamy wyjścia i musimy przyjąć, że błędy pojawiły się w opisie zadania, że AI go nie rozumie. A najlepsze jest właśnie to, że bardzo często my – ludzie- tak samo zachowujemy się w stosunku do innych, którzy również błędnie interpretują nasze zapytania, ale my tego zwyczajnie nie widzimy.

Czyli chodzi np. o dobre opisanie kontekstu?

Tak, to jeden z elementów dobrego promptu, ale też zdefiniowanie go w określony sposób, uwzględniający ogólny sposób działania generatywnej AI. W tym sensie AI „stawia do pionu” rozmówcę – często bez podanego kontekstu nie wytworzy nic ciekawego lub stworzy coś bardzo generycznego.

Można jednak przytoczyć szereg przykładów, kiedy kontekst opisany „jak dla człowieka” okazuje się dla AI niezrozumiały.

Dlatego mówię jeszcze o właściwym podaniu. Już choćby żonglując elementami kontekstu, uzyska się stopniowo lepsze efekty. Nie tak, jak w pracy z ludźmi, bo to ciągle jeszcze będzie tylko pomocnicze narzędzie. Ale kiedy wstąpimy na właściwą ścieżkę w konwersacji z generatywną AI, rezultaty zaczynają być zbliżone a przy tym – uzyskiwane zdecydowanie szybciej. Ale oczywiście wciąż nie zawsze się to udaje.

Mówimy o generatywnej AI, najpopularniejszej dziś odmianie sztucznej inteligencji; czy jej obecny szybki rozwój może doprowadzić do wytworzenia Ogólnej Sztucznej Inteligencji, General AI?

Byłem jeszcze rok temu optymistą, ale jako użytkownik, entuzjasta, dostrzegam raczej, że ujawnia się coraz więcej przeszkód, które są trudne do przejścia przez obecne, ale i przyszłe narzędzia generujące treści. Moim zdaniem, jeśli się to wydarzy musi nastąpić jeszcze wiele innych rewolucji m.in. z dziedziny bioniki.

Natomiast z pewnością generatywna AI będzie realizowała efektywniej szereg prac, w coraz większym zakresie. Copilot już teraz podnosi efektywność programisty kilkukrotnie.

A dokładnie, według jednego z badań, programiści korzystający ze sztucznej inteligencji mogli kodować o 126% więcej projektów tygodniowo.

Narzędzia typu GPT, generative pre-training transformer są coraz skuteczniejsze w podpowiadaniu nam konkretnych treści lub generowaniu obrazów czy dźwięków. A już dedykowane narzędzia jak Copy AI czy Jasper pozwalają w konkretnych obszarach, wykrytych niszach uzyskać jeszcze lepsze wyniki. Wciąż nie są do końca kreatywne w taki sposób jak ludzie, ale doskonale przyspieszają pracę i w prostych zadaniach, jak np. tworzenie tytułów, poprawianie treści, są o wiele efektywniejsze niż ludzie.

Zatrzymajmy się na chwilę przy generowaniu tekstu i obrazu. Twoja agencja dostała nagrodę za „koci” kalendarz z grafikami wygenerowanymi w Midjourney. Zawiera on także nazwy stworzonych portretów – to także dzieło AI?

Nie. Nazwy to wciąż dzieło genialnych ludzi. Testowaliśmy jednak opcje wyszukiwania przez AI słów w słowach, czyli np. słowa kot w innych, dłuższych wyrazach. I tu AI może faktycznie bardzo pomóc ludziom. Ale póki co wszystkie stworzone nazwy i w kalendarzu z kotami i nowej wersji z psami, to dzieło ludzi.

Trudno sprawić, aby generatywna AI była zabawna?

Przy nieco większej niż zwykle odrobinie starań można skłonić AI do stworzenia zabawnej konwersacji, albo grafiki, która posiada drugie i trzecie dno. Przy mniejszej odrobinie – żarty będą suche, wymuszone. To po stronie promptera jest odpowiedzialności za efekt końcowy.

Wróćmy do wspomnianego na początku ładu, fundamentów konwersacji z generatywną AI. Możesz przytoczyć więcej przykładów?

Zawsze w prompcie musisz zawrzeć kontekst. Dobrze powiedzieć, kim jesteś: pisarzem, badaczem, dziennikarzem, uczniem, studentem, copywriterem… To jeden z pierwszych możliwych tropów, który uruchamia w generatywnej AI ścieżki, którymi będziecie wspólnie dalej podążać. Z olbrzymiej sieci neuronowej AI zaczyna selekcjonować właściwy obszar dalszej eksploracji. Jednocześnie trzeba uważać, aby nie zawęzić jej perspektywy, bo zmniejsza to możliwości uzyskania ciekawych wyników.

Kontekst wpływa na rezultat. Ale czy także kontekst bez związku z istotą problemu?

Tak. Na przykład przy generowaniu obrazów wystarczy zaprogramować inne tło albo w ogóle konkretne tło i już rezultaty zaczynają podążać inną ścieżką. Doskonale to widać w Midjourney.

Podam przykład pozornie neutralnych parametrów, które zasadniczo wpływają na efekt. Generujemy „portret mężczyzn” i kiedy uzupełnimy prompt o wskazanie „widok z góry”, uzyskamy najczęściej obraz stylistyką, kolorystyką i szeregiem innych cech podobny do zrzutów z gier wideo, strzelanek. Zamień na „widok z dołu” – a rezultaty zaczną przypominać wprost ujęcia pomników. Dlaczego? Większość nietypowych ujęć „z dołu” w bazach zdjęć, na których uczyły się modele, to zdjęcia i obrazy pomników z perspektywy obserwatorów stojących pod cokołem. Co więcej, większość pomników przedstawia mężczyzn, to kolejna korelacja wzmacniająca efekt końcowy.

I to są przewidywalne efekty – ale zarazem wystarczy zmienić prompt na „portret kobiety”, i efekty są całkiem inne. To szereg zależności, które możesz sobie uświadomić w toku praktyki a część możesz domniemać, jak wpłynie na wynik. Ta wiedza określa jakość pracy promptera, jak blisko pożądanych efektów będzie uzyskany rezultat. Dodatkowo – o ile nie poprosisz o coś konkretnego, to zawsze dostaniesz najczęściej występujące w zbiorze, w danym wycinku sieci, przykłady.

Skąd jednak problemy w realistycznym odtwarzaniu niektórych prostych wyobrażeń czy detali, których setki przecież muszą być w bibliotekach zdjęć?

No właśnie: spróbuj stworzyć w Midjourney dobrą agrafkę. To niemożliwe, poświęciłem temu wiele czasu. Dlaczego? Ponieważ model celowo jest „przesterowany” na uzyskanie efektu artystycznego. Poprawny technicznie obraz agrafki nie jest postrzegany przez model jako efekt pożądany przez pytającego. Z założenia model będzie więc przetwarzał go do postaci w jego mniemaniu odpowiedniej. Oczywiście zależy to również właśnie od modelu, bo w Midjourney posiadamy ich wiele.

Redukcja – wykluczanie kategorii – jest efektywną techniką?

Z pewnością jedną z najskuteczniejszych. Jak wygenerować obraz „najpiękniejsza fotografia” – a wbrew pozorom tego typu karkołomne określenia trafiają się w briefach klientów? Najprostszym zabiegiem, ale wcale nieoczywistym, będzie dodanie założenia „award winning photography”. Budujemy korelację do zdjęć fatycznie wyróżnionych na konkursach fotograficznych. Jeśli nadal to zbyt szeroko i rozpiętość rezultatów będzie zbyt duża, wprowadzamy zastrzeżenie „nie uwzględniaj zdjęć nieostrych” albo „rozmazanych” albo „słabej jakości” itd. Tak zwiększasz prawdopodobieństwo, że uzyskasz rezultat spełniający kryteria estetyczne „pięknej fotografii”, który obronimy przed klientem bez potrzeby łamania jego poczucia estetyki.

Zatem cierpliwie promptując można także wykorzenić z rezultatów typowy błąd w grafikach generowanych przez AI, czyli dłoń z 2-3 palcami – bo pozornie prosty obraz dłoni w układzie anatomicznym zdaje się przerastać Gen AI?

Oczywiście. To ciekawy problem, który w zasadzie już nie powinien występować, ale swego czasu stanowił wyzwanie. Zajęło mi to wiele czasu, ale wypracowałem schemat uzyskania w Midjourney poprawnego obrazu dłoni – już w styczniu 2023, kiedy to wydawało się jeszcze niemożliwe. Być może jako pierwszy na świecie lub jeden z pierwszych wygenerowałem poprawny obraz ludzkiej dłoni.

Jak do tego doszło?

Najpierw zastanawiałem się, skąd w ogóle brał się problem. Przecież AI było trenowane na milionach, jeśli nie miliardach poprawnie wykonanych zdjęć dłoni. Nie były one jednak właściwie opisane. Nikt przecież nie opisuje zdjęć np. „Tomek na spacerze, z dłonią z pięcioma palcami, z których jeden to przeciwnie ułożony kciuk, drugi to palec wskazujący, trzeci – środkowy jest najdłuższy, czwarty, serdeczny zbliżony wielkością do wskazującego, piąty jest najmniejszy”. Ludzie tego nie potrzebują. Dlatego AI nie może korelować opisu z obrazem.

Wobec tego zacząłem się zastanawiać, w jakich sytuacjach trafia się zobrazowanie dłoni w pełni, możliwie z opisem. Wytypowałem na wstępie trzy grupy: zdjęcia z dłonią w czasie wizyty u wróżki, z zaręczyn i ślubu oraz medyczne. Przetestowałem te kierunki i okazało się, że medyczny daje najlepsze efekty i AI zaczyna rozumieć rękę. Następnie zacząłem opisywać kontekst, a potem wzmacniać prompt dodając opisy poszczególnych palców. Zacząłem uzyskiwać poprawne obrazy dłoni, ale kontekst bardzo mocno zmieniał poprawność wyników, bo zacząłem otrzymywać poprawne ręce, ale bez skóry – za każdym razem było widać kości i mięśnie. Żadne proste wpisywanie w prompt „ze skórą” czy „szczupła” albo przeciwnie – „spracowana dłoń” nie działały. Wtedy zacząłem właśnie stosować redukcję: pokaż zdjęcia medyczne dłoni wyłączając zdjęcia, na których widać ścięgna, kości, żyły… Na końcu – trzeba było jednak jeszcze dodać do kontekstu człowieka, żeby uzyskać najbardziej zbliżony do prawdziwego obrazu wizerunek dłoni.

Czy każde środowisko ma swoje własne niuanse – czy np. specjalizujesz się w promptowaniu Midjourney, ale do innych silników trzeba już prowadzić rozmowę w inny sposób?

Są różnice i ogólne podobieństwa w ChatGPT, w Midjourney, Jasper i innych narzędziach Generative AI. Różnice wynikają już z tego, w jaki sposób są podpięte biblioteki oraz jakie to biblioteki. Różnie jest rozłożony też choćby akcent promptu. W ChatGPT najważniejsze jest dla silnika to, co podawane jest bliżej końca, ale już np. w Midjourney – to co na początku promptu.

Z kolei takie narzędzia jak Jasper są ukierunkowane na to, aby nie trzeba było umieć promptować – starają się obiektywizować, ułatwiać osiąganie rezultatów. Powstaje szablon, który potem nadbudowuje się przy pomocy innego narzędzia. Dlatego zależnie od celów i etapu korzystamy z różnych narzędzi Generative AI.

Jasper albo Copy AI mocniej osadzają także ChatGPT w kontekście, do którego ma być wykorzystane narzędzie. Prompter nie musi potem wprowadzać całego wstępu o tym, że jest copywriterem, że działa w branży reklamowej itp. Wybrany model uczył się np. tylko na hasłach reklamowych, dlatego wie, jaka jest struktura haseł, jak działają adwordsy, a jak słowa klucze w YouTube itd.

Moim zdaniem wszystko będzie szło w kierunku specjalizacji – Open AI deklaruje na przykład, że w tym roku mniej będą się koncentrować na rozbudowie modelu, a bardziej dopracowaniu jego jakości.

Następnym krokiem będzie doskonalenie UI, UX. Tak, aby rola prompt engineera była przejściowa, do czasu, kiedy generatywna AI będzie lepiej odczytywać intencje, potrzeby użytkownika. Dzieje się tak już chociażby z Dall-E 3, które sprzęgnięte jest z ChatGPT. Tam nasz prompt zostaje już automatycznie polepszony przez AI i dopiero na tej podstawie generowane jest zdjęcie. Z czasem prompt engineer wycofa się do back-endu, do głosu dojdą rozwiązania pre-definiowane, jak Jasper.

Wydaje się, że nadal część użytkowników będzie lepiej, pełniej poznawać narzędzie, a dla pozostałych wystarczające będzie kilka-kilkanaście funkcji.

Widzę to bardzo podobnie. Każdy zrobi sobie w Midjourney kartkę świąteczną czy laurkę, ale poważne kreacje będą tworzyć wyspecjalizowane agencje, które będą potrafiły tworzyć znacznie bardziej wyrafinowane obrazy. Przykładem może być nasza kampania dla Gazety Wyborczej, która możliwe, że jest pierwszą tego kampanią na świecie, która pokazuje jak może wyglądać przyszłość reklamy z wykorzystaniem AI. Ale osiągnięcie takich efektów to mozolna i długa praca, która często przyjmuje formę bliżej rozmowy niż wydawania poleceń.

Wszyscy jednak będą musieli przyzwyczaić się, że generatywna AI oczekuje konwersacji.

To nie jest nigdy pojedyncze zapytanie. To właśnie konwersacja, stopniowo, jak odkuwanie rzeźby w kamieniu, aby odsłonić pożądany kształt. Można się cofać, szukać wariantów, redukować albo poszerzać zakresy modyfikacji… I pomimo, że zajmuje to czas, to wielość, różnorodność przetestowanych wariantów nigdy nie będzie uzyskana bez wsparcia AI.

Zmiana jest pewnym szokiem, ale zapewne tylko dla naszego pokolenia, które jest wychowane w świecie wyszukiwarki. A tutaj AI zaprasza do rozmowy, nie chce Cię zbyć. Możesz wręcz zapytać: „jakie trzy kolejne pytania byłyby ważne – istotne dla rozwinięcia wątków, o których napisałeś mi wcześniej”. AI chce mieć w użytkowniku partnera – jakkolwiek to brzmi – my także powinniśmy tak je traktować, a nie jak wyszukiwarkę czy też tradycyjne oprogramowanie wykonujące ślepo dokładne polecenia.

Użytkownicy będą się oswajać, a co z doskonaleniem silników? Co jeszcze, poza specjalizacją czy UI powinno się zmienić?

Na pewno czeka nas poprawienie wersji językowych. Docelowo lepiej będzie pracować na polskim ChatGPT i tam pisać prompty po polsku. Aby stworzyć model bazujący na języku potrzeba zdefiniowania tokena, najmniejszej jednostki, do której będzie próbował dopasowywać kolejne. ChatGPT bazuje na języku angielskim, w którym każde słowo jest tokenem i próbuje tylko trafić z kolejnym. W języku polskim tokenizacja przebiega wolniej, przypomina to dodawanie sylab, a czasem nawet liter, zamiast całych słów. Bot częściej się myli, uzyskuje mniej dokładne i gorsze jakościowo efekty. Dlatego dziś, jeśli chodzi o tekst, lepiej promptować po angielsku a potem tłumaczyć rezultat na polski.

Zresztą każdy może przeanalizować to w panelu Playground, w którym ChatGPT pokazuje w jaki sposób osiągnął rezultat. Odpowiadając na pytanie „Jak działa Chat GPT” – zaczął od „Chat GPT”, bo z 98-proc. prawdopodobieństwem uznał to za najważniejszy element, potem wybrał słowo „to”, a następnie zastanawiał się czy wybrać „bot” czy „nar”. Przeważyło „bot”, mimo, że było 2% do 20%, a nie „nar”, które miało potem być rozbudowane do „narzędzie” … a to już ma konsekwencje dla dalszego ciągu wypowiedzi.

W dużej mierze jest to więc czarna skrzynka.

Ale można doszukać się prawidłowości, jeśli odpowiednio ustawi się kontekst, sformułuje pytanie. Można sterować budową odpowiedzi, jeśli wie się o regułach.

W panelu playground jest dostęp do trzech współczynników, które można zmienić. Na przykład – można wykluczyć 5 najczęściej wypadających rzeczy w odpowiedzi. Możesz przez dostęp do surowego GPT, zmieniając wartość współczynników, kształtować odpowiedź, bo np. zależy Ci, aby była bardziej oryginalna, niesztampowa – lub odwrotnie – powtarzalna. Tak działa parametr „temperatury”, który przesunięty na skali od 1 do 9 bliżej „1” właśnie będzie podążał bardziej nieoczywistą ścieżką. Jest z tym wiele nieporozumień, bo np. niektórzy uważają, że to tajny element promptu, który trzeba dodać na końcu – ale wtedy będzie to element, który AI rozważy w Twoim zapytaniu, ale nie potraktuje jako technicznego współczynnika.

Każdy będzie mógł też sobie znaleźć zastosowanie AI?

Moim zdaniem dotknie to wszystkiego – jak elektryczność.

Piekarza na przykład?

Oczywiście. Przywołam przykład Natana Myhrvolda, geniusza, który był m.in. CTO w Microsofcie, ale to także czynny i publikujący naukowiec – paleontolog i fizyk, zawodowy fotografik. Okazał się geniuszem kuchni, w której wychodząc od praw chemii i fizyki tłumaczy od strony naukowej co stoi za genialnymi potrawami . Zespół fizyków i chemików rozebrał na czynniki pierwsze wszystkie procesy i składniki. Powstały kompletne opracowania, cała seria „Modernist Cuisine” oraz np. „Modernist Bread” czyli 5 tomów, 2600 stron, tylko o pieczeniu chleba na świecie, w tym jeden w całości poświęcony piecom, inny mące itd. Jeśli AI miałoby do tego dostęp – to piekarz mógłby opierać się na tej wiedzy, np. „jak usprawnić dobór mąki” itp. Z AI zyska lepszy produkt i konkurencyjną przewagę. W kilka minut – albo kilka godzin, można uzyskać przepis na usprawnienie działania w każdej branży – od kulinarnej, po ogrodniczą czy medycynę. AI może stać się lewarem podejścia zindywidualizowanego do klienta w każdej branży.

To przyszłość, ale dziś większość ludzi nie wie nawet, że Chat GPT bierze najbardziej pod uwagę ostatnie słowa z prompta. Na ile jest to wiedza dynamiczna – ile jest zmienności powodowanej zmianami ustawień przez dostawcę w kolejnych wersjach albo bez podawania przyczyn? Tak jak to miało miejsce przy zabawie z SEO.

Wierzę, że mamy do czynienia z pewna narzędziową formą inteligencji, której celem jest poprawianie inteligencji rozumienia. Oczywiście widać zmianę logiki pomiędzy wersjami 3,5 a 4 w ChatGPT. Widać zmiany i trzeba je po prostu uwzględniać.

Także na gorsze. Podobno ChatGPT4 zaczyna zapominać pewne rzeczy, „głupieje” – głośny by przykład, kiedy przestał rozpoznawać liczby pierwsze, z którymi wcześniej nie miał problemów.

Czytałem rozważania, że podobnie jak człowiek, tępi początkową ostrość, wyrazistość myślenia, pod wpływem powtarzających się, powielających zapytań. Nie wiadomo, ile jeszcze takich zjawisk się pojawi. OpenAI twierdzi, że codzienna działalność użytkowników w zasadzie nie ma na to wpływu, ale oni z kolei co jakiś czas poprawiają system i coś może iść nie po ich myśli. Może podobnie jak ludzie, którzy czasem zmieniają mocno swój światopogląd i opinie pod wpływem ważnego dla nich wydarzenia.

Jeśli jest tyle aspektów, to zapewne rozwijać będzie się struktura zespołów pracujących z generatywnym AI. Jaki jest podział w Twoim zespole?

Dziś dobra struktura takiego zespołu jest elastyczna. Odpowiadam za sprawy kreatywne, za grafikę, badanie składni, projektowanie eksperymentów na GPT. Ale mamy też w zespole osoby ściślej związane z oprogramowaniem GPT, z backgroundem matematycznym. Inna osoba czuwa nad udostępnieniem środowiska Jaspera dla osób, które mają wykonać zadania copywriterskie dla klienta.

Mnie najlepiej pracować nad GPT od strony kreatywnej. Mam więcej wiedzy o komunikacji, co pozwala mi planować dłuższe konwersacje i interpretować wyniki. Wiem, jak cofnąć się w niej, aby uzyskać inny wynik. Wiem, jak przełamać ograniczenia.

Jak skutecznie zadawać pytania generatywnej AI?

Bardzo ważne jest projektowanie i wykonywanie eksperymentów. Trzeba też pamiętać, że samo AI nie ma emocji – ani gustu. Trzeba eksperymentować, cierpliwie wychwytywać podatności, skłonności, silne i mocne strony modeli. Ludziom się wydaje, że mogą do promptu wpisać wszystko, jakby podrzucali muzykowi nuty, aby zagrał a vista. Tymczasem dla AI takie zestawienie wcale nie będzie oczywiste. Jest też dużo przypadków. Niektóre rzeczy udają się nieoczekiwanie – np. przez wstawienie zadania w inny kontekst, pozornie słabo skorelowany. Są to tzw. złote prompty, które wynalazca trzyma w tajemnicy, jako swój know how – mówi Tomasz Graszewicz, CEO Job’n’Joy i Shake the Cake, jeden z pierwszych praktyków i prompt engineer’ów w Polsce.

Powstają narzędzia do lepszej kontroli, można na przykład odręcznie narysować zarys, schemat podstawowy, który narzędzie jak Drag Your GAN lepiej zrozumie, niż np. opis tekstowy. Albo Runway, który grafiki przerabia na film, uruchamia statyczną grafikę.

Przerażenie i zachwyt – oto, co czują dzisiaj graficy.

Co jest trwałą granicą rozwoju AI? Mówiłeś już wcześniej o utopii Ogólnej AI.

Czytałem ostatnio „1000 mózgów w twojej głowie. Teoria nowej inteligencji” Jeffa Hawkinsa, i sądzę, że nieprzekraczalną granicę rozwoju AI stanowią dziś emocje. AI nie radzi sobie także ze złożonymi zadaniami. Był pomysł, że AI optymalnie rozdzieli sobie pracę pomiędzy swoich agentów, ale do tej pory nie ma działających przykładów opracowania i nadzorowania strategii takiego zespołu przez AI. Ten proces zachodzi w AI – ale tylko pod kontrolą człowieka jako proces nadzorowany. Samo generatywne AI stale ciąży ku zaprogramowanym „danym fabrycznym”. Jeśli nie doprecyzujesz, czego chcesz, efekt będzie zmierzał ku czemuś powtarzalnemu, uśrednionemu.

Taka grawitacja AI, którą trzeba nieustannie pokonywać.

Generatywne AI to bardziej wyszukiwanie rzeczy niż samodzielny twórca. Inspirowane pracą ludzkiego mózgu, ale nie odtwarzające go choćby w części. To my jesteśmy w stanie oceniać AI – ono samo – nie. Szalony kucharz AI może zrobić wszystko, ale na koniec nie spróbuje i nie powie: „udało się, to jest pyszne”. Będzie mogło statystycznie określić, ale samo nie oceni. Nie jest inteligentne. Za to poprawia już dziś naszą efektywność o 10 – 20 – 100 – 500%.

Jeśli się ten model współpracy upowszechni, to wpłynie na człowieka. Czy czeka nas dalsze „wypłycanie” inteligencji, jak 10 lat temu prognozował Nicholas Carr w „Płytkim umyśle” efekt kontaktu człowieka z Internetem? A może teraz nastąpi renesans – bo nasz „smak” będzie niezbędny?

Wiele osób się nad tym zastanawia, przede wszystkim w kontekście nadchodzącego pokolenia – jakie ono będzie, jeśli od początku będzie mogło posługiwać się tak potężnym narzędziem?

To wielki znak zapytania – ale osobiście sądzę, że raczej będzie dominować efekt dalszego spłycenia, człowiek będzie dążył do tego, aby robić mniej. Efekty dla wielu będą złe, jak w przypadku smartfonów, które szkodzą relacjom, zdrowiu psychicznemu i fizycznemu, tworząc potężny problem uzależnienia.

Z drugiej strony wsparcie procesu nauczania przez AI można dobrze zaprojektować. Po lekcji bot z fizyki wyjaśni Ci lekcję, bez krzyku i zawstydzania, cierpliwie podając przykłady. Ale nawet wtedy naturalna inteligencja będzie wykorzystywana coraz mniej.

Jeśli więc wiemy, że będziemy żyli z AI, trzeba poszukać bezpiecznej drogi adaptacji. W dzieciństwie lubiłem uczyć się samodzielnie. Teraz, dzięki AI, byłoby to dużo prostsze. Powinno to zachęcić więcej osób do szukania wiedzy, a dzięki temu więcej z nich osiągnie w życiu… więcej. Ale trzeba chcieć.

Jak zatem motywować?

Uważam, że już dziś w szkole każdy przedmiot powinien zacząć uwzględniać w swoim nauczaniu sposoby na poszerzenie horyzontów dzieci dzięki zastosowaniu AI. Jak to robić skutecznie i z głową? Chociażby prosić uczniów, aby tłumaczyli swój sposób rozumowania przy tworzeniu zapytania oraz podkreślali, gdzie AI się pomyliło. Dzięki temu nie utracimy zdolności samodzielnego myślenia.

Tagi