Z Tomaszem Rucińskim, Subject Matter Expertem ds. AI oraz Agnieszką Lipską, Subject Matter Expertem ds. Conversational AI w Kyndryl Polska rozmawiamy o: specyfice rozwiązań wykorzystujących sztuczną inteligencję w propagowaniu kultury i sztuki, również tych poruszających ważne tematy społeczne; o wyzwaniach związanych z budowaniem takich rozwiązań; kompetencjach niezbędnych do ich tworzenia; a także o stworzonej przez Kyndryl platformie Aquila do automatycznej analizy dokumentów.
Projekty realizowane przez Kyndryl dotyczą nie tylko technologii chmurowych, usług sieciowych i brzegowych, czy zarządzania odpornością cybernetyczną, lecz także tworzenia rozwiązań wykorzystujących sztuczną inteligencję. W jakich projektach związanych z zastosowaniem algorytmów AI Państwo brali udział?
Agnieszka Lipska (A.L.): Przez ostatnie pięć lat skutecznie pokazujemy, że sztuczna inteligencja może i powinna służyć człowiekowi w różnych sferach. Przygotowaliśmy między innymi rozwiązania pozwalające człowiekowi zbliżyć się do kultury, sztuki, a także takie, które – poprzez swoją atrakcyjność – są w stanie zainteresować uczestników tematami, które są ważne społecznie.
Jednym z pierwszych projektów, którymi zajęliśmy się w kontekście AI, był CoArt. Miał on z jednej strony przybliżyć sztukę ludziom, którzy na co dzień się nią nie otaczają. Może nawet trochę się jej obawiają. Z drugiej zaś strony ułatwić osobom, szczególnie zainteresowanym sztuką, zdobycie szczegółowych informacji na temat konkretnego dzieła.
Naszym zadaniem było przygotowanie asystenta osoby zwiedzającej muzeum. Rozwiązanie to przeznaczone było dla osób, które chciały zrozumieć dane dzieło, ale nie miały tyle śmiałości, aby zadawać pytania kuratorowi lub nie zdawały sobie sprawy z tego, że muzeum może być miejscem, w którym o sztukę można pytać, a nie tylko ją podziwiać.
Z jakimi wyzwaniami wiązał się ten projekt?
A.L.: Podstawowym wyzwaniem, jakie zaadresowaliśmy, było poznanie intencji osoby, która zadawała pytania odnoszące się do dzieła. Niezależnie od tego, jakie słowa zostały użyte do zadania konkretnego pytania, naszym zadaniem było udzielenie odpowiedzi, która zaspokajała ciekawość pytającego. Kiedy już wiedzieliśmy o co jesteśmy pytani, chcieliśmy odpowiedzieć na to pytanie w sposób lekki, ale także merytoryczny.
Kluczowym aspektem było również to, że nie mogliśmy pozwolić sobie na odpowiedzi bliskie prawdy czy konfabulacje, które są charakterystyczne dla sieci generatywnych AI, o których dzisiaj tak wiele się mówi.
W jaki sposób rozwiązaliście ten problem?
A.L.: Zdecydowaliśmy, że w naszym rozwiązaniu powinniśmy użyć klasyfikatora. Podejście to zakłada, że sztuczna inteligencja wspiera nas w rozpoznawaniu intencji użytkownika. Na tej podstawie jesteśmy w stanie zaprezentować odpowiedź, która została wcześniej przygotowana i zatwierdzona. Dzięki temu nie tylko możemy nadać odpowiedni ton odpowiedziom, ale też jesteśmy pewni, że są one rzetelne i zawierają tylko sprawdzone informacje.
Jaki osiągnęliście Państwo efekt dzięki takiemu podejściu?
A.L.: Rozwiązanie to pozwoliło szerokiej rzeszy ludzi zbliżyć się do sztuki. Pokazało, że prace wielkich artystów mogą być nie tylko piękne, ale też ciekawe pod wieloma względami. Poczynając od biografii samego artysty, jego historii, historii powstania konkretnego dzieła, stosowanych technik artystycznych, aż po szczegóły zawarte w pracy.
Projekt ten pokazał nam, że ludzie naprawdę chcą głębiej zainteresować się sztuką, jeżeli tylko mają taką możliwość. Wtedy właśnie pojawił się kolejny temat, tym razem związany z muzyką poważną.
Czym różniło się podejście do muzyki w tym projekcie od podejścia do malarstwa?
A.L.: Temat był o tyle ciekawy, że o ile w przypadku obrazów obcujemy z czymś namacalnym, o tyle jeśli chodzi o muzykę, to jest ona dużo bardziej ulotna. O wiele trudniej rozmowę na jej temat sprowadzić do ograniczonego zbioru odpowiedzi. Niemniej jednak podjęliśmy się tego wyzwania.
Pomimo naszych obaw co do rozpiętości pytań, ludzie skupiali się głównie na tematach biograficzno-historycznych oraz technicznych, związanych z wykonaniem utworu. Głównym aspektem, który różnił rozmowę o malarstwie od tej o muzyce, było to, że słuchacze zadawali pytania, które odnosiły się do konkretnego momentu utworu. Musieliśmy zatem zadbać o to, aby odpowiedź na pytanie mogła być inna, w zależności od tego, kiedy zostało zadane.
Propagowanie kultury i sztuki to nie jedyny cel projektów, w których wykorzystujecie Państwo technologię sztucznej inteligencji. Wyczytałem, że poruszacie w nich również tematy ważne społecznie.
A.L.: Kolejny projekt, który do nas trafił, narodził się z potrzeby zadbania o zdrowie psychiczne dzieci i młodzieży. Jego celem było uświadomienie problemu, który coraz bardziej się pogłębia i dotyczy coraz większej liczby młodych ludzi. Miał on też pokazać, gdzie mogą szukać pomocy i jak można zadbać o odporność psychiczną, zanim pojawią się problemy.
W przypadku tego rozwiązania nasz voicebot przybrał realną postać robota NOA. Robot ten stał się asystentem Marka Kamińskiego (podróżnika ekstremalnego, który jako pierwszy na świecie zdobył oba bieguny ziemi – przyp. red.) w podróży po Polsce, promującej program budujący odporność psychiczną wśród dzieci i młodzieży.
NOA potrafił nie tylko opowiadać o Marku Kamińskim, jego podróżach, promowanym programie oraz sztucznej inteligencji i jej znaczeniu w dzisiejszym świecie, lecz także tańczyć i zmieniać mimikę twarzy. Wszystko to po to, aby jak najlepiej utrzymać zainteresowanie młodzieży i dzieci. Dzięki temu można było poruszać – niejako przy okazji – tematy, które są dzisiaj niezwykle ważne.
Start tego projektu zbiegł się z tragicznymi wydarzeniami w Ukrainie. Był to moment, w którym wybuchła wojna i ogromna liczba dzieci i młodzieży wyemigrowała do Polski. Ponieważ projekt w założeniu miał pomagać dzieciom znajdującym się w trudnej sytuacji, nie pozostawało nam nic innego, jak rozszerzyć możliwości naszego voicebota o komunikację w języku ukraińskim.
Podobnie jak w poprzednich rozwiązaniach, również tutaj ogromną rolę odegrali specjaliści nie tylko z Kyndryla, którzy weryfikowali klasyfikację pytań, przygotowywali odpowiedzi oraz weryfikowali poprawność tłumaczeń na język ukraiński.
Aby solidnie wyszkolić maszynę przy rozwiązaniach Machine Learning, konieczne jest zaangażowanie specjalistów odpowiedzialnych za aspekty technologiczne, ale też osób dogłębnie znających dziedzinę, w której szkolony jest AI – Agnieszka Lipska, Subject Matter Expert ds. Conversational AI, Kyndryl Polska
Jakich jeszcze kompetencji wymaga przygotowanie tego typu modeli AI?
A.L.: Wszystkie te projekty miały jedną kluczową część wspólną – wymagały ogromnych ilości danych treningowych. Aby je zebrać, potrzebowaliśmy zarówno czasu, jak i wielu zaangażowanych ludzi, którzy – poprzez specjalnie przygotowaną do tego aplikację – dzielili się z nami pytaniami, które chcieliby zadać w kontekście konkretnego zagadnienia.
Ponieważ zdecydowaliśmy się na wybór techniki Machine Learning zwanej uczeniem nadzorowanym, w każdym z tych projektów potrzebowaliśmy specjalistów, którzy byli w stanie odpowiednio skategoryzować pytania treningowe i nadać im odpowiednie etykiety. Ponadto, aby zapewnić należytą merytorykę odpowiedzi, potrzebowaliśmy wybitnych specjalistów z zadanej dziedziny.
Aby solidnie wyszkolić maszynę przy tego typu rozwiązaniach, konieczne jest zaangażowanie specjalistów odpowiedzialnych za aspekty technologiczne, ale też osób znających dogłębnie dziedzinę, w której szkolony jest algorytm AI.
Porozmawiajmy teraz o rozwiązaniach stricte biznesowych. Mam na myśli stworzone przez Kyndryl – we współpracy z partnerem, kancelarią SSW Pragmatic Solutions – narzędzie Aquila, wykorzystujące sztuczną inteligencję do automatycznej analizy dokumentów. Jaka była geneza jego powstania?
Tomasz Ruciński (T.R.): Staraliśmy się odpowiedzieć na pytania, czy współczesna technologia mogłaby precyzyjnie wydobyć z dokumentu Word czy PDF konkretne, interesujące użytkownika informacje? Przykładowo, czy dla umowy najmu instytucjonalnego można by wydobyć datę zawarcia umowy, stawkę czynszu, nazwy stron umowy, ich adresy, albo wydobyć okres, na który umowa została zawarta? Z kolei czy dla umowy o kredyt hipoteczny dałoby się wydobyć informacje, czy umowa ta zawiera klauzule abuzywne, a także jaka jest wartość kredytu, okres kredytowania, dane kredytobiorcy?
Odpowiedź twierdząca na każde z tych pytań oznaczała, że wiele czynności i procesów, wykonywanych przez specjalistów, opartych na analizie dokumentów, można zautomatyzować. W efekcie wiele powtarzalnych prac, bazujących na podstawowym rozumieniu tekstu, mogło zostać powierzone „maszynom”.
Jeszcze 5 lat temu stworzenie przez nas rozwiązania Aquila nie byłoby możliwe. Przełom nastąpił wraz z pojawieniem się sieci neuronowych o nowej architekturze, tzw. transformerów, oraz dużych modeli językowych LLM, które można douczać danymi z danej dziedziny, np. umów kredytowych – Tomasz Ruciński, Subject Matter Expert ds. AI, Kyndryl Polska
Jakie rozwiązania technologiczne to umożliwiły?
T.R.: Jeszcze pięć czy więcej lat temu stworzenie takiego rozwiązania nie było możliwe. Technologia, a precyzyjnie modele uczenia maszynowego, technologie przetwarzania i rozumienia języka naturalnego NLP/NLU (Natural-Language Processing/ Natural-Language Understanding) nie pozwalały bowiem na osiągnięcie wystarczającej precyzji w „rozumieniu” tekstu.
Przełom nastąpił wraz z pojawieniem się sieci neuronowych o nowej architekturze, tzw. transformerów, oraz dużych modeli językowych LLM (Large Language Models), które można douczać danymi z danej dziedziny, np. umów kredytowych.
W jaki sposób działa Aquila? Jakie są funkcjonalności tego rozwiązania?
T.R.: Rozwiązanie to jest pomyślane tak, aby potrafiło analizować dokumenty niezależnie od dziedziny dokumentu – czy dotyczy umowy kredytowej, aktu notarialnego czy też umowy najmu instytucjonalnego. Potrafi odkrywać w dokumentach kluczowe informacje, takie jak kwoty, adresy, nazwy stron umowy, wysokości kar, daty, a także obecność w umowie postanowień o konkretnym znaczeniu.
Aquila znajduje zatem zastosowanie wszędzie tam, gdzie jest potrzeba przeczytania tekstu ze zrozumieniem i precyzyjnego wydobycia z niego informacji czy konkretnych postanowień. Użytkownicy biznesowi sami definiują, co jest dla nich istotne i co ma być wydobywane z tekstu dokumentu.
System może być w intuicyjny sposób douczany do analizy nowych rodzajów dokumentów lub odkrywania nowych typów informacji przez użytkowników biznesowych, z minimalnym udziałem lub bez udziału IT.
Ponadto rozwiązanie to wykorzystuje najnowsze osiągnięcia naukowe w dziedzinie uczenia maszynowego. Wykorzystano w nim np. wiele naszych autorskich pomysłów do analizy tekstów, m.in.: odczytywanie danych z tabel czy korekcja skanów słabej jakości.