Jak wynika z danych rynkowych, szkolenie inteligentnych asystentów głosowych i wykorzystanie najnowszych możliwości AI, pozwalają zwiększyć poziom zadowolenia klientów z obsługi do 90%, a także zmniejszyć liczbę przekazywanych zadań pracownikom z 15 do 5%. Trening botów obejmuje jednak wiele etapów i procesów. Jak zrobić to dobrze?
Proces projektowania i trenowania inteligentnego asystenta głosowego składa się z wielu faz – począwszy od wyboru płci voicebota, odpowiedniego głosu czy tonu brzmienia, poprzez personalizację bota konwersacyjnego, aż po tworzenie bazy potencjalnych pytań, właściwych odpowiedzi, możliwych zachowań i reakcji. Bot głosowy powinien charakteryzować się właściwym poziomem ludzkiej “naturalności”, tak aby rozmawiający z nim człowiek mógł zrealizować swój cel konwersacji. Równocześnie jednak, powinien on zapobiegać wywoływaniu u dzwoniącego fałszywego przekonania, że dialog odbywa się pomiędzy dwoma osobami, co mogłoby prowadzić do nieporozumień i fiaska konwersacji.
Skąd voicebot będzie wiedział, co powiedzieć lub jak zareagować?
Voiceboty wykorzystują do rozmów z ludźmi wiele zaawansowanych mechanizmów, procesów, języków i systemów, w tym uczenie maszynowe (ML), automatyczne rozpoznawanie mowy (ASR) i przetwarzanie języka naturalnego (NLU). Dzięki ML i NLU inteligentny asystent głosowy rozumie naturalną mowę i odpowiada tak, jak zrobiłby to człowiek. Voicebot rozumie ludzi poprzez intencje. Wyobraźmy sobie sytuację, w której konwersacyjne AI musi zakwalifikować lead, który zamówił kurs języka angielskiego w szkole internetowej. Voicebot musi zrozumieć poziom aktualnej wiedzy, jaką posiada prospekt, aby przypisać go lub ją do grupy szkoleniowej. W tym celu zapyta, czy potencjalny klient uczył się wcześniej języka angielskiego, a jeśli tak, to przez ile lat. Jednak na to pytanie lead może odpowiedzieć na wiele sposobów, od “nigdy” po “no cóż, miałem kiedyś zajęcia w szkole, ale nie przykładałem się wtedy zbytnio do nauki, więc nie wiem”.
Jak inteligentny asystent głosowy może to zrozumieć? Poprzez słowa kluczowe, które wyrażają intencję, gdzie “nigdy” i “kiedyś miałem zajęcia” są jednymi z nich. Wszystkie te określenia, które człowiek może udzielić, nazywane są “frazami treningowymi”. Innymi słowy, są to przewidywane frazy, które potencjalny klient może powiedzieć. Kiedy wypowiedź użytkownika pokrywa się z intencją, którą zna voicebot, wtedy wie on, jak zareagować i co powiedzieć.
Nie wiadomo co dokładnie odpowie potencjalny klient, ale można to przewidzieć, bazując na społecznie skonstruowanych normach interakcji między ludźmi. A są to najczęściej spotykane zachowania, czy też wzorce zachowań, które są akceptowane lub przestrzegane przez większość społeczeństwa.
“Wyobraźmy sobie sytuacje, w której jedna osoba zaprasza drugą na kawę. Wówczas, zapraszający powiedziałbym: Czy chciałabyś umówić się na kawę w przyszłym tygodniu? Ponieważ jest to zaproszenie, zapraszający oczekiwałby, że albo zaproszenia zostanie przyjęte, mówiąc, np.: “Tak, bardzo chętnie”, albo zostanie odrzucone, np. komunikując to w ten sposób: “Przykro mi, ale w przyszłym tygodniu jestem szalenie zajęty”. Tak więc, bazując na wzorcach konwersacji, gdzie po zaproszeniu następuje akceptacja lub odrzucenie, voicebot zostanie „wytrenowany”, a tak naprawdę zaprojektowany, aby rozumiał takie intencje i odpowiedzi „tak” lub „nie”. A w ich obrębie otrzymałby wiele różnych sposobów, w jaki można wyrazić akceptację i odrzucenie. Zatem, ogólnie rzecz biorąc, projektant voicebota może przewidzieć, co człowiek może powiedzieć” – tłumaczy Bartosz Malinowski, head of voicebot department w Apifonica.com.
A co jeśli człowiek powie coś nieoczekiwanego? Zdarzają się również takie sytuacje, kiedy potencjalny klient wypowie nieprzewidzianą frazę lub zdanie. Coś, czego voicebot nie będzie w stanie rozpoznać i zrozumieć. Kiedy tak się stanie, należy pomóc człowiekowi wrócić na właściwą – zaprojektowaną, zrozumiałą dla inteligentnego asystenta głosowego, ścieżkę odpowiedzi. Można to osiągnąć, m.in. poprzez podpowiadanie użytkownikowi zwrotów związanych z obsługą sytuacji.
Integracja voicebota z ChatGPT
Siłą najlepszych voicebotów na rynku jest wykorzystanie możliwości sztucznej inteligencji (SI). AI umożliwia systemom technicznym postrzeganie ich otoczenia, radzenie sobie z tym, co postrzegają i rozwiązywanie problemów, działając w kierunku osiągnięcia określonego celu. Komputer odbiera dane już przygotowane lub zebrane za pomocą wyselektowanych czujników, np. telefonu, przetwarza je i reaguje. Systemy SI są w stanie dostosować swoje zachowanie, analizując skutki wcześniejszych działań i działając w dużej mierze autonomicznie. Dlatego też, Apofionica połączyła siły swojego voicebota, opartego na rozwiązaniu AI, z najpopularniejszym chatbotem Chat GPT. A to oznacza, że teraz ten inteligentny asystent głosowy otrzymał nowe możliwości rozwoju, większą efektywność działań oraz zwiększył szybkość samodzielnego uczenia się.
“Według ostrożnych estymacji oceniamy, że integracja naszego voicebota z ChatGPT, może zwiększyć w bardzo krótkim czasie poziom zadowolenia klientów z dotychczasowych 75% do 90-95%. Pozwoli to także zmniejszyć liczbę połączeń przekazywanych agentom z obecnych 15% do 5%, zwiększając potencjał automatyzacji i efektywność przepływu pracy. Możemy również mówić o poprawie zdolności i szybkości uczenia się naszego voicebota. W przypadku naszego klienta LPP, znanego producenta odzieży, integracja pozwoliła na poprawę wyników dwukrotnie, właśnie dzięki procesowi samouczenia się voicebota” – podkreśla Bartosz Malinowski.
Trenowanie voicebotów
Proces projektowania inteligentnych asystentów głosowych obejmuje nauczenie ich m.in. co voicebot ma powiedzieć człowiekowi, czyli o co zapytać, ale też co rozmówca może odpowiedzieć oraz w jaki sposób konwersacyjny bot ma prowadzić dialog, jak ma interpretować intencje oraz zrozumieć odpowiedzi ludzi, w jaki sposób reagować na niestandardowe sytuacje oraz kierować rozmową.
Po zaprojektowaniu, przychodzi czas na trening. Voicebot jest już niemal gotowy do pracy, co oznacza, że zaczyna podejmować pierwsze próby prowadzenia dialogu. Jednak, na tym etapie testy są jeszcze przeprowadzane w celu wychwycenia wszelkich pomyłek, zmodyfikowania ich oraz do wprowadzenia niezbędnych korekt, jak również na dokonanie wszelkich ulepszeń technologicznych.
W celu zapewnienia prawidłowego przebiegu fazy testów zostaje zaangażowany zespół testerów, który składa się z doświadczonych trenerów, ekspertów z obszaru współpracy z klientami oraz technologii konwersacyjnego AI. Testy przeprowadzane są głównie poprzez rozmowy konsultantów z konwersacyjnymi botami. W ten sposób możliwe jest wyłapanie wszystkich błędów, nawet takich które teoretycznie mogą wydawać się nieistotne, ale w szerszej perspektywie mogą mieć duży wpływ na jakość działania inteligentnego asystenta głosowego.
Jak ludzie odbierają kontakt z voicebotem?
Po przeprowadzeniu ponad pół miliona rozmów przez voiceboty Apifonica z potencjalnymi klientami, dane statystyczne pokazują, że 90% osób odbiera telefon od inteligentnych asystentów głosowych, a 70% z nich odpowiada na wszystkie pytania podczas rozmowy, która trwa średnio około 4 minut.
Z kolei według badań firmy Verint, obecnie 48% klientów czuje się komfortowo w interakcjach zarządzanych przez voiceboty, a 71% twierdzi, że chętnie skorzystałoby z takiego rozwiązania, gdyby miało to poprawić doświadczenie klienta. Poza tym, we wszystkich powyższych przypadkach użycia voiceboty kontaktują się z potencjalnymi klientami, którzy już coś zamówili i oczekują odpowiedzi od firmy. Co ważne, spodziewają się szybkiego kontaktu, najlepiej w ciągu pierwszych 5 minut.