Sztuczna inteligencjaPolecane tematy

Rząd udostępnia polski model językowy PLLuM

Ministerstwo Cyfryzacji zaprezentowało polski model językowy PLLuM oraz plan jego rozwoju. Od dziś model dostępny jest dla każdego. PLLuM (Polish Large Language Model) to rodzina modeli sztucznej inteligencji, która pozwala przetwarzać i generować teksty w języku polskim. 

Rząd udostępnia polski model językowy PLLuM

Modele stworzone przez polskich ekspertów i ekspertki z dziedziny IT i lingwistyki, mają wesprzeć rozwój kompetencji cyfrowych oraz innowacje w administracji publicznej i biznesie. Członkami konsorcjum PLLuM są: Politechnika Wrocławska, NASK, Instytut Podstaw Matematyki PAN, Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy, Uniwersytet Łódzki i Instytut Slawistyki Polskiej Akademii Nauk.

Projekt realizowany jest na zlecenie Ministerstwa Cyfryzacji, które jest właścicielem wyników i kontroluje rozwój PLLuM.

Kolejne inwestycje w duże, polskie modele językowe LLM

Jednocześnie ogłoszono, że projekt PLLuM zostaje przekształcony w projekt HIVE zmierzający do budowy ekosystemu polskich modeli językowych. Zostanie też zwiększone finansowanie tego projektu. W 2024 roku na rozwój PLLuM przekazano 14,5 mln zł. W tym będzie to 19 mln zł. Liderem konsorcjum IVE zostaje Ośrodek Badań nad Bezpieczeństwem SI w NASK. Dołączają też do niego Centralny Ośrodek Informatyki oraz Akademickie Centrum Komputerowe Cyfronet AGH.

COI będzie wdrażać model, jako narzędzia dla urzędników i w mObywatelu. W aplikacji pojawi się wirtualny asystent, który ułatwi obywatelom korzystanie z usług administracji publicznej. Natomiast Cyfronet AGH będzie dostarczać mocy obliczeniowych pod uczenie modeli i ich udostępnianie. Cyfronet AGH dysponuje nowoczesną infrastrukturą obliczeniową w tym najszybszym superkomputerem w Polsce – Helios.

PLLuM – wspólnie z modelem Bielik – mogą promować sztuczną inteligencję tworzoną w Polsce, wspierając się wzajemnie w lepszym procesie trenowania i dalszym pozyskiwaniu oraz otwieraniu danych, potrzebnych by AIMadeInPoland było coraz lepsze – dla administracji publicznej, biznesu i społeczeństwa” – mówią przedstawiciele resortu cyfryzacji.

Inwestycja w cyfrową suwerenność

PLLuM to dowód na to, że możemy rozwijać nowoczesne technologie na własnych warunkach, w naszym języku, z korzyścią dla obywatelek i obywateli. Tworzymy fundament pod inteligentne usługi publiczne i innowacje, które będą realnym wsparciem zarówno dla administracji, jak i biznesu” – mówi Krzysztof Gawkowski, wicepremier i minister cyfryzacji.

Polski model językowy, a właściwie na dziś 18 modeli, wykorzystuje od 8 do 70 mld parametrów. Pozwala na precyzyjne generowanie treści w języku polskim. „Mniejsze wersje dobrze sprawdzają się w szybkich zadaniach, podczas gdy większe oferują wyższą precyzję i kontekstową spójność w rozumieniu języka polskiego. W rodzinie modeli PLLuM znajdują się m.in. modele w architekturze Mixture of Experts ze zrównoważonym wyborem ekspertów oraz wyspecjalizowane modele Retrieval Augmented Generation” – wyjaśniają autorzy projektu.

Konsorcjum PLLuM podkreśla etyczny sposób pozyskiwania danych. Wersje do użytku komercyjnego wykorzystują zasoby tekstowe od właścicieli, którzy udzielili licencji konsorcjum (także ITwiz), a także zasoby, które, zgodnie z ustawą o prawie autorskim i prawach pokrewnych oraz przepisami UE, mogą być wykorzystane do budowy w pełni otwartego modelu.

Modele naukowe (tj. udostępniane na licencjach, które nie pozwalają na zastosowania komercyjne) korzystają także z ogólnodostępnych zbiorów danych, takich jak Common Crawl.

Trenowanie i rozwój modeli PLLuM

Dostrajany na autorskich zbiorach danych, czyli dziesiątkach tysięcy tzw. instrukcji – pobudzeń (promptów) i oczekiwanych odpowiedzi modelu – oraz preferencji – pobudzeń i różnych odpowiedzi modeli ocenionych pod kątem jakościowym – tworzonych przez zespół ponad 50 specjalistów i specjalistek.

Rozwój PLLuM to inwestycja w cyfrowe państwo. Do tej pory przeznaczyliśmy na ten projekt 14,5 mln zł, a teraz idziemy krok dalej – kolejne 19 mln zł pozwoli na wdrożenie modelu w administracji publicznej i rozszerzenie współpracy o nowych partnerów, takich jak COI i Cyfronet. Dzięki temu PLLuM stanie się kluczowym elementem cyfryzacji usług publicznych i rozwoju krajowego ekosystemu AI” – powiedział Dariusz Standerski, wiceminister cyfryzacji.

PLLuM wyróżnia się na tle innych modeli językowych. Jest dostosowany do specyfiki języka polskiego oraz terminologii administracji publicznej. W procesie jego tworzenia stosuje kompleksowe procedury gromadzenia danych i oceny ich jakości. PLLuM przede wszystkim korzysta z danych organicznych – opracowywanych ręcznie, a nie przy użyciu innych modeli językowych. Trenowany na polskich zasobach, bardzo dobrze radzi sobie z wyzwaniami fleksji i złożonej składni generując precyzyjne treści.

Konkretne zastosowania polskich LLM-ów

PLLuM dostarczy zaawansowanych rozwiązań dla administracji publicznej i tym samym wesprze dalszą cyfryzację Polski:

  • Wirtualny asystent w mObywatel, który wesprze obywateli i obywatelki w uzyskiwaniu informacji publicznych.
  • Inteligentny asystent urzędniczy, który zautomatyzuje przetwarzanie dokumentów, analizę treści, wyszukiwanie informacji i wsparcie w udzielaniu odpowiedzi na pytania obywateli i obywatelek.
  • Edukacja, ułatwi rozwój aplikacji edukacyjnych, tłumaczeń i pomoc nauczycielom i nauczycielkom w prowadzeniu angażujących lekcji z użyciem najnowszych technologii.

Rozwój PLLuM to także szansa na wzmocnienie konkurencyjności Polski w sektorze IT i całej gospodarce. Inwestycje w sztuczną inteligencję przyczyniają się do powstawania nowych firm i produktów opartych na AI, napędzając wzrost gospodarczy. Wykorzystanie PLLuM w różnych obszarach – od edukacji i administracji po sektor prywatny – sprzyja tworzeniu nowoczesnych rozwiązań, które umacniają pozycję Polski wśród liderów rozwoju AI” – przekonują przedstawiciele Ministerstwa Cyfryzacji.

PLLuM jest dostępny na stronie konsorcjum.

Modele PLLuM można pobrać na Hugging Face.

Test modeli LLM w zakresie kompetencji językowych i kulturowych w języku polskim

Źródło – Hugging Face

Tagi

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *