Sztuczna inteligencjaBiznesRynekPolecane tematy

Udostępniono 11 nowych modeli PLLuM – otwartych, polskich LLM dla administracji i biznesu

Ministerstwo Cyfryzacji wraz z konsorcjum HIVE AI udostępniło 11 nowych modeli językowych PLLuM. To największa jak dotąd aktualizacja polskiej rodziny otwartych LLM. Modele, dostępne na licencjach zgodnych z wymogami AI Act, zaprojektowano do pracy w administracji publicznej, biznesie i systemach AI opartych o Retrieval-Augmented Generation (RAG). Obejmują zakres od lekkich modeli 4B, po duży model 70B i mają lepiej rozumieć język polski w kontekście prawnym, urzędowym oraz kulturowym.

Udostępniono 11 nowych modeli PLLuM – otwartych, polskich LLM dla administracji i biznesu
Źródło: Ministerstwo Cyfryzacji

„PLLuM odnajduje się w polskim kontekście prawnym i kulturowym, precyzyjniej niż modele zagraniczne. Jest otwarty i dostępny dla wszystkich. Już dzisiaj znajduje zastosowanie w sprawa urzędowych, rozmowach w mObywatelu, a także w wielu firmach i jednostkach badawczych. Dzisiaj rozwijamy rodzinę modeli, za co dziękuję całemu konsorcjum HIVE” – skomentował wiceminister cyfryzacji Dariusz Standerski.

Większa precyzja językowa i administracyjna

Nowe modele mają lepiej radzić sobie z językiem polskim – zarówno potocznym, jak i formalnym – oraz uwzględniać lokalne realia prawne i kulturowe. W praktyce oznacza to:

  • obsługę ponad 20 typów tekstów urzędowych i administracyjnych,
  • generowanie i upraszczanie dokumentów formalnych,
  • rozumienie procedur administracyjnych i ich kontekstu,
  • wsparcie pracy biurowej w instytucjach publicznych,
  • możliwość pracy na wzorcach dokumentów prawnych.

Istotnym elementem rozwoju jest także lepsze działanie w systemach RAG, co ma ułatwiać integrację modeli z bazami wiedzy i systemami informacyjnymi administracji oraz firm. Modele zoptymalizowano również pod kątem bezpieczeństwa odpowiedzi, m.in. na podstawie analizy rzeczywistych interakcji użytkowników w systemie PLLuM Chat.

„Chcemy, żeby PLLuM był coraz lepszy i znajdował zastosowanie w kolejnych miejscach. Zbudowaliśmy nie tylko modele językowe, ale i unikalne kompetencje w polskim ekosystemie AI” – powiedział Szymon Łukasik, dyrektor Ośrodka Badań nad Bezpieczeństwem Sztucznej Inteligencji NASK.

Cztery klasy modeli AI

Nowa rodzina PLLuM obejmuje cztery główne klasy wagowe:

  • 4B – najmniejszy model, zoptymalizowany pod szybkość i wdrożenia na ograniczonych zasobach; najlepiej działa po dostrojeniu do konkretnego zadania.
  • 8B i 12B – modele średniej klasy, przeznaczone do zastosowań produkcyjnych, m.in. jako silniki systemów RAG; oferują kompromis między wydajnością a jakością.
  • 70B – największy model, zaprojektowany do złożonych zadań analitycznych i generatywnych, bez konieczności dodatkowego dostrajania.

Modele 4B, 8B i 12B dostępne są w trzech wariantach: bazowym (do eksperymentów i fine-tuningu), instrukcyjnym oraz dialogowym z dodatkowymi zabezpieczeniami. Z kolei wersja 70B występuje w wariancie instrukcyjnym i dialogowym.

Dane treningowe i architektura uczenia

Modele powstały w ramach projektu HIVE AI realizowanego w 2025 roku pod kierownictwem NASK, przy współpracy m.in. z ACK Cyfronet AGH, Instytutem Podstaw Informatyki PAN, OPI PIB, Instytutem Slawistyki PAN, Uniwersytetem Łódzkim oraz Politechniką Wrocławską.

Zestaw treningowy obejmował około 7 mln polskojęzycznych tekstów, pochodzących z: umów licencyjnych,
domeny publicznej (m.in. Monitor Polski, Dziennik Ustaw, stenogramy parlamentarne) oraz zasobów Creative Commons. Proces pretrenowania realizowano w podejściu curriculum learning, czyli stopniowego zwiększania trudności danych. Do dostrajania wykorzystano ok. 17,5 tys. nowych instrukcji, w tym ponad 6 tys. dialogów wieloturowych. Łącznie, wraz z wcześniejszymi zasobami PLLuM, użyto ok. 80 tys. ręcznie opracowanych instrukcji.

Wszystkie modele udostępniono na otwartych licencjach wraz z pełną dokumentacją zgodną z AI Act – obejmującą opis danych, metod treningu oraz procedur oceny jakości.

Tagi

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *