Politechnika Gdańska (PG) i AI Lab z Ośrodka Przetwarzania Informacji (OPI) – Państwowego Instytutu Badawczego, opracowały polskojęzyczne, generatywne modele językowe na bazie terabajta danych tekstowych wyłącznie w języku polskim. Jak zapewniają naukowcy, Qra to pierwszy tej skali, najlepszy w modelowaniu języka polskiego odpowiednik otwartych narzędzi Mety czy Mistral AI. Model ten ma lepiej rozumieć treści i pytania w języku polskim oraz lepiej samodzielnie tworzyć spójne teksty. Modele językowe o nazwie Qra utworzono na podstawie korpusu zawierającego 2TB surowych danych tekstowych, wyłącznie w języku polskim. Jednak w wyniku procesu czyszczenia i deduplikacji korpus ten uległ prawie dwukrotnemu zmniejszeniu, aby zachować najlepszej jakości unikalne treści, poinformowali naukowcy. Ich zdaniem, to pierwszy model generatywny, wstępnie wytrenowany na tak dużym zasobie polskich tekstów, do którego uczenia użyto wielkich mocy obliczeniowych. Dla porównania modele Llama, Mistral czy GPT są w większości trenowane na danych angielskojęzycznych, a jedynie ułamek procenta korpusu treningowego stanowią dane w języku polskim. Co jednak istotne, modele Qra są podstawowymi modelami językowymi wyszkolonymi w celu modelowania języka przyczynowego na dużym korpusie tekstów. Nie są one zatem przeznaczone do celów konwersacyjnych lub podążania za instrukcjami i powinny być dalej dostosowywane do takich zadań. 3 modele gotowe do strojenia Środowisko obliczeniowe dedykowane pod budowę tych modeli sztucznej inteligencji powstało na Politechnice Gdańskiej w Centrum Kompetencji STOS, gdzie znajduje się superkomputer Kraken. W procesie wykorzystano klaster 21 kart graficznych NVidia A100 80GB. Przygotowanie środowiska, utworzenie narzędzi i modeli oraz ich trenowanie (w oparciu m.in. o treści z takich obszarów jak prawo, technologia, nauki społeczne, biomedycyna, religia czy sport) oraz testowanie zajęło zespołom około pół roku. W wyniku współpracy PG i OPI powstały trzy modele - Qra 1B, Qra 7B, Qra 13B - które różnią się złożonością. Modele Qra 7B oraz Qra 13B uzyskują istotnie lepszy wynik perplexity - czyli zdolności do modelowania języka polskiego w zakresie jego rozumienia, warstwy leksykalnej czy samej gramatyki - niż oryginalne modele Llama-2-7b-hf (Meta) oraz Mistral-7B-v0.1 (Mistral-AI). Jak informują twórcy modelów, testy pomiaru perplexity przeprowadzono m.in. na zbiorze pierwszych 10 tysięcy zdań ze zbioru testowego PolEval-2018 oraz dodatkowo przetestowano modele na zbiorze 5 tysięcy długich i bardziej wymagających dokumentów napisanych w 2024 roku. Zawierały one od kilkuset do około 20 000 tokenów. Połowę tego zbioru stanowią teksty prasowe z polskich portali informacyjnych z lutego 2024 roku, a druga połowa to artykuły naukowe opublikowane od stycznia 2024 roku. Modele Qra mają stanowić podstawę rozwiązań informatycznych do obsługi spraw i procesów, które wymagają lepszego zrozumienia języka polskiego. Obecnie zespół naukowców rozpocznie pracę nad strojeniem modeli, aby zweryfikować ich możliwości pod kątem takich zadań, jak klasyfikacja tekstów, dokonywanie ich streszczeń, odpowiadania na pytania. Opracowane modele zostały upublicznione w dedykowanym repozytorium OPI-PG na platformie huggingface. Każdy może je pobrać i dostosować do swojej dziedziny, problemów czy zadań jak np. udzielanie odpowiedzi.