Sztuczna inteligencja Polecane tematy

Bielik – pierwszy, polski, duży model językowy jest już dostępny

Adam Jadczak 8 kwietnia 2024

1 21 308 4 minut(y) czytania

„Bielik-7B-v0.1 jest efektem mariażu projektu open-science / open-source i świata nauki z olbrzymią mocą obliczeniową, bez której ta publikacja nie byłaby możliwa” – mówią twórcy projektu SpeakLeash.

Bielik 7B jest modelem generatywnym opartym na architekturze swojego starszego brata, czyli modelu Mistral-7B-v0.1, a do jego stworzenia użyto ponad 70 mld tokenów. Dokumenty źródłowe – przed tokenizacją – zostały dokładnie przeanalizowane przez dedykowany model kontroli jakości, który pozwolił na wybór najlepszych, dostępnych tekstów.

Więcej informacji dotyczących treningu czy zastosowanych narzędzi w pracach nad Bielik 7B znajduje się na karcie modelu Bielik w serwisie Hugging Face.

„Nie poprzestaliśmy jednak na modelu bazowym, dlatego prezentujemy Wam również Bielik-7B-Instruct-v0.1. Jest to wersja dostrojona zbiorem 2,5 mln instrukcji w języku polskim i angielskim. Plasuje się on bardzo wysoko na leaderboardzie oraz odpowiada poprawną polszczyzną” – mówią osoby pracujące nad projektem SpeakLeash. „To jednak nie wszystko, bo w zanadrzu mamy także wersje poddane kwantyzacji bądź konwersji do popularnych formatów: GGUF, GPTQ, AWQ, EXL2, HQQ oraz MLX” – dodają.

Z BIelikiem 7B można już porozmawiać na stronie Hugging Face.

Bielik – pierwszy, polski, duży model językowy jest już dostępny

„Tego, co najważniejsze nie widać od razu. Nie widać ogromu pracy, setek kilowatogodzin, milionów dokumentów, miliardów tokenów i niezliczonych eksperymentów oraz niekończącego się zaangażowania członków naszego zespołu. A skoro o zespole mowa: gdyby nie ciekawość Szymon Mazurek z Akademickiego Centrum Komputerowego Cyfronet AGH, nie udałoby się spotkać pracujących z nim Łukasza Flisa oraz Marka Magrysia ” – wspominają przedstawiciele SpeakLeash.

„Gdyby nie Krzysztof Ociepa z Azurro oraz rozwiązania open source Allamo, treningi nie przebiegałyby tak sprawnie. Bez Krzysztof Wróbel (Enelpol) nie wiedzielibyśmy, w którą stronę podążać z kolejnymi wersjami i na co zwrócić uwagę, zaś bez Adrian Gwoździej (Bank Pekao) nie mielibyśmy dedykowanego modelu do oceny jakości. A przede wszystkim – gdyby nie ambicja Sebastian Kondracki, projekt w ogóle by nie powstał” – dodają.

„Moja podróż zaczęła się, gdy podjąłem próbę spisania polskiego ekosystemu open-source w dziedzinie AI, której rezultaty początkowo wydawały się skromne. Pomysł na SpeakLeash podrzucił mi Michał Dulemba (Egnyte), a zainspirowały projekty takie, jak Bloom i BigScience. Zanim świat poznał technologie takie jak Llama, Falcon czy Mistral, z zapartym tchem śledziłem rozwój EleutheraAI, GPT-NEOX i Bloom, marząc o stworzeniu polskiego projektu open-science w obszarze GenAI” – wspomina Sebastian Kondracki, Chief Innovation Officer w Deviniti i współtwórca projektu SpeakLeash.

„Dzięki pasji, determinacji i nieocenionemu wsparciu społeczności, udało się stworzyć SpeakLeash i nie tylko zgromadzić 1,5 TB polskich danych, ale także wytrenować polski model językowy. Pomimo sceptycyzmu i głosów, twierdzących, że potrzebujemy min. 20 mln zł na realizację projektu, osiągnęliśmy nasz cel, pracując nocami i weekendami” – dodaje.

Przełomowym momentem było uzyskanie przez SpeakLeash wsparcia od Akademickiego Centrum Komputerowego Cyfronet AGH, który udostępnił zasoby obliczeniowe, umożliwiając szybkie wytrenowanie modelu. Dzięki tej współpracy udało się osiągnąć opracować model Bielik 7B w kilka miesięcy, a nie lat.

„Bielik wykluł się dzięki ogrzewaniu go znaczną ilością nowoczesnych GPU naszych superkomputerów i licznym troskliwym rodzicom ze SpeakLeash. Zachęcam wszystkich do zaprzyjaźnienia się z najnowszym polskim modelem językowym!” – komentuje Marek Magryś, zastępca dyrektora ds. Komputerów Dużej Mocy w Akademickim Centrum Komputerowym Cyfronet AGH.

Obecnie, obok wytrenowanych modeli, uruchomiono wstępne demo. Trwają też intensywne prace nad rozbudowaną aplikacją.

„Nasz projekt podkreśla potrzebę tworzenia w Polsce i Europie setek modeli AI: dużych LLM, małych SLM, multimodalnych i specjalistycznych, z różnorodnymi zastosowaniami. Ważna jest tu nie rywalizacja, ale ciągła nauka, wymiana wiedzy, współpraca i budowanie ekosystemu. Dzięki temu będziemy mogli stworzyć narzędzia, które ułatwią życie, pracę, naukę i rozrywkę” – podsumowuje.

Do członków projektu Spichlerz należą również m. in.: Izabela Babis (Deviniti), Nina Babis (ClubsMania), Maria Filipkowska (Deviniti), Grzegorz Urbanowicz (Bank Pekao), Jacek Chwiła (BASF Catalysts Polska), Paweł Kiszczak (Deviniti), Szymon Baczyński (doktorant na Politechnice Warszawskiej), Igor Ciuciura (Sii Poland), Paweł Cyrta, Kamil Nonckiewicz (Rockwell Automation), Jan Maria Kowalski (Bank Pekao), Mateusz Kuras (Deviniti), Karol Jezierski (Bank Pekao), Waldemar Boszko, Remigiusz Kinas (Grupa Neuca) i Piotr Rybak (Polska Akademia Nauk).

„Drodzy ewangeliści AI, jeśli uważacie, że nasza praca przynosi wartość i chcecie, abyśmy posuwali się naprzód, aspirując do osiągnięcia poziomu AI, jaki reprezentuje Francja, potrzebujemy Waszego wsparcia. Model Bielik 7B – możliwy do wykorzystywania zarówno w infrastrukturze lokalnej, jak i w chmurze – potrzebuje nowych danych, wolontariuszy, cyfrowych wynalazców oraz promotorów polskiego AI. Każda forma wsparcia przybliża nas do budowania silnego, kreatywnego i innowacyjnego ekosystemu AI w Polsce” – apelują członkowie SpeakLeash.

Przykładowe odpowiedzi Bielika

W kontekście filozofii, co oznacza termin 'tabula rasa’?

Bielik: W filozofii termin 'tabula rasa’ pochodzi z łaciny i oznacza dosłownie 'czysta tablica’. Jest to koncepcja, która utrzymuje, że ludzki umysł jest pierwotnie pozbawiony wiedzy i doświadczeń, a zamiast tego jest czystą, niezapisaną kartą, która zostaje stopniowo zapełniana przez doświadczenia i postrzeganie świata zewnętrznego.

Ta teoria była fundamentalna dla Johna Locke’a, angielskiego filozofa z końca XVII wieku, ale jest również silnie obecna w myśli wielu innych filozofów oświecenia. W przeciwieństwie do empirystów, którzy uważali, że umysł jest już w pewnym stopniu ukształtowany przez biologiczne dziedzictwo i wcześniejsze doświadczenia, czyli empiryzm, 'tabula rasa’ podkreśla rolę aktywnego uczenia się i doświadczeń jako kluczowego czynnika w kształtowaniu naszych przekonań i wiedzy.

Koncepcja ta jest nadal dyskutowana i kwestionowana, ale miała znaczący wpływ na rozwój filozofii umysłu i pedagogiki.

Czy zwykłym aparatem można robić zdjęcie nieba?

Bielik: Tak, można robić zdjęcia nieba zwykłym aparatem fotograficznym, ale aby uzyskać dobrej jakości fotografie, warto zastosować się do kilku wskazówek:

Użyj statywu: Jeśli wykonujesz zdjęcia nocne, statyw jest niezbędny, aby zminimalizować drgania aparatu. To pomoże utrzymać aparat w stabilnej pozycji i zredukować poruszenie zdjęć.
Ustawienia ISO, przysłony i czasu naświetlania: W zależności od warunków, w których robisz zdjęcie, możesz potrzebować dostosować ustawienia ISO, przysłony i czasu naświetlania. W większości przypadków niższe wartości ISO i dłuższe czasy naświetlania będą potrzebne, aby zminimalizować szum i uzyskać jaśniejsze zdjęcia.
Użyj filtrów: Filtry mogą pomóc zredukować wpływ światła niebieskiego i poprawić kolory na zdjęciach. Filtry polaryzacyjne mogą zmniejszyć odblaski i poprawić kontrast, podczas gdy filtry neutralnie szare mogą pomóc w kontrolowaniu ekspozycji.
Unikaj ulicznego światła: Jeśli to możliwe, wybierz miejsce do robienia zdjęć z dala od intensywnego światła ulicznego. Jasne światło może zakłócić obserwację gwiazd i wpłynąć na jakość zdjęć.
Edycja zdjęć: Po zrobieniu zdjęć, możesz je edytować w oprogramowaniu graficznym, aby poprawić kolory i kontrast. Unikaj nadmiernej obróbki, która może zniekształcić naturalny wygląd gwiazd.

Pamiętaj, że obserwacja gwiazd jest najlepsza, gdy niebo jest ciemne i pozbawione źródeł światła. Jeśli chcesz robić zdjęcia gwiazd, najlepiej planuj je na noc, kiedy Księżyc jest w nowiu lub kilka dni po nowiu, ponieważ jego blask nie zakłóca obserwacji.

Tagi