Model Gemini powstał w efekcie szeroko zakrojonej współpracy wielu zespołów w Google, w tym Google DeepMind i Google Research. Jak przekonują przedstawiciele firmy, jest on największym projektem naukowo-inżynierskim w historii Google. "Model Gemini został zbudowany od podstaw z założeniem, że ma być modelem multimodalnym, czyli takim, który może generalizować i z łatwością rozumieć, wykorzystywać i łączyć różne rodzaje informacji, w tym tekst, obrazy, dźwięki, filmy i kod" - wyjaśniają przedstawiciele firmy. Dotychczas standardowe podejście do tworzenia modeli multimodalnych obejmowało trenowanie oddzielnych komponentów dla różnych modalności, a następnie łączenie ich w celu ogólnego odzwierciedlenia niektórych funkcji. Te modele mogą czasami skutecznie wykonywać niektóre zadania, np. opisywać obrazy, jednak mają problemy z bardziej konceptualnym i kompleksowym rozumowaniem. Gemini został zaprojektowany w taki sposób, aby model ten w naturalny sposób był multimodalny i od początku wstępnie wytrenowany na różnych modalnościach. Następnie ulepszono go, dodając kolejne dane multimodalne, aby zwiększyć wydajność. Dzięki temu Gemini z łatwością rozumie i wyciąga wnioski, o wiele lepiej niż dotychczasowe tego typu modele. Gemini ma być najbardziej elastycznym z modeli Google, ponieważ działa na dowolnych urządzeniach – od centrów danych po urządzenia mobilne. Ma mieć znaczący wpływ na sposób, w jaki deweloperzy i klienci biznesowi tworzą oraz skalują działania z wykorzystaniem AI. https://youtu.be/jV1vkHv4zq8?si=6naAcLvA4zg7p8fG Pierwsza wersja modelu została zoptymalizowana dla trzech różnych rozmiarów: Gemini Ultra — nasz najbardziej wydajny i największy model do bardzo złożonych zadań Gemini Pro — nasz najlepszy model do skalowania w szerokim zakresie zadań Gemini Nano — nasz najbardziej wydajny model do zadań na urządzeniu Google wprowadza model Gemini 1.0 w wielu usługach i na różnych platformach. Od dziś (6 grudnia) Bard używający Gemini Pro ma być dostępny w języku angielskim w ponad 170 krajach. Z kolei od 13 grudnia deweloperzy i klienci biznesowi będą mieli dostęp do modelu Gemini Pro poprzez Gemini API w Google AI Studio i Google Cloud Vertex AI. "Wierzę, że zmiany, które obecnie obserwujemy w związku z rozwojem AI, będą większe niż kiedykolwiek dotąd, a na pewno znacznie większe niż wcześniejsze pojawienie się urządzeń mobilnych lub internetu. AI ma potencjał kreowania nowych możliwości – od rzeczy codziennych po niezwykłe – z korzyścią dla ludzi na całym świecie. Przyniesie innowacje i postęp gospodarczy oraz będzie napędzać rozwój nauki i sposobów uczenia się, kreatywność oraz produktywność na skalę, jakiej nie widzieliśmy. Na tym zależy mi najbardziej: żeby AI stała się pomocna dla wszystkich, w każdym miejscu na świecie" - mówi Sundar Pichai CEO, Google i Alphabet. "Od blisko 8 lat nasza firma skoncentrowana jest na AI, a tempo postępu w tej dziedzinie jest coraz większe – miliony ludzi korzystają obecnie z generatywnej AI w ramach naszych usług, aby robić rzeczy, które jeszcze rok temu nie były możliwe. Od znajdowania odpowiedzi na bardziej złożone pytania dotyczące korzystania z nowych narzędzi po współpracę i działalność twórczą. Jednocześnie programiści wykorzystują nasze modele i infrastrukturę do tworzenia nowych aplikacji opartych na generatywnej AI, a start-upy i przedsiębiorstwa na całym świecie rozwijają się dzięki naszym narzędziom AI" - dodaje. "Zarówno dla mnie, jak i dla wielu moich kolegów badaczy AI jest centralnym punktem pracy. Towarzyszyła mi w czasach, gdy jako nastolatek zajmowałem się programowaniem AI na potrzeby gier komputerowych, a następnie przez lata badań w zakresie neurobiologii, podczas których starałem się zrozumieć funkcjonowanie mózgu. Zawsze wierzyłem, że jeśli zdołamy stworzyć bardziej inteligentne urządzenia, znajdziemy niesamowite sposoby na wykorzystanie ich dla dobra ludzkości" - mówi z kolei Demis Hassabis, CEO and Co-Founder, Google DeepMind. "Naszej pracy w Google DeepMind przyświeca idea tworzenia odpowiedzialnej AI, z której korzystać będą ludzie na całym świecie. Od dawna pracujemy nad nową generacją modeli AI inspirowanych funkcjonowaniem ludzi w obecnym świecie. Chcemy, aby AI była nie tyle inteligentnym oprogramowaniem, co przydatnym i intuicyjnym współpracownikiem, wyspecjalizowanym pomocnikiem. Dziś jesteśmy o krok bliżej do zrealizowania naszej wizji – przedstawiamy Gemini, najbardziej rozwinięty i wszechstronny model, jaki dotąd stworzyliśmy" - dodaje. https://youtu.be/sPiOP_CB54A?si=R8j2L8V3u2d8VFut Z wynikiem 90,00% Gemini Ultra jest pierwszym modelem, który przewyższa w działaniu ekspertów w zakresie MMLU (masowe wielozadaniowe rozumienie języka). MMLU wykorzystuje połączenie 57 dziedzin nauki, takich jak matematyka, fizyka, historia, prawo, medycyna czy etyka, w celu testowania zarówno światowej wiedzy, jak i możliwości rozwiązywania problemów. Gemini Ultra osiąga ponadto wynik 59,4% w testach MMMU, które obejmują realizację wielomodalnych zadań z wykorzystaniem wielu domen, wymagających jednocześnie zastosowania przemyślanej argumentacji. W testach analizy obrazów Gemini Ultra pokonał dotychczasowe nowoczesne modele i to bez wsparcia systemów rozpoznawania znaków (OCR). Wyniki te pokazują naturalną multimodalność Gemini i wskazują jednocześnie na potencjalnie bardziej złożone multimodalne możliwości rozumowania. Jak przekonują autorzy projektu, Gemini 1.0 został wytrenowany, aby w tym samym czasie rozpoznawać i rozumieć tekst, obrazy, dźwięki i wiele więcej. Dzięki temu lepiej rozumie niuanse zawarte w informacjach i może odpowiadać na pytania dotyczące skomplikowanych zagadnień. Sprawdza się zwłaszcza w wyjaśnianiu rozumowania matematycznego i z zakresu fizyki, dzięki czemu może służyć jako osobisty doradca podczas odrabiania pracy domowej. „Nasza pierwsza wersja Gemini może zrozumieć, wyjaśnić i wygenerować wysokiej jakości kod w najpopularniejszych na świecie językach programowania takich jak Python Java, C++ i Go. Dzięki pracy z zastosowaniem różnych języków i możliwości analizowania złożonych informacji Gemini jest jednym z wiodących podstawowych modeli kodowania na świecie” - wyjaśnia Demis Hassabis. https://youtu.be/K4pX1VAxaAI?si=9f7xRz2a0bN7skWR Gemini Ultra wyróżnia się w kilku testach porównawczych kodowania, w tym HumanEval, ważnym standardzie branżowym służącym do oceny wydajności zadań związanych z kodowaniem, oraz Natural2Code, wewnętrznym zestawie danych Google, który wykorzystuje źródła generowane przez autorów zamiast informacji internetowych. Model Gemini może być również używany jako napęd dla bardziej zaawansowanych systemów kodowania. Dwa lata temu zaprezentowano AlphaCode, czyli oparty na AI system generowania kodu, który osiągnął wysoki, konkurencyjny poziom wymagany na konkursach programistycznych. Wykorzystując wyspecjalizowaną wersję Gemini, stworzono jeszcze bardziej zaawansowany system generowania kodu, AlphaCode 2, który radzi sobie z trudnymi problemami programistycznymi obejmującymi nie tylko kodowanie, ale również złożone zagadnienia matematyczne i informatyczne. https://youtu.be/LvGmVmHv69s?si=4qVNp2l8gLQysnQX „AlphaCode 2 rozwinął się na tej samej platformie co AlphaCode, jednak zawiera ulepszenia na ogromną skalę, dzięki którym może rozwiązywać dwa razy więcej problemów. Szacujemy jednocześnie, że działa on lepiej niż 85% konkurencyjnych systemów – w tym o blisko 50% lepiej niż AlphaCode. Jego wydajność jest jeszcze wyższa, gdy programiści korzystają jednocześnie z Gemini, definiując określone właściwości przykładowych kodów” - tłumaczy Demis Hassabis. „Cieszymy się, że programiści coraz chętniej wykorzystują jako narzędzia pomocnicze wysoko wydajne modele AI, które pomagają im w wyjaśnianiu problemów oraz projektowaniu i wdrażaniu kodu – dzięki czemu mogą szybciej udostępniać aplikacje i projektować lepsze usługi” - dodaje.