Sztuczna inteligencja Rynek Polecane tematy

Nvidia stworzyła przełomowy model AI do generowania muzyki, głosów i dźwięków

Mikołaj Marszycki 25 listopada 2024

0 1 524 1 minuta czytania

Technologia Fugatto (Foundational Generative Audio Transformer Opus 1) generuje lub przekształca dowolną mieszankę muzyki, głosów i dźwięków opisanych za pomocą podpowiedzi. Używa do tego dowolnej kombinacji plików tekstowych oraz audio.

Przykładowo, Fugatto może utworzyć fragment muzyczny na podstawie podpowiedzi tekstowej, usunąć lub dodać instrumenty z istniejącej piosenki, zmienić akcent lub emocje w głosie. A nawet umożliwić produkowanie dźwięków, których nigdy wcześniej nie słyszano.

„Chcieliśmy stworzyć model, który rozumie i generuje dźwięk tak jak ludzie” – powiedział Rafael Valle, kierownik ds. badań nad dźwiękiem w firmie NVIDIA, a także jedna z ponad tuzina osób stojących za Fugatto.

Obsługując liczne zadania związane z generowaniem i transformacją dźwięku, Fugatto jest pierwszym podstawowym generatywnym modelem AI, który prezentuje właściwości emergentne. Chodzi o możliwości wynikające z interakcji różnych wyszkolonych zdolności oraz zdolność do łączenia instrukcji o dowolnej formie.

To, co odróżnia model Nvidii od innych technologii AI, to zdolność do przyjmowania i modyfikowania istniejącego dźwięku. Na przykład poprzez wzięcie wersu granego na pianinie i przekształcenie go w wers śpiewany ludzkim głosem. Podczas wnioskowania model wykorzystuje technikę zwaną ComposableART do łączenia instrukcji, które były widoczne tylko osobno podczas treningu. Przykładowo, kombinacja podpowiedzi może poprosić o tekst wypowiadany ze smutkiem i francuskim akcentem.

Jak można by zastosować Fugatto?

Producenci muzyczni mogliby użyć Fugatto do szybkiego prototypowania lub edytowania pomysłu na piosenkę, wypróbowując różne style, głosy i instrumenty. Mogliby również dodawać efekty i poprawiać ogólną jakość dźwięku istniejącego utworu.

„Historia muzyki to także historia technologii. Gitara elektryczna dała światu rock and rolla. Kiedy pojawił się sampler, narodził się hip-hop” – powiedział Ido Zmishlany, producent i autor tekstów piosenek, a także współzałożyciel One Take Audio, członka programu NVIDIA Inception dla nowatorskich startupów. „Dzięki AI piszemy kolejny rozdział muzyki. Mamy nowy instrument, nowe narzędzie do tworzenia muzyki i to jest super ekscytujące”.

Z kolei programiści gier wideo mogliby użyć tego modelu, aby modyfikować wstępnie nagrane zasoby w tytule i dopasować je do zmieniającej się akcji podczas gry. Mogliby też tworzyć nowe zasoby bezpośrednio z instrukcji tekstowych i opcjonalnych danych wejściowych audio.

Jak powstał model Fuggato?

Fugatto to podstawowy model transformatora generatywnego, który opiera się na wcześniejszych pracach zespołu Nvidii w takich obszarach, jak modelowanie mowy, kodowanie dźwięku i rozumienie dźwięku. Pełna wersja modelu wykorzystuje 2,5 miliarda parametrów i została wytrenowana na banku systemów NVIDIA DGX. Składa się on z 32 procesorów graficznych NVIDIA H100 Tensor Core.

Fugatto stworzyła grupa osób z całego świata – w tym z Indii, Brazylii, Chin, Jordanii i Korei Południowej. Ich współpraca wzmocniła możliwości modelu w zakresie wielu akcentów i języków.

Jak poinformowano, Nvidia wciąż zastanawia się nad tym, czy i jak udostępnić Fugatto publicznie.

„Każda technologia generatywna zawsze wiąże się z pewnym ryzykiem, ponieważ ludzie mogą jej używać do generowania rzeczy, których wolelibyśmy, aby nie robili” – powiedział Bryan Catanzaro, wiceprezes ds. badań nad uczeniem głębokim w firmie Nvidia. „Musimy być ostrożni, dlatego nie mamy natychmiastowych planów udostępnienia modelu” – podsumował.