Přejít k hlavnímu obsahu
Novinky

Další nástroj s podporou AI: AudioCraft vytvoří z textu hudbu nebo zvukové efekty

Pavel Trousil 04.08.2023

Sada tří open source modelů umělé inteligence společnosti Meta (Facebook) dokáže vytvářet zvukové efekty a hudbu jen na základě textového popisu. Pomocí těchto nástrojů tak mohou tvůrci obsahu zadávat jednoduché textové popisy a vytvářet tak komplexní zvukové krajiny, skládat melodie nebo dokonce simulovat celé virtuální orchestry.

Kapitoly článku

Nová sada nástrojů od Mety se jmenuje AudioCraft se skládá ze tří základních komponent: AudioGen, nástroj pro generování různých zvukových efektů a zvukových krajin, MusicGen, který dokáže vytvářet hudební kompozice a melodie z popisů, a EnCodec, kodek pro kompresi zvuku založený na neuronových sítích.

Program EnCodec byl nedávno vylepšen a umožňuje "generovat hudbu ve vyšší kvalitě s menším množstvím artefaktů". AudioGen také dokáže vytvářet zvukové efekty, jako je štěkot psa, troubení klaksonu auta nebo kroky na dřevěné podlaze. A MusicGen dokáže od základu vybičovat skladby různých žánrů na základě popisů jako "Popová taneční skladba s chytlavými melodiemi, tropickými bicími a optimistickými rytmy, ideální na pláž".

Zájem o generování zvuků zatím zaostává

Na webových stránkách Mety je několik zvukových ukázek k posouzení (například na výzvu: "Sirens and a humming engine approach and pass"). Meta poznamenává, že zatímco generativním modelům umělé inteligence zaměřeným na text a statické obrázky se dostalo velké pozornosti (a lidé s nimi mohou relativně snadno online experimentovat), vývoj generativních zvukových nástrojů zaostává. Vývojáři doufají, že vydání AudioCraftu pod licencí MIT přispěje širší komunitě tím, že poskytne přístupné nástroje pro zvukové a hudební experimentování.

"Modely jsou k dispozici pro výzkumné účely a pro lepší pochopení této technologie. Jsme nadšeni, že k nim můžeme výzkumným pracovníkům a odborníkům z praxe poskytnout přístup, aby mohli poprvé trénovat své vlastní modely s vlastními soubory dat a přispět tak k rozvoji současného stavu techniky," uvedla Meta.

Meta dále uvádí, že MusicGen byl vycvičen na "20 000 hodinách hudby, kterou Meta vlastní nebo na kterou má licenci speciálně pro tento účel". To je rozdíl oproti grafickým projektům Stable Diffusion, DALL-E a Midjourney, které byly často vytrénovány „neeticky“, tedy na cizích materiálech.

Meta není první společností, která experimentuje s generátory zvuku a hudby poháněnými umělou inteligencí. Mezi nejvýznamnější pokusy z poslední doby patří Jukebox od OpenAI z roku 2020, Google a jeho MusicLM představený letos v lednu, a Riffusion nezávislého výzkumného týmu Stable Diffusion. Žádný z těchto projektů generativního zvuku nepřitáhl tolik pozornosti jako modely syntézy obrazu.

Zdroj: Meta, Arstechnica


Máte k článku připomínku? Napište nám

Sdílet článek

Mohlo by se vám líbit








Všechny nejnovější zprávy

doporučujeme