Přejít k hlavnímu obsahu

Umělá inteligence Googlu vytváří dobře padnoucí zvuk pro videa

Pavel Trousil 20.06.2024
info ikonka
Zdroj: Vygenerováno v Midjourney

Udělali jsme pokrok v naší generativní technologii pro převod videa na zvuk (video-to-audio:V2A), hlásí Google DeepMind. Přidat správný zvukový doprovod k videu by tak za chvíli neměl být problém. Jak tato technologie funguje?

Díky programům, jako je Canva, už není problém si nechat vygenerovat video. A modely pro generování videa se vyvíjejí neuvěřitelným tempem. Ale mnoho současných systémů dokáže generovat pouze tichý výstup – video bez zvuku. Umělá inteligence Deepmind společnosti Google k němu doplňuje další důležitou ingredienci –bohatou zvukovou kulisu pro dění na obrazovce, například dramatickou hudbu a realistické zvukové efekty.

Zdroj: X, DeepMind

Google Deepmind to komentuje: "Jedním z dalších velkých kroků při oživování generovaných filmů je vytvoření zvukové stopy pro tato němá videa." A současné možnosti umělé inteligence v technologii převodu videa na zvuk (Video to Audio, V2A) také demonstruje na několika videích. Do V2A generátoru je potřeba zadat video a textový pokyn v přirozeném jazyce. Umělá inteligence na základě toho doprovodí obrázky odpovídajícími zvuky, jako je hudba, zvukové efekty nebo dialogy. 

Umělá inteligence dokáže také generovat zvukovou stopu pro řadu tradičních záběrů, včetně archivních materiálů, němých filmů a dalších - otevírá to podle Googlu širší škálu tvůrčích možností. V2A technologie může generovat neomezený počet zvukových stop pro libovolné vstupní video. Volitelně lze také definovat "pozitivní výzvu", která nasměruje generovaný výstup k požadovaným zvukům, nebo naopak "negativní výzvu", která jej odvede od nežádoucích zvuků.

AI
info ikonka
Zdroj: Google DeepMind
Proces začíná zakódováním vstupního videa do komprimované reprezentace. Poté difuzní model iterativně zpřesňuje zvuk z náhodného šumu. Tento proces je řízen vizuálním vstupem a zadanými výzvami v přirozeném jazyce, aby se generoval synchronizovaný, realistický zvuk, který úzce souvisí s výzvou. Nakonec je zvukový výstup dekódován, přeměněn na zvukovou vlnu a zkombinován s obrazovými daty.

Podle Googlu se umělá inteligence učí "spojovat určité zvukové události s různými vizuálními scénami a reagovat na informace uvedené v anotacích nebo přepisech". V oblasti synchronizace rtů u videí s řečí je třeba ještě zapracovat. V současné době probíhá sběr zpětné vazby od tvůrců a filmařů. Google zdůrazňuje, že se "zavázala k odpovědnému vývoji a používání technologií umělé inteligence". Videa vytvořená pomocí Google Deepmind budou prozatím opatřena vodoznakem. Než bude technologie zpřístupněna široké veřejnosti, projde "přísnými bezpečnostními kontrolami a testy".

Zdroj: DeepMind

Mohlo by vás zajímat


Máte k článku připomínku? Napište nám

Sdílet článek

Mohlo by se vám líbit








Všechny nejnovější zprávy

doporučujeme