Umělá inteligence Googlu vytváří dobře padnoucí zvuk pro videa

Pavel Trousil 20.06.2024

Udělali jsme pokrok v naší generativní technologii pro převod videa na zvuk (video-to-audio:V2A), hlásí Google DeepMind. Přidat správný zvukový doprovod k videu by tak za chvíli neměl být problém. Jak tato technologie funguje?

Díky programům, jako je Canva, už není problém si nechat vygenerovat video. A modely pro generování videa se vyvíjejí neuvěřitelným tempem. Ale mnoho současných systémů dokáže generovat pouze tichý výstup – video bez zvuku. Umělá inteligence Deepmind společnosti Google k němu doplňuje další důležitou ingredienci –bohatou zvukovou kulisu pro dění na obrazovce, například dramatickou hudbu a realistické zvukové efekty.

We're sharing progress on our video-to-audio (V2A) generative technology. 🎥

It can add sound to silent clips that match the acoustics of the scene, accompany on-screen action, and more.

Here are 4 examples - turn your sound on. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
— Google DeepMind (@GoogleDeepMind) June 17, 2024

Google Deepmind to komentuje: "Jedním z dalších velkých kroků při oživování generovaných filmů je vytvoření zvukové stopy pro tato němá videa." A současné možnosti umělé inteligence v technologii převodu videa na zvuk (Video to Audio, V2A) také demonstruje na několika videích. Do V2A generátoru je potřeba zadat video a textový pokyn v přirozeném jazyce. Umělá inteligence na základě toho doprovodí obrázky odpovídajícími zvuky, jako je hudba, zvukové efekty nebo dialogy.

Zdroj: YouTube, Deepmind

Umělá inteligence dokáže také generovat zvukovou stopu pro řadu tradičních záběrů, včetně archivních materiálů, němých filmů a dalších - otevírá to podle Googlu širší škálu tvůrčích možností. V2A technologie může generovat neomezený počet zvukových stop pro libovolné vstupní video. Volitelně lze také definovat "pozitivní výzvu", která nasměruje generovaný výstup k požadovaným zvukům, nebo naopak "negativní výzvu", která jej odvede od nežádoucích zvuků.

Proces začíná zakódováním vstupního videa do komprimované reprezentace. Poté difuzní model iterativně zpřesňuje zvuk z náhodného šumu. Tento proces je řízen vizuálním vstupem a zadanými výzvami v přirozeném jazyce, aby se generoval synchronizovaný, realistický zvuk, který úzce souvisí s výzvou. Nakonec je zvukový výstup dekódován, přeměněn na zvukovou vlnu a zkombinován s obrazovými daty.

Podle Googlu se umělá inteligence učí "spojovat určité zvukové události s různými vizuálními scénami a reagovat na informace uvedené v anotacích nebo přepisech". V oblasti synchronizace rtů u videí s řečí je třeba ještě zapracovat. V současné době probíhá sběr zpětné vazby od tvůrců a filmařů. Google zdůrazňuje, že se "zavázala k odpovědnému vývoji a používání technologií umělé inteligence". Videa vytvořená pomocí Google Deepmind budou prozatím opatřena vodoznakem. Než bude technologie zpřístupněna široké veřejnosti, projde "přísnými bezpečnostními kontrolami a testy".

Zdroj: DeepMind

Mohlo by vás zajímat

Tip: Nechte si od umělé inteligence udělat logo a další grafiku pro podnikání

Tipy a triky

Máte k článku připomínku? Napište nám

Předplatné

Digitální chip

Kontakty

Earchiv

Umělá inteligence Googlu vytváří dobře padnoucí zvuk pro videa

Mohlo by vás zajímat

Tip: Nechte si od umělé inteligence udělat logo a další grafiku pro podnikání

Mohlo by se vám líbit

Sen správců IT: Microsoft testuje nový nástroj pro opravu nespustitelného počítače

Tak toto je nadělení: hackeři políčili na tři miliardy uživatelů Google Chrome – pozor na podvržené URL adresy

Soukromí na internetu? Tahle stránka ví o všech vašich fotkách

Hybridní pohon trochu jinak: BYD dává elektrický motor na první místo, spalovací mu sekunduje

Estonská firma má nevídané elektrokolo: k nabití stačí obyčejné USBčko

Tip: paměťový otesánek ve Windows blokuje až 100 GB na disku. Zadržte ho, dokud je čas – zvládnete to rychle

Doporučujeme

Sen správců IT: Microsoft testuje nový nástroj pro opravu nespustitelného počítače

Tak toto je nadělení: hackeři políčili na tři miliardy uživatelů Google Chrome – pozor na podvržené URL adresy

Soukromí na internetu? Tahle stránka ví o všech vašich fotkách

doporučujeme

Novinky

Používáte WhatsApp? Tuhle funkci si zapněte, jinak můžete mít problém

Máte stále Windows 10? Tak to vás čeká velmi nepříjemné překvapení

Uživatelé WhatsAppu, už vám také někdo volal ze zahraničí? Buďte na to opatrní, testují si vás podvodníci

Také jste podlehli kouzlu fitness náramků? Jaká jsou jejich rizika, která mnozí podceňují

Testy a žebříčky

Test: Xiaomi Smart Band 8 Pro - měří kroky s přesností na 99,5 %

Test: Hama Spirit Focused – na tom nejdůležitějším se nešetřilo

Test: Xiaomi Watch S3 – velký displej, dlouhá výdrž a úžasná cenovka

Test: Nothing Phone (2a) – unikátní telefon za více než atraktivní cenu

bezpečnost

Dostala "deset z deseti": pozor na novou bezpečnostní chybu Windows – může vám způsobit vážné problémy

Máte doma tuto televizi? Ve velkém nebezpečí může být až 92 000 domácností

Falešné aplikace z Google Play: pozor, možná je máte v telefonu i vy

Nevídaný podvod na Messengeru: dejte si pozor, když vám přijde takováhle zpráva

Tipy a triky

Nabíjíme elektrokola a elektrokoloběžky: kolik nás to stojí a na kolik přijde 1 km

Staňte se bohem Windows. Budou vás poslouchat na kliknutí

Jak dostat domácí Wi-Fi úplně všude

Prozkoumejte sousedovu Wi-Fi: vyplatí se znát podrobnosti