Přejít k hlavnímu obsahu

Hurá do světa! Google vyvinul nový nástroj pro překlad řeči v reálném čase

Josef Mika 07.12.2023
info ikonka
Zdroj: Freepik/pch.vector

Tým Google AI představil pokročilý model umělé inteligence Translatotron 3, který umožňuje překlady mluvené řeči v reálném čase bez rozsáhlých paralelních jazykových dat. Tato technologie lze s výhodou využít zejména pro jazyky, u kterých není k dispozici dostatečné množství zvukových záznamů.

Kapitoly článku

Překlad mluvené řeči, speech-to-speech translation (S2ST), je typ strojového překladu, který převádí mluvenou řeč z jednoho jazyka do druhého. 

Google už dříve představil Translatotron 1 a Translatotron 2, vůbec první modely, které dokázaly přímo překládat mluvenou řeč mezi dvěma jazyky. Byly však trénovány v prostředí s paralelními jazykovými daty. 

Nedostatek paralelních jazykových dat je v této oblasti velkým problémem, většina veřejných datových sad je totiž částečně nebo plně syntetizována z textu. To ztěžuje učení překladu a rekonstrukci atributů řeči, které nejsou většinou v textu zastoupeny, a tudíž se nevyskytují v syntetizovaných tréninkových datech.

Mohlo by vás zajímat

Translatotron 3 překonává jazykové bariéry 

Nejnovější model Translatotron 3 má novou architekturu a díky nezávislému učení může pracovat bez těchto paralelních jazykových dat. Využívá jen jednojazyčná data. To znamená, že při trénování vývojáři používají jednojazyčné datové sady řeč-text (tj. tato data jsou tvořena dvojicemi řeč-text; nejedná se o překlady). Metoda údajně poskytuje kvalitní překlady i pro méně rozšířené jazyky.

Nová metoda dovolí překlady netextových atributů řeči, jako jsou pauzy, tempo mluvení a identita mluvčího. Tvůrci z Googlu tvrdí, že jejich metoda je správným směrem pro zachování paralingvistických charakteristik (jako tón, emoce) zdrojové řeči napříč překladem. 

Široké možnosti využití

Učení jazyků
info ikonka
Zdroj: Unsplash/Eliott Reyna
Pomůže nám AI zbavit se nutnosti učit se cizí jazyky?

Možnosti použití Translatotronu 3 přesahují rámec čistého překladu. Umožňuje komunikaci v reálném čase mezi mluvčími různých jazyků, podporuje osoby s jazykovým postižením a nabízí lepší zkušenosti při výuce jazyků.

Očekává se, že v budoucnu se bude tato technologie integrovat do různých zařízení a platforem, včetně chytrých telefonů a překladatelských aplikací. Translatotron 3 má potenciál způsobit revoluci ve způsobu, jakým komunikujeme se světem.

Zdroj: Google Research


Máte k článku připomínku? Napište nám

Sdílet článek

Mohlo by se vám líbit








Všechny nejnovější zprávy

doporučujeme