Překlad mluvené řeči, speech-to-speech translation (S2ST), je typ strojového překladu, který převádí mluvenou řeč z jednoho jazyka do druhého.
Google už dříve představil Translatotron 1 a Translatotron 2, vůbec první modely, které dokázaly přímo překládat mluvenou řeč mezi dvěma jazyky. Byly však trénovány v prostředí s paralelními jazykovými daty.
Nedostatek paralelních jazykových dat je v této oblasti velkým problémem, většina veřejných datových sad je totiž částečně nebo plně syntetizována z textu. To ztěžuje učení překladu a rekonstrukci atributů řeči, které nejsou většinou v textu zastoupeny, a tudíž se nevyskytují v syntetizovaných tréninkových datech.
Translatotron 3 překonává jazykové bariéry
Nejnovější model Translatotron 3 má novou architekturu a díky nezávislému učení může pracovat bez těchto paralelních jazykových dat. Využívá jen jednojazyčná data. To znamená, že při trénování vývojáři používají jednojazyčné datové sady řeč-text (tj. tato data jsou tvořena dvojicemi řeč-text; nejedná se o překlady). Metoda údajně poskytuje kvalitní překlady i pro méně rozšířené jazyky.
Nová metoda dovolí překlady netextových atributů řeči, jako jsou pauzy, tempo mluvení a identita mluvčího. Tvůrci z Googlu tvrdí, že jejich metoda je správným směrem pro zachování paralingvistických charakteristik (jako tón, emoce) zdrojové řeči napříč překladem.
Široké možnosti využití
Možnosti použití Translatotronu 3 přesahují rámec čistého překladu. Umožňuje komunikaci v reálném čase mezi mluvčími různých jazyků, podporuje osoby s jazykovým postižením a nabízí lepší zkušenosti při výuce jazyků.
Očekává se, že v budoucnu se bude tato technologie integrovat do různých zařízení a platforem, včetně chytrých telefonů a překladatelských aplikací. Translatotron 3 má potenciál způsobit revoluci ve způsobu, jakým komunikujeme se světem.
Zdroj: Google Research