Společnost Meta představila nástroj SeamlessM4T, multimodální model umělé inteligence pro překlady řeči a textu. Je to neuronová síť, která dokáže zpracovávat text i zvuk, může podle Mety provádět překlady z textu na řeč, z řeči na text, z řeči na řeč a z textu na text " až ve 100 jazycích. Jejím cílem je zefektivnit komunikaci lidí, kteří mluví různými jazyky.
Meta přitom SeamlessM4T uvolňuje pod výzkumnou licencí (CC BY-NC 4.0) i ostatním vývojářům. Uvolňuje také tzv. SeamlessAlign, kterou Meta označuje za "dosud největší otevřenou datovou sadu multimodálního překladu, čítající celkem 270 000 hodin vytěžených „zarovnání“ řeči a textu".
Co všechno umí
Mezi funkcemi modelu SeamlessM4T, které společnost Meta uvádí na svém blogu, je uvedeno, že model dokáže provádět rozpoznávání řeči (zadáte mu zvukový záznam řeči a on jej převede na text), překlad mluveného slova na text (mluvený zvuk převede na jiný jazyk v textu), překlad řeči na řeč (zadáte mu zvukový záznam řeči a on vyprodukuje přeložený zvukový záznam řeči), překlad textu na text (podobně jako funguje Překladač Google) a překlad textu na řeč (zadáte mu text a on jej přeloží a namluví v jiném jazyce). Každá z funkcí překladu textu podporuje téměř 100 jazyků a funkce výstupu řeči podporuje přibližně 36 výstupních jazyků.
V oznámení SeamlessM4T se Meta odkazuje na babylonskou rybku, fiktivní rybu z klasického sci-fi seriálu Douglase Adamse, která po vložení do ucha dokáže okamžitě přeložit jakýkoli jazyk:
"Vytvoření univerzálního jazykového překladače, podobného fiktivní babylonské rybce ze Stopařova průvodce po Galaxii, je náročné, protože stávající systémy převodu řeči a textu na řeč pokrývají jen malý zlomek světových jazyků. Věříme však, že práce, kterou dnes oznamujeme, je významným krokem vpřed na této cestě."
Jako obvykle se společnost Meta vyjadřuje poněkud nejasně o tom, kde získala svá tréninková data. Textová data pocházela ze "stejné sady dat nasazené v NLLB" (sady vět vytažených z Wikipedie, zpravodajských zdrojů, skriptovaných projevů a dalších zdrojů a přeložených profesionálními lidskými překladateli). A řečová data SeamlessM4T pocházela ze "4 milionů hodin nezpracovaného zvuku pocházejícího z veřejně dostupného úložiště procházených webových dat", z nichž 1 milion hodin byl podle výzkumné zprávy v angličtině. Společnost Meta neupřesnila, o jaké úložiště se jedná, ani původ použitých zvukových klipů.
Meta není první společností, která nabízí nástroje pro strojové učení překladu. Překladač Googlu používá techniky strojového učení již od roku 2006 a velké jazykové modely (například GPT-4) jsou dobře známé svou schopností překládat mezi jazyky. V poslední době se však tato technologie rozhořela na poli zpracování zvuku. V září vydala společnost OpenAI vlastní open source model pro převod řeči na text s názvem Whisper, který dokáže rozpoznat řeč ve zvuku a s vysokou přesností ji přeložit na text.
Zdroj: Meta, Blog Meta, Ars Technica