Přejít k hlavnímu obsahu
Novinky

Počítač rozumí ztraceným řečem

redakce 14.07.2019

Pomocí umělé inteligence dnes počítače dokážou překládat texty, aniž by rozuměli jejich významu. Díky dalším trikům to funguje dokonce i u jazyků, které už dlouho nejsou používány.

V roce 1886 objevil britský archeolog Arthur Evans starý kámen s vyrytým textem v pozoruhodném písmu neznámé řeči. Kámen pocházel z ostrovu Kréta. Evans se tam hned vydal, aby pátral po dalších dokladech. Brzy našel mnoho kamenů a tabule s podobným písmem, které se datovaly kolem roku 1400 před Kristem.

Jednalo se přitom o nejstarší formy tohoto písma, které kdy byly nalezeny. Podle Evanse se lineární forma písma vyvinula z obrazů, rané formy tamějšího umění.

Později Evans a další objevili, že kameny a tabule byly popsány dvěma různými písmy. Starší, nazvaný jako Lineární písmo A, pocházelo z času mezi 1800 a 1400 před Kristem, kdy na ostrově mínojské civilizace panovala doba bronzová. Druhé písmo, Lineární písmo B, je o něco mladší, objevilo se teprve v roce 1400 před Kristem, kdy byl ostrov dobyt Řeky.

Mimořádný výkon

Evans a další výzkumníci se po mnoho let snažili stará písma rozluštit, ale ztracené jazyky dlouho odolávaly jejich snahám. Do roku 1953 zůstal problém nevyřešený, potom amatérský lingvista Michael Ventris prolomil kód Lineárního písma B.

Jeho řešení bylo založeno na dvou důležitých momentech. Ventris nejprve předpokládal, že se u mnoha opakovaných slov ve slovníku Lineárního písma B jednalo o popis míst na ostrově Kréta, což se ukázalo jako správná domněnka.

Za druhé pracoval s hypotézou, že staré písmo reprodukuje ranou formu starořečtiny. Mohl tak rychle rozluštit zbývající písmo. Ukázal tak, že starořečtina se v písemné podobě objevila mnohem dříve, než vědci dosud předpokládali. Práce Ventrise představovala mimořádný výkon. Avšak starší Lineární písmo A stále představuje velký nedořešený problém lingvistiky.

Revoluce v jazykovědě

Současné pokroky ve strojovém překladu zde mohou pomoci. V průběhu několika málo let se na poli lingvistiky odehrála revoluce díky dostupnosti obrovských anotovaných databank a technik, s jejichž pomocí se stroje mohly učit. Strojové překlady se již staly rutinou. Tyto metody sice nejsou dokonalé, přesto přinesly zcela nové možnosti, jak o řeči přemýšlet.

Využili toho mimo jiné výzkumníci Jiaming Luo, Regina Barzilay z MIT a Yuan Calo z laboratoře pro umělou inteligenci společnosti Google v Kalifornii. Výzkumníci společně vyvinuli systém strojového učení, který má být schopen rozklíčovat zapomenuté jazyky. Využili ho k tomu, aby lépe porozuměli lineárnímu písmu B. Technika, kterou při tom použili, se ale velmi odlišuje od běžných strojových překladů.

Zásadní myšlenkou u strojového překladu je, že slova jsou nezávislá na libovolné řeči a určitým způsobem spolu navzájem souvisí. Tyto souvislosti jsou tak nejprve zaznamenány pro jednotlivou řeč. K tomu je potřeba obrovská databanka. Stroj prohledá tento text, aby zjistil, jak často se různá slova vyskytují vedle všech ostatních. Tento mustr četnosti je jednoznačnou signaturou, které definuje slovo ve vícerozměrném parametrovém prostoru. Je možné si ho představit jako vektor v tomto prostoru. 

Luo a jeho tým vyzkoušeli dvě zapomenuté řeči, lineární písmo B a ugaritštinu. Lingvisté vědí, že lineární písmo B představuje ranou verzi starořečtiny, a v roce 1929 byla ugaritština identifikována jako raná forma hebrejštiny. Díky těmto informacím mohli výzkumníci obě řeči přeložit s pozoruhodnou přesností. Lineární písmo B se podařilo přeložit do řeckých ekvivalentů s úspěšností kolem 67 procent. Pokud je známo, jejich experiment je prvním pokusem, jak pomocí strojového učení dekódovat lineární písmo B. Práce udělala na vědeckou komunitu velký dojem, dostává strojový překlad řeči na zcela novou úroveň – a zároveň vyvolává nové otázky k překladu dalších zapomenutých jazyků, například lineárního písma A, které dosud nebylo rozluštěno.

[email protected]


Máte k článku připomínku? Napište nám

Sdílet článek

Mohlo by se vám líbit








Všechny nejnovější zprávy

doporučujeme