Přejít k hlavnímu obsahu
Novinky

Umělá inteligence po česku. Služba Seznam.cz Vyhledávání odbaví denně na 10 milionů dotazů

redakce 24.02.2020

Vyhledávání na internetu dnes už používáme automaticky a ani nemyslíme na to, že dřív to bylo jinak. Všechny informace máme k dispozici doslova na jedno kliknutí díky vyhledávacímu okénku prohlížeče v počítači, tabletu nebo mobilu.

Česká internetová jednička své Seznam.cz Vyhledávání neustále zlepšuje a hodně k tomu využívá i strojové učení. Právě to se společně s týmem zhruba 150 expertů z různých oblastí, od vývojářů po jazykové specialisty, stará o to, aby uživatelé dostali co nejlepší odpověď na svých přibližně 10 milionů dotazů denně. „O řazení výsledků se stará algoritmus, který nicméně zohledňuje ručně nastavená omezení. Grafická podoba výsledků, obsah některých tematicky specializovaných karet nebo statické hlavičky a patičky jsou ale více dílem člověka,“ vysvětluje Vladimír Kadlec, který v Seznamu vede tým výzkumníků strojového učení.

Jak často na Seznamu sám vyhledáváte a jaký výsledek vás v poslední době nejvíce zaskočil?

Vyhledávám na Seznamu každý den a pokládám desítky dotazů. V rámci výzkumných projektů ručně hledám hodně dotazů, které v minulosti lidé kladli. Naši uživatelé jsou neuvěřitelně kreativní a zvídaví a vždy mě něčím překvapí. Lidé například pátrají po tom, „proč jsou kolínka zahnutá“ nebo „jak dlouho vydrží červi v ledničce“.

Jak roste objem informací, které v rámci služby zpracováváte?

Počet URL adres byl v roce 2012 kolem 7,5 miliardy. Aktuálně, v roce 2019, pracujeme se zhruba 37 miliardami URL. Nároky uživatelů přitom rostou, chtějí rychlé a přesné výsledky a bez strojového učení bychom je neměli šanci dodat.

Jaký podíl práce tedy při vyhledávání dělají lidé a jaký stroje?

To je filozofická otázka. Celé Vyhledávání odbavují počítače. Ale dělá více práce křemíkový procesor, nebo člověk, který ho naprogramoval? Každopádně denně Vyhledávání odbavuje zhruba 10 miliónů dotazů. Těžko si představit, že by to bylo možné dělat ručně. O řazení výsledků se stará algoritmus, který nicméně zohledňuje ručně nastavená omezení. Na druhou stranu prezentace, grafická podoba výsledků, obsah některých tematicky specializovaných karet nebo statické hlavičky a patičky jsou více dílem člověka.

img-1323

Vladimír Kadlec, v Seznamu vede tým výzkumníků strojového učení

V čem jsou lidé při této práci zatím nenahraditelní a proč?

Každý počítačový program je jen tak dobrý, jak dobrý je jeho programátor. Se zapojením strojového učení je kvalita výstupu závislá na kvalitě učících dat, ale celé to stále řídí člověk. Ve Vyhledávání máme několik samoučících se mechanismů, které chování v čase automaticky mění. Výstupy však kontrolujeme stále ručně. Stroje (zřejmě zatím) nejsou schopny poznat selhání, která člověk vidí na první pohled. Jsou to pořád lidé, kteří určují, jak se Vyhledávání chová.

Zasahujete tedy ručně do URL výsledků?

Máme tým administrátorů, kteří z výsledků ručně odstraňují uživateli nahlášené spam stránky nebo třeba stránky vedoucí na stažení škodlivého softwaru či mallwaru.

V čem stroje nejvíce pomáhají?

V prvé řadě ve zpracování dat. Při miliónech dotazů denně a miliardách URL v databázi je ruční zpracování opravdu nemyslitelné. Strojové učení je klíčová oblast. Dříve se na spoustě míst používala člověkem nastavená pravidla, která ale s rostoucím množstvím dat přestávala fungovat. Pro strojové učení či umělou inteligenci je to přesně naopak, čím více dat, tím lepší výsledky.

Na jakých projektech konkrétně strojové učení využíváte?

Je toho řada. Za posledních osm let, co v Seznamu pracuji, za sebou máme více než 200 různých výzkumných projektů. Vylepšujeme třeba našeptávač snažící se odhadnout další slova v dotazu. Nebo klasifikujeme dotazy směřující na „zábavu pro dospělé“ (podobnou klasifikaci máme i pro obrázky v indexu). Minulý rok jsme výrazně zapracovali na vylepšení obrázkového hledání společně s analýzou obsahu obrázku pomocí hlubokých neuronových sítí.

Jak fungují trendující témata, která jsou nově na domovské stránce Seznamu?

Trendující témata v sekci "Právě se hledá" jsou uživatelské dotazy, které jsou v daný okamžik populární. Populárnost dotazů detekujeme automaticky, výsledek podléhá částečné ruční kontrole. Do ní jsou zapojení produktoví manažeři a administrátoři, aby se mezi trendující témata nedostaly například poplašné zprávy nebo fake news.

Podle čeho se trendující témata vybírají?

Automaticky podle popularity témat, která se vyskytují v dotazech do Vyhledávání. Dalším zdrojem dat pro témata jsou titulky novinových článků. Výsledek je kombinace obojího.

Kolik lidí se o Seznam.cz Vyhledávání aktuálně stará?

V celém Vyhledávání aktuálně pracuje celkem 150 lidí, nejsou zde ale započítaná další oddělení dodávající některá data.

Mění se velikost tohoto týmu v letech?

Sice do Vyhledávání stále více zapojujeme stroje a strojové učení, ale současně se zvětšuje i tým lidí, který má tuto oblast na starosti. Rosteme průběžně každý rok. Když jsem před osmi lety nastupoval, byla nás proti současnému stavu třetina.

Jak je služba Vyhledávání pro Seznam.cz důležitá z pohledu příjmů? 

Reklama vkládaná do výsledku Vyhledávání tvoří významnou složku obratu celého Seznamu, bude to něco kolem jedné třetiny. Tento podíl se navíc dlouhodobě zvyšuje.


Máte k článku připomínku? Napište nám

Sdílet článek

Mohlo by se vám líbit








Všechny nejnovější zprávy

doporučujeme