Přejít k hlavnímu obsahu

ChatGPT už vidí a naučil se mluvit

Pavel Trousil 26.09.2023
info ikonka
Zdroj: Vygenerováno v Midjourney

Umělá inteligence ChatGPT se velmi rychle vyvíjí a získává nové funkce. Firma OpenAI, která za tímto jazykovým modelem stojí, ohlásila, že teď už vidí, takže umí pracovat s obrázky a také mluví. Můžete si s ní tedy popovídat. Zatím ale pouze u placené a firemní verze aplikace.

Kapitoly článku

V aplikaci ChatGPT jsou k dispozici nové hlasové a obrazové funkce. Práce s tímto jazykovým modelem, který je často označován jako umělá inteligence, tak bude mnohem intuitivnější. Umožňuje to totiž vést běžnou hlasovou konverzaci nebo ChatGPT ukázat a vyfotit, o čem chcete mluvit. Doposud bylo možné jen zadávat textové dotazy, nebo dotazy hlasem. Teď už umí i hlasově odpovídat.

 

Jak to funguje

Jako příklad použití OpenAi na svém blogu uvádí, že si například na výletě vyfotografujete nějakou pamětihodnost a pak s ChatGPT můžete živě konverzovat o tom, co je na ní zajímavého. Když jste doma, vyfotografujte svou ledničku a spíž a zjistíte, co si tak můžete dát k večeři. Můžete se zeptat i na recept.  Nebo vyfotografujete kolo a zeptáte se, jak dát níž jeho sedlo.

Po večeři pomůžete dětem s matematickým problémem tak, že ho vyfotíte, zakroužkujete zadání problému a necháte ho, aby se s vámi podělil o nápovědu. A až půjdou děti spát, může jim ChatGPT přečíst pohádku.

Zdroj: X/Twitter

Nová hlasová funkce je založena na novém modelu převodu textu na řeč, který dokáže generovat zvuk podobný lidskému pouze z textu. K přepisu mluvených slov do textu používá OpetnAI také Whisper, její open-source systém rozpoznávání řeči.

Co se týká obrázků, chcete-li je začít používat, stačí klepnout na tlačítko fotografie, pořídit obrázek fotoaparátem, nebo ho vybrat z galerie. Pokud používáte systém iOS nebo Android, klepnete nejprve na tlačítko plus. Můžete také diskutovat o více obrázcích nebo použít náš nástroj pro kreslení, který asistenta povede.

Porozumění obrázkům zajišťují multimodální technologie GPT-3.5 a GPT-4. Tyto modely aplikují své schopnosti jazykového uvažování na širokou škálu obrázků, jako jsou fotografie, snímky obrazovky a dokumenty obsahující text i obrázky.

Podle OpenAi jsou přijata technická opatření, která výrazně omezují schopnost ChatGPT analyzovat a přímo se vyjadřovat o lidech, protože ChatGPT není vždy přesný a tyto systémy by měly respektovat soukromí osob.

Hlasové a obrazové funkce v aplikaci ChatGPT se v průběhu příštích dvou týdnů dostanou mezi uživatele aplikací Plus a Enterprise. Hlas bude dostupný v systémech iOS a Android a práce s obrázky bude k dispozici na všech platformách.

Zdroj: OpenAI


Máte k článku připomínku? Napište nám

Sdílet článek

Mohlo by se vám líbit








Všechny nejnovější zprávy

doporučujeme