V aplikaci ChatGPT jsou k dispozici nové hlasové a obrazové funkce. Práce s tímto jazykovým modelem, který je často označován jako umělá inteligence, tak bude mnohem intuitivnější. Umožňuje to totiž vést běžnou hlasovou konverzaci nebo ChatGPT ukázat a vyfotit, o čem chcete mluvit. Doposud bylo možné jen zadávat textové dotazy, nebo dotazy hlasem. Teď už umí i hlasově odpovídat.
Jak to funguje
Jako příklad použití OpenAi na svém blogu uvádí, že si například na výletě vyfotografujete nějakou pamětihodnost a pak s ChatGPT můžete živě konverzovat o tom, co je na ní zajímavého. Když jste doma, vyfotografujte svou ledničku a spíž a zjistíte, co si tak můžete dát k večeři. Můžete se zeptat i na recept. Nebo vyfotografujete kolo a zeptáte se, jak dát níž jeho sedlo.
Po večeři pomůžete dětem s matematickým problémem tak, že ho vyfotíte, zakroužkujete zadání problému a necháte ho, aby se s vámi podělil o nápovědu. A až půjdou děti spát, může jim ChatGPT přečíst pohádku.
Zdroj: X/TwitterChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023
Nová hlasová funkce je založena na novém modelu převodu textu na řeč, který dokáže generovat zvuk podobný lidskému pouze z textu. K přepisu mluvených slov do textu používá OpetnAI také Whisper, její open-source systém rozpoznávání řeči.
Co se týká obrázků, chcete-li je začít používat, stačí klepnout na tlačítko fotografie, pořídit obrázek fotoaparátem, nebo ho vybrat z galerie. Pokud používáte systém iOS nebo Android, klepnete nejprve na tlačítko plus. Můžete také diskutovat o více obrázcích nebo použít náš nástroj pro kreslení, který asistenta povede.
Porozumění obrázkům zajišťují multimodální technologie GPT-3.5 a GPT-4. Tyto modely aplikují své schopnosti jazykového uvažování na širokou škálu obrázků, jako jsou fotografie, snímky obrazovky a dokumenty obsahující text i obrázky.
Podle OpenAi jsou přijata technická opatření, která výrazně omezují schopnost ChatGPT analyzovat a přímo se vyjadřovat o lidech, protože ChatGPT není vždy přesný a tyto systémy by měly respektovat soukromí osob.
Hlasové a obrazové funkce v aplikaci ChatGPT se v průběhu příštích dvou týdnů dostanou mezi uživatele aplikací Plus a Enterprise. Hlas bude dostupný v systémech iOS a Android a práce s obrázky bude k dispozici na všech platformách.
Zdroj: OpenAI