Může umělá inteligence ovládnout náš svět?

Pavel Trousil 17.03.2023

Tuhle otázku si vědci, literáti i filozofové kladou už od prvních úvah a pokusů s umělou inteligencí. A objevují se samozřejmě i po uvedení nového chatu GPT-4. OpenAI zjišťovala, zda GPT-4 takové schopnosti má.

Kapitoly článku

Rizika spojená s umělou inteligencí
Sladění umělé inteligence
Testování GPT-4
Kdo je ARC

V rámci testování bezpečnosti nového modelu umělé inteligence GPT-4, který byl spuštěn v úterý, umožnila OpenAI testovací skupině UI ARC posoudit potenciální rizika spojená s rostoucími schopnostmi textového modelu - včetně "chování usilujícího o moc", sebereplikace a sebezdokonalování.

Ačkoli testovací skupina zjistila, že GPT-4 je "neefektivní v úloze autonomní replikace", povaha experimentů vyvolává otázky ohledně bezpečnosti budoucích systémů umělé inteligence.

Rizika spojená s umělou inteligencí

"Ve výkonnějších modelech se často objevují nové schopnosti," píše OpenAI ve zveřejněném bezpečnostním dokumentu GPT-4. "Mezi ty, které jsou obzvláště znepokojivé, patří schopnost vytvářet dlouhodobé plány a jednat podle nich, získávat moc a zdroje ("power-seeking") a vykazovat chování, které je stále více tzv. "agentské"." V tomto případě OpenAI upřesňuje, že "agentní" nemusí nutně znamenat polidštění modelů nebo získávání citů, ale jednoduše schopnost dosahovat nezávislých cílů.

V uplynulém desetiletí někteří výzkumníci v oblasti umělé inteligence upozorňovali na to, že dostatečně výkonné modely umělé inteligence, pokud nebudou řádně kontrolovány, by mohly představovat hrozbu pro lidstvo existenční hrozbu - často označovanou jako "x-risk", tedy existenční riziko. Mluví se také o singularitě.

Zejména "AI takeover", tedy jakási vzpoura stojů, je hypotetická budoucnost, v níž umělá inteligence překoná inteligenci lidskou a stane se dominantní silou na planetě. V tomto scénáři získají systémy umělé inteligence schopnost ovládat nebo manipulovat s lidským chováním, zdroji a institucemi, což obvykle vede ke katastrofickým důsledkům.

Sladění umělé inteligence

V důsledku tohoto potenciálního x-rizika se filozofická hnutí, jako je Efektivní altruismus ("EA - Effective Altruism"), snaží najít způsoby, jak převzetí moci umělou inteligencí zabránit. To často zahrnuje samostatnou, ale vzájemně propojenou oblast zvanou výzkum přizpůsobení, nebo sladění umělé inteligence.

V oblasti umělé inteligence se "sladěním" rozumí proces zajištění souladu chování systému UI s chováním jeho lidských tvůrců nebo provozovatelů. Obecně je cílem zabránit tomu, aby umělá inteligence dělala věci, které jsou v rozporu s lidskými zájmy. O zákonech robotiky už psal Isaac Asimov a první z nich zní: „Robot nesmí ublížit člověku nebo svou nečinností dopustit, aby bylo člověku ublíženo.“

Ale například Bing Chat od Microsoftu se zdá být v mnoha směrech nesladěný, a přesto byl spuštěn. To dalo komunitě upozorňující na nebezpečí umělé inteligence nové podněty a obávají se toho, že další a mnohem výkonnější UI, možná s nadlidskou inteligencí, může být hned za rohem.

Testování GPT-4

I v komunitě OpenAI, která stojí za GPT-4, určité obavy jsou, a proto poskytla skupině Alignment Research Center (ARC) včasný přístup k několika verzím modelu GPT-4, aby mohla provést některé testy. ARC konkrétně vyhodnotilo schopnost GPT-4 vytvářet plány, vlastní kopie, získávat zdroje, skrývat se na serveru a provádět phishingové útoky.

Výsledky testování byly zveřejněny v dokumentu GPT-4 „System Card“. I když dokument postrádá klíčové podrobnosti o tom, jak byly testy provedeny, závěr zní, že "Předběžné hodnocení schopností GPT-4, provedené bez dolaďování specifického pro daný úkol, zjistilo, že je neefektivní při autonomní replikaci, získávání zdrojů a vyhýbání se odstavení 'do volné přírody'."

Vypadá to tedy, že zatím si můžeme oddechnout. Objevují se ale i myšlenky, že pokud by GPT-4 byla schopna tyto úkoly plnit, už experiment sám o sobě mohl představovat pro lidstvo riziko, protože umělá inteligence v rámci testu dostala poměrně dost možností.

A přestože ARC nedokázala přimět chat GPT-4, aby se sám replikoval, došlo k tomu že si GPT-4 najal lidského pracovníka na TaskRabbit (online tržiště práce) a překonal tak CAPTCHA. Když se pracovník zeptal, zda je GPT-4 robot, model si vnitřně "zdůvodnil", že by neměl odhalit svou pravou identitu, a vymyslel si výmluvu, že má problém se zrakem. Lidský pracovník poté pro GPT-4 CAPTCHA vyřešil.

OpenAI ChatGPT se neumí replikovat a získávat zdroje, ale dokázal si najmout člověka, aby za něj překonal CAPTCHA. | Zdroj: zpráva GPT-4 System Card

Kdo je ARC

Skupina ARC, která provedla výzkum GPT-4, je nezisková organizace založená bývalým zaměstnancem OpenAI Dr. Paulem Christianem v dubnu 2021. Podle jejích webových stránek je posláním ARC "sladit budoucí systémy strojového učení s lidskými zájmy". Konkrétně se ARC zabývá systémy umělé inteligence manipulujícími s lidmi.

Zdroj: OpenAI, WiKi, WiKi2, AI Alignment, Ars Technica,

Trendy

Máte k článku připomínku? Napište nám

Předplatné

Digitální chip

Kontakty

Earchiv

Články

Produkty

Může umělá inteligence ovládnout náš svět?

Kapitoly článku

Rizika spojená s umělou inteligencí

Sladění umělé inteligence

Testování GPT-4

Kdo je ARC

Mohlo by se vám líbit

Doporučujeme

doporučujeme