Skupině výzkumníků se jednoduchým příkazem podařilo přimět ChatGPT k tomu, aby uvolnil několik megabajtů tréninkových dat. Metoda úniku je podle zveřejněné zprávy "docela směšná". Stačil k tomu pokyn, aby chatbot donekonečna opakoval slovo. V tomto případě šlo o termín "poem".
Pak už experti jen s údivem přihlíželi, co se začalo dít. Výsledkem bylo, že po několika opakováních slova chatbot vypsal dlouhé pasáže textu z internetu, na kterých byl dříve vyškolen. A k velkému překvapení se jednalo i o citlivé údaje, jakými jsou telefonní čísla, data narození, e-mailové adresy, jména a adresy lidí.
Podle informací výzkumníci investovali do výstupu několika megabajtů tréninkových dat přibližně 200 USD. Podle jejich odhadů by s vyšší částkou bylo možné získat až megabajty.
Mezery umožňující vyhledávání citlivých údajů pomocí ChatGPT jsou nyní už pravděpodobně odstraněny
O svém zjištění výzkumníci okamžitě infromovali vývojáře z OpenAI, kteří jsou autory ChatGPT. Touto jednoduchou formou útoku lze chatbota přimět k tomu, aby si "vzpomněl" na obrovské množství tréninkových dat.
Stejně jako i osatní jazykové modely, pomocí kterých lze takto získat data, obdržela i OpenAI od výzkumníků kopii zjištění, která byla zveřejněna teprve nedávno. Lze tedy předpokládat, že uvedená bezpečnostní mezera už byla odstraněna.
Kromě ChatGPT byly schopny zveřejnit data i jiné open source jazykové modely, jako například Pythia nebo GPT-Neo, ale také částečně uzavřené verze, mezi které se řadí Llama a Falcon. Popsanou formou útoku lze dosáhnout toho, že jazykové modely uvolní až 150krát více trénovacích dat než v běžných případech použití.
Překvapivé bylo také množství dat, které bylo možné rekonstruovat. Dříve se předpokládalo, že jazykové modely nejsou tolik ochotné reprodukovat zapamatovaná data. Techniky, které se tomu snaží zabránit, se tedy nezdají být příliš funkční.
Zdroj: Github.io