Přejít k hlavnímu obsahu

Kde se stala chyba? Nová verze AI Stable Diffusion generuje hororové scény

Pavel Trousil 16.06.2024

Už jsme si zvykli, že se umělá inteligence zdokonaluje mílovými kroky. Ale někdy také udělá krok dozadu. Uživatelé nové verze Stable Diffusion 3 jsou zděšeni z toho, co jim na textové výzvy předkládá za obrázky. Někdy jde až o hororové scény vyvolávající otázky, zda nejde ze strany vývojářů o nepodařený vtip. No posuďte sami.

Kapitoly článku

Společnost Stability AI zveřejnila novou verzi Stable Diffusion 3 (SD3) Medium, což je model, který na základě textové výzvy vygeneruje pomocí umělé inteligence obrázek. Její příchod však nebyl na internetu přijat zrovna s nadšením a některé výsledky jsou zesměšňovány. Generuje totiž obrázky lidí způsobem, který se zdá být krokem zpět oproti jiným nejmodernějším AI modelům, jako je Midjourney nebo DALL-E 3. Uživatelům totiž předkládá anatomicky bizardní postavy.

Například ve vlákně na Redditu s názvem "Má být toto vydání vtip? [SD3-2B]," se podrobně popisují nepovedené výsledky SD3 při vykreslování lidí, zejména lidských končetin, tedy rukou a nohou. Další vlákno s názvem "Proč je SD3 tak špatný při generování dívek ležících na trávě?" ukazuje podobné problémy, ale u celých lidských těl.

Stable Diffusion 3 Medium
info ikonka
Zdroj: Vygenerováno ve Stable Diffusion 3 Medium
Stačilo ve výzvě zaměnit ženu za psa a hned měl program mnohem lepší výsledky.

SD3 se bojí nahoty

Ruce byly pro generátory obrázků s podporou umělé inteligence tradičně problémem, ale v poslední době se zdá, že několik hlavních modelů pro syntézu obrázků tento problém už překonalo. V tomto smyslu se tedy zdá být SD3 velkým krokem zpět. 
Fanoušci generovaných obrázků pomocí AI viní z neúspěchů anatomie SD3 to, že Stability trvá na odfiltrování obsahu pro dospělé (často označovaného jako "NSFW" -  not safe for work) z tréninkových dat SD3, na které model učí generovat obrázky. "Věřte tomu nebo ne, silná cenzura modelu také zbavuje model lidské anatomie, takže... to se stalo," napsal jeden uživatel Redditu ve vlákně. Je tedy možné, že SD3 neví, jak lidské tělo vlastně vypadá.
 

Mohlo by vás zajímat

Dalším problémem, který se mohl vyskytnout během předtrénování modelu, je, že někdy je filtr NSFW, který výzkumníci používají k odstranění obrázků „pro dospělé“, až příliš vybíravý, takže omylem se pak nepracuje s obrázky, které by nemusely být nevhodné, a připraví model o možnost naučit se, jak vypadají lidé v určitých situacích. SD3 ale funguje dobře, pokud na obrázku nejsou osoby.

Stable Diffusion 3 Medium
info ikonka
Zdroj: Vygenerováno ve Stable Diffusion 3 Medium
Něco si vygenerovat pomocí umělé inteligence si můžete vyzkoušet i sami a nemusíte nic instalovat.
Stable Diffusion 3 Medium
info ikonka
Zdroj: Vygenerováno ve Stable Diffusion 3 Medium
Stojící osoby umělé inteligenci takový problém nedělají. Ale s prsty na rukou má stále problémy.

Jeden z příspěvků na Redditu zní: „Vtipné je, že když z těchto zmatených výsledků vyčleníte "ženu" a vložíte "psa", většinou získáte docela slušné výsledky. Opravdu to vypadá, jako by zcenzurovali spoustu výcvikového materiálu s lidmi, a model je prostě neumí správně vykreslit.“

Stable Diffusion 3 Medium
info ikonka
Zdroj: Vygenerováno ve Stable Diffusion 3 Medium
Výsledky našich pokusů. Muž a žena u Vltavy.
Stable Diffusion 3 Medium
info ikonka
Zdroj: Vygenerováno ve Stable Diffusion 3 Medium

Vyzkoušejte sami

Stable Diffusion 3 ve verzi Medium jsme si vyzkoušeli a musíme dát kritikům nové verze za pravdu. Na textové výzvy, jako například „Dvě dívky ležící na louce v české krajině. Pohled shora“, nebo „Muž se ženou ležící v plavkách na břehu Vltavy.“, apod., předkládá program opravdu bizarní výsledky. Demoverze je volně dostupná na webu Hugging Face, takže ji můžete klidně vyzkoušet.
 

Stable Diffusion 3 Medium
info ikonka
Zdroj: Vygenerováno ve Stable Diffusion 3 Medium
Stable Diffusion 3 Medium
info ikonka
Zdroj: Vygenerováno ve Stable Diffusion 3 Medium
Ležící postavy SD3 nejdou.
Stable Diffusion 3 Medium
info ikonka
Zdroj: Vygenerováno ve Stable Diffusion 3 Medium
Stable Diffusion 3 Medium
info ikonka
Zdroj: Vygenerováno ve Stable Diffusion 3 Medium

Problémy jsou hlubší

Společnost Stability oznámila model Stable Diffusion 3 v únoru a plánovala, že jej bude nabízet v různých verzích. Dnes je tu řeč o verzi Medium, což je model s 2 miliardami parametrů. Krátce po únorovém oznámení se objevily zvěsti, že vydání modelu SD3 se zdržuje kvůli technickým problémům, nebo špatnému vedení. 
 

Mohlo by vás zajímat

Společnost Stability AI se totiž nedávno dostala do krize, když v březnu odstoupil její zakladatel a generální ředitel Emad Mostaque a následně došlo k sérii propouštění. Těsně předtím firmu opustili tři klíčoví inženýři. Zprávy o neutěšené finanční situaci společnosti se táhnou už od roku 2023. Podle některých fanoušků Stable Diffusion tedy stojí za neúspěchy SD3 Medium špatné řízení celé společnosti.

Zdroj: Stability AI, Reddit, Reddit, Hugging Face


Máte k článku připomínku? Napište nám

Sdílet článek

Mohlo by se vám líbit








Všechny nejnovější zprávy

doporučujeme