Je to tady! Lidé nepoznají, jestli mluví s člověkem nebo umělou inteligencí, model GPT-4.5 prošel Turingovým testem

Studie odhalila, že za specifických podmínek dokáže umělá inteligence GPT-4.5 oklamat lidi ohledně své identity
Se správným zadáním přiměla 73 % účastníků Turingova testu k mylné domněnce, že mluví s člověkem
Testovány byly rovněž modely GPT-4o, LLaMA 3.1-405B a dokonce i proslulá ELIZA

Sdílejte:

Pavlína Čížková

Publikováno: 5.4.2025 08:00 (Aktualizováno: 9.4.2025 18:51)

1 komentář

Nová studie výzkumníků z Cornell University ukázala, že umělá inteligence od OpenAI (konkrétně model GPT-4.5) je dostatečně přesvědčivá v imitování lidské bytosti na to, aby v průběhu konverzace zmátla drtivou většinu lidí ohledně své identity. Tuto skutečnost odhalil Turingův test, jehož esence tkví přesně v těchto pokusech. Test ověřuje, zda dokáže stroj jednat tak, aby běžný člověk nepoznal, že mluví se strojem.

V rámci testu člověk (tzv. „vyšetřovatel“) komunikuje s dalším člověkem a zároveň s umělou inteligencí. Klíč je v tom, že vyšetřovateli se nedostává žádných vizuálních ani auditivních podnětů, které by dokázaly odlišné identity odhalit. Jediný faktor, který může vyšetřovatel posuzovat, je komunikace.

Výzkumníci během Turingova testu vyzkoušeli dvě varianty. První proběhla bez instrukcí, a modely umělé inteligence se mohly vyjadřovat bez definovaného stylu projevu. Druhá naopak proběhla s instrukcemi – AI dostala zadání, aby hrála roli konkrétního typu člověka (například introverta, programátora, teenagerky apod.).

Jak si model GPT-4.5 vedl oproti ostatním modelům?

Druhá varianta testu, a tedy varianta s instrukcemi, je tou, ve které model umělé inteligence GPT-4.5 opravdu zazářil. Přesáhl totiž 50% hranici náhody, a vyšetřovatele zmátl až v 73% případů.

Jeho konkurenty byly modely LLaMA 3.1-405B, ikonická ELIZA z 60. let a GPT-4o. V první variantě testu sice výsledky ani jednoho modelu nebyly nikterak slavné, ale GPT-4.5 si stále udržoval první příčku s 36% úspěšností oklamání.

Test ukázal, že umělá inteligence se jednoznačně zlepšuje v imitaci lidského chování tehdy, když má jasně danou roli, styl, a rovněž je správně uvedena do kontextu situace. To podporuje myšlenku, že tzv. „prompt engineering“ (v češtině „práce s prompty“ / „inženýrství promptů“), neboli umění správného zadávání instrukcí AI, může dramaticky ovlivnit její výstupy.

Hlavní autor studie navíc na sociální síti X napsal, že model GPT-4.5 byl během testu označován za člověka častěji, než byli označováni skuteční lidé. Umělá inteligence opravdu zamotala vyšetřovatelům hlavy, především pak v případech, kdy bylo umělé inteligenci zadáno osobnostní nastavení:

So do LLMs pass the Turing test? We think this is pretty strong evidence that they do. People were no better than chance at distinguishing humans from GPT-4.5 and LLaMa (with the persona prompt). And 4.5 was even judged to be human significantly *more* often than actual humans!
— Cameron Jones (@camrobjones) April 1, 2025

Pokud vám novinky nicméně působí diskomfort, je důležité si uvědomovat, že i když AI dokáže působit lidsky, neznamená to, že skutečně „myslí“ jako člověk. Jen dokonale předpovídá slova, která se do konverzace nejpravděpodobněji hodí v závislosti na kontextu.

Co si o výsledcích Turingova testu myslíte vy?

Zdroj: Futurism

O autorovi

Pavlína Čížková

Pája nemálo kdy slýchá, že vypadá, jako by do přítomnosti přišla z cyberpunkového budoucna. Nejen svou prezentací, ale i svými zájmy dává veřejnosti každý den… Více o autorovi

Sdílejte: