Revoluce v AI světě: Nové algoritmy konečně chápou, co v obrázku nechcete

AI generátory obrázků měly historicky problém s negativními příkazy (co v obrázku nemá být) a složitými kompozicemi
Nové výzkumné techniky (např. GLIGEN, Composable Diffusion) nyní tyto problémy aktivně řeší
Výsledkem je výrazně lepší kontrola nad obsahem i prostorovým uspořádáním generovaných obrázků

Sdílejte:

Adam Indra

Publikováno: 9.4.2025 13:00

Žádné komentáře

Nedávné pokroky v oblasti AI generování obrázků překonávají předchozí omezení, zejména potíže, které měly modely jako Stable Diffusion, Midjourney a DALL-E s pochopením negativních příkazů (např. požadavek na obrázek bez určitého objektu, jako „žádní sloni“) a přesným zobrazením složitých prostorových vztahů (tzv. kompozicionalita). Výzkumníci vyvinuli nové metody, například GLIGEN, Layout Guidance, Attend-and-Excite a Composable Diffusion, které poskytují podstatně větší kontrolu nad výsledným obrazovým výstupem. Tyto techniky umožňují uživatelům nejen specifikovat, co má být zahrnuto, ale i co má být explicitně vyloučeno, a definovat přesné umístění objektů. To vede ke spolehlivějším a předvídatelnějším výsledkům generování, což představuje významný krok vpřed v použitelnosti nástrojů pro tvorbu AI obrázků.

Problémy tradičních modelů: Negativní příkazy a kompozice

Jedním z dlouhodobých problémů AI modelů pro generování obrázků byla neschopnost spolehlivě zpracovat negativní příkazy. Pokud jste například požádali o „mísu ovoce bez banánů“, model často paradoxně banány do obrázku přidal. Systémy jako Stable Diffusion, Midjourney nebo DALL-E měly tendenci soustředit se na klíčová slova (ovoce, banány) a instrukci „bez“ často ignorovaly nebo špatně interpretovaly.

Blogpost Header Option 2 v02.width 1200.format webp

Gemini Live v Česku: Foťte, sdílejte obrazovku a ptejte se AI Adam Indra Zprávičky Adam Indra Zprávičky

Další významnou výzvou byla kompozicionalita – schopnost správně uspořádat objekty v prostoru a přiřadit jim správné vlastnosti podle popisu. Klasickým příkladem je požadavek „červená kostka na modré kostce“. Starší modely často zaměňovaly barvy, polohy nebo generovaly objekty odděleně, protože nerozuměly vztahům mezi slovy v příkazu. Bojovaly s pochopením prostorových vztahů („na“, „pod“, „vedle“) a správným přiřazením atributů (barva, tvar) ke konkrétním objektům.

zadni sloni generovani AI obrazku — Prompt (CPT-4o): show me a room with no elephants in it, make sure to annotate the image to show me why there are no possible elephants

Nové techniky pro lepší kontrolu

V poslední době se objevila řada výzkumných prací, které tyto problémy řeší a přinášejí mnohem jemnější kontrolu nad generováním obrázků. Mezi klíčové přístupy patří:

GLIGEN (Grounded Language-to-Image Generation): Tato technika umožňuje uživatelům specifikovat polohu objektů pomocí ohraničujících rámečků (bounding boxes) přímo v zadání. Model pak umístí požadované objekty do definovaných oblastí.
Layout Guidance: Podobně jako GLIGEN se zaměřuje na zlepšení kontroly nad prostorovým uspořádáním objektů v generovaném obrázku.
Attend-and-Excite: Tento přístup se soustředí na zajištění toho, aby byly v obrázku skutečně přítomny *všechny* prvky zmíněné v textovém zadání, čímž zlepšuje věrnost komplexním popisům.
Composable Diffusion: Umožňuje efektivněji kombinovat více konceptů nebo příkazů. To je užitečné jak pro složité scény s mnoha objekty, tak potenciálně i pro lepší zpracování negativních omezení tím, že kombinuje hlavní příkaz s příkazem pro „nechtěný“ objekt.
Structured Diffusion Guidance: Další metoda, která využívá dodatečné informace (např. sémantické mapy nebo náčrty) pro přesnější vedení difuzního procesu generování.

Společným výsledkem těchto technik je výrazně zlepšená schopnost AI modelů řídit se složitými instrukcemi, včetně negativních omezení a specifických požadavků na kompozici a prostorové uspořádání. Umožňují generovat obrázky, které mnohem přesněji odpovídají záměru uživatele.

Význam a budoucnost

Tyto průlomy jsou podle autora původního článku, Ethana Mollicka, velmi důležité. Naznačují rychlý pokrok v oblasti generativní AI a posouvají ji od nástrojů, které produkují spíše náhodné zajímavé výsledky, k nástrojům, které lze spolehlivě ovládat pro dosažení konkrétních cílů. Schopnost přesně specifikovat obsah obrázku, včetně toho, co v něm *nemá* být, a jak mají být prvky uspořádány, otevírá nové možnosti pro praktické využití AI v grafickém designu, tvorbě obsahu a dalších oblastech.

create an infographic about how to build a good boardgame cesky prosim a o Androidu

Vývoj technik řešících negativní příkazy a kompozicionalitu představuje významný skok v generování AI obrázků a připravuje půdu pro předvídatelnější a kreativně silnější nástroje.

Jaké možnosti vám otevírá přesnější kontrola nad generovanými AI obrázky?

Zdroj: One Useful Thing