Revoluce v AI světě: Nové algoritmy konečně chápou, co v obrázku nechcete Hlavní stránka Zprávičky AI generátory obrázků měly historicky problém s negativními příkazy (co v obrázku nemá být) a složitými kompozicemi Nové výzkumné techniky (např. GLIGEN, Composable Diffusion) nyní tyto problémy aktivně řeší Výsledkem je výrazně lepší kontrola nad obsahem i prostorovým uspořádáním generovaných obrázků Sdílejte: Adam Indra Publikováno: 9.4.2025 13:00 Žádné komentáře 0 Nedávné pokroky v oblasti AI generování obrázků překonávají předchozí omezení, zejména potíže, které měly modely jako Stable Diffusion, Midjourney a DALL-E s pochopením negativních příkazů (např. požadavek na obrázek bez určitého objektu, jako „žádní sloni“) a přesným zobrazením složitých prostorových vztahů (tzv. kompozicionalita). Výzkumníci vyvinuli nové metody, například GLIGEN, Layout Guidance, Attend-and-Excite a Composable Diffusion, které poskytují podstatně větší kontrolu nad výsledným obrazovým výstupem. Tyto techniky umožňují uživatelům nejen specifikovat, co má být zahrnuto, ale i co má být explicitně vyloučeno, a definovat přesné umístění objektů. To vede ke spolehlivějším a předvídatelnějším výsledkům generování, což představuje významný krok vpřed v použitelnosti nástrojů pro tvorbu AI obrázků. Problémy tradičních modelů: Negativní příkazy a kompozice Jedním z dlouhodobých problémů AI modelů pro generování obrázků byla neschopnost spolehlivě zpracovat negativní příkazy. Pokud jste například požádali o „mísu ovoce bez banánů“, model často paradoxně banány do obrázku přidal. Systémy jako Stable Diffusion, Midjourney nebo DALL-E měly tendenci soustředit se na klíčová slova (ovoce, banány) a instrukci „bez“ často ignorovaly nebo špatně interpretovaly. Gemini Live v Česku: Foťte, sdílejte obrazovku a ptejte se AI Adam Indra Zprávičky Adam Indra Zprávičky Další významnou výzvou byla kompozicionalita – schopnost správně uspořádat objekty v prostoru a přiřadit jim správné vlastnosti podle popisu. Klasickým příkladem je požadavek „červená kostka na modré kostce“. Starší modely často zaměňovaly barvy, polohy nebo generovaly objekty odděleně, protože nerozuměly vztahům mezi slovy v příkazu. Bojovaly s pochopením prostorových vztahů („na“, „pod“, „vedle“) a správným přiřazením atributů (barva, tvar) ke konkrétním objektům. Prompt (CPT-4o): show me a room with no elephants in it, make sure to annotate the image to show me why there are no possible elephants Nové techniky pro lepší kontrolu V poslední době se objevila řada výzkumných prací, které tyto problémy řeší a přinášejí mnohem jemnější kontrolu nad generováním obrázků. Mezi klíčové přístupy patří: GLIGEN (Grounded Language-to-Image Generation): Tato technika umožňuje uživatelům specifikovat polohu objektů pomocí ohraničujících rámečků (bounding boxes) přímo v zadání. Model pak umístí požadované objekty do definovaných oblastí. Layout Guidance: Podobně jako GLIGEN se zaměřuje na zlepšení kontroly nad prostorovým uspořádáním objektů v generovaném obrázku. Attend-and-Excite: Tento přístup se soustředí na zajištění toho, aby byly v obrázku skutečně přítomny *všechny* prvky zmíněné v textovém zadání, čímž zlepšuje věrnost komplexním popisům. Composable Diffusion: Umožňuje efektivněji kombinovat více konceptů nebo příkazů. To je užitečné jak pro složité scény s mnoha objekty, tak potenciálně i pro lepší zpracování negativních omezení tím, že kombinuje hlavní příkaz s příkazem pro „nechtěný“ objekt. Structured Diffusion Guidance: Další metoda, která využívá dodatečné informace (např. sémantické mapy nebo náčrty) pro přesnější vedení difuzního procesu generování. Společným výsledkem těchto technik je výrazně zlepšená schopnost AI modelů řídit se složitými instrukcemi, včetně negativních omezení a specifických požadavků na kompozici a prostorové uspořádání. Umožňují generovat obrázky, které mnohem přesněji odpovídají záměru uživatele. Význam a budoucnost Tyto průlomy jsou podle autora původního článku, Ethana Mollicka, velmi důležité. Naznačují rychlý pokrok v oblasti generativní AI a posouvají ji od nástrojů, které produkují spíše náhodné zajímavé výsledky, k nástrojům, které lze spolehlivě ovládat pro dosažení konkrétních cílů. Schopnost přesně specifikovat obsah obrázku, včetně toho, co v něm *nemá* být, a jak mají být prvky uspořádány, otevírá nové možnosti pro praktické využití AI v grafickém designu, tvorbě obsahu a dalších oblastech. Vývoj technik řešících negativní příkazy a kompozicionalitu představuje významný skok v generování AI obrázků a připravuje půdu pro předvídatelnější a kreativně silnější nástroje. Jaké možnosti vám otevírá přesnější kontrola nad generovanými AI obrázky? Zdroj: One Useful Thing O autorovi Adam Indra Sdílejte: Žádné komentáře Vložit komentář AI generování obrázků Mohlo by vás zajímat Android Auto dostane schopnějšího asistenta! Takto (zhruba) vypadá Gemini v akci Adam Kurfürst 9.1. Google uhodil hřebíček na hlavičku. Novou funkci Gemini si uživatelé zamilovali a teď je navíc ještě lepší Adam Kurfürst 16.11.2024 AI spotřebovává neskutečné množství elektřiny i vody. Jak dlouho to bude udržitelné? Jana Skálová 3.1.