Nástroj DIRFA dokáže přeměnit zvukové klipy na realistické digitální tváře
- Na univerzitě v Singapuru byl představen průlomový počítačový program
- Zvládne transformovat zvukový klip a statické fotografie do realistického 3D videa
- Dokáže inteligentně předpovídat a replikovat odpovídající výrazy obličeje a pohyby hlavy
![dirfa Dirfa](https://www.svetandroida.cz/media/2023/11/dirfa.jpg)
Tým Singapurských výzkumníků vyvinul program Dirfa (Diverse yet Realistic Facial Animations). Jedná se o průlom v umělé inteligenci, který dokáže transformovat jednoduché zvukové klipy a statickou fotografii do trojrozměrné animace. Jednoduše řečeno, pokud máte hlasovou nahrávku a fotografie, program vám vytvoří digitální kopii zobrazeného člověka. Videa jsou schopné interpretovat přesnou synchronizaci rtů s hlasem, bohatou škálu výrazů a přirozené pohyby hlavy.
Možný průlom v klonování identit?
DIRFA spočívá v jeho pokročilém AI algoritmu, který kombinuje zvukový vstup, fotografické snímky a následně z nich dokáže vytvořit 3D video. Technologie umí předpovídat a replikovat emočně odpovídající výrazy, pohyby hlavy, celé video je velmi realistické a výrazně lepší než nástroje, které jsme dodnes znali. Tradiční modely většinou přesně replikovali jemnost lidských emocí a nedokázaly zvládnout různé pohyby hlavy. Společnost má v plánu posunout hranici digitálních médií a vyniká hlavně díky zachycení široké škály emocionálních gest.
Společnost nástroj trénovala na sadě obličejů pohybů hlavy a řečových vzorků od tisíců jedinců, díky tomu se naučil identifikovat a replikovat jemná gesta, která charakterizují lidské výrazy nebo řeč. Dále byl trénovaný na audiovizuálních klipech pocházejících z datového souboru VoxCeleb2, což je databáze obsahující více než 1 milion výroků pro 6 112 celebrit, extrahovaných z videí nahraných na YouTube. Univerzitní profesor Dr. Wu Rongliang k jejich výtvoru dodává:
„Řeč vykazuje mnoho variací. Jednotlivci vyslovují stejná slova odlišně v různých kontextech, včetně variací se liší v trvání, amplitudě, tónu a dalších. Kromě lingvistického obsahu řeč navíc poskytuje bohaté informace o emočním stavu mluvčího a faktorech identity, jako je pohlaví, věk, etnická příslušnost a dokonce i osobnostní rysy. Náš přístup představuje průkopnické úsilí o zvýšení výkonu z pohledu učení zvukové reprezentace v AI a strojovém učení.“
Dle vývojářů by nástroj mohl pomoci jednotlivcům s poruchami řeči nebo obličeje umožnit vyjádřit své myšlenky a emoce prostřednictvím výrazných avatarů. Díky tomu zlepšit jejich schopnosti efektivně komunikovat. Ačkoliv se pyšní velmi inteligentní technologií, před společností je ještě spousta práce. Například v neschopnosti přizpůsobit konkrétní výrazy, jako je změna zamračeného výrazu na úsměv nebo náhodné změny nálad v konverzaci jsou omezení, které se snaží překonat.
Co si myslíte o programu DIRFA?
Zdroj: unite.AI
O autorovi
Zuzana Přibylová
Od dětství ji fascinovaly nejnovější technologie, počítače a veškeré druhy herních konzolí. S PlayStationem 1 a později Xboxem 360 začala její vášeň pro herní svět,… Více o autorovi
Mohlo by vás zajímat
![Integrace Google Gemini do Android Auto](https://www.svetandroida.cz/media/2026/01/android-auto-google-gemini-integrace-nahled-360x237.webp)
Android Auto dostane schopnějšího asistenta! Takto (zhruba) vypadá Gemini v akci
![Fotky Google, třídění fotografií](https://www.svetandroida.cz/media/2026/01/fotky-google-podobne-fotografie-360x237.webp)
Fotky Google dají uživatelům větší kontrolu, chyby AI půjde opravit
![Samsung Ballie](https://www.svetandroida.cz/media/2025/01/samsung-ballie-1-360x237.webp)