Trendy

Nástroj DIRFA dokáže přeměnit zvukové klipy na realistické digitální tváře

Na univerzitě v Singapuru byl představen průlomový počítačový program
Zvládne transformovat zvukový klip a statické fotografie do realistického 3D videa
Dokáže inteligentně předpovídat a replikovat odpovídající výrazy obličeje a pohyby hlavy

Sdílejte:

Zuzana Přibylová

Publikováno: 30.11.2023 22:00

Žádné komentáře

Dirfa

Tým Singapurských výzkumníků vyvinul program Dirfa (Diverse yet Realistic Facial Animations). Jedná se o průlom v umělé inteligenci, který dokáže transformovat jednoduché zvukové klipy a statickou fotografii do trojrozměrné animace. Jednoduše řečeno, pokud máte hlasovou nahrávku a fotografie, program vám vytvoří digitální kopii zobrazeného člověka. Videa jsou schopné interpretovat přesnou synchronizaci rtů s hlasem, bohatou škálu výrazů a přirozené pohyby hlavy.

Možný průlom v klonování identit?

DIRFA spočívá v jeho pokročilém AI algoritmu, který kombinuje zvukový vstup, fotografické snímky a následně z nich dokáže vytvořit 3D video. Technologie umí předpovídat a replikovat emočně odpovídající výrazy, pohyby hlavy, celé video je velmi realistické a výrazně lepší než nástroje, které jsme dodnes znali. Tradiční modely většinou přesně replikovali jemnost lidských emocí a nedokázaly zvládnout různé pohyby hlavy. Společnost má v plánu posunout hranici digitálních médií a vyniká hlavně díky zachycení široké škály emocionálních gest.

Společnost nástroj trénovala na sadě obličejů pohybů hlavy a řečových vzorků od tisíců jedinců, díky tomu se naučil identifikovat a replikovat jemná gesta, která charakterizují lidské výrazy nebo řeč. Dále byl trénovaný na audiovizuálních klipech pocházejících z datového souboru VoxCeleb2, což je databáze obsahující více než 1 milion výroků pro 6 112 celebrit, extrahovaných z videí nahraných na YouTube. Univerzitní profesor Dr. Wu Rongliang k jejich výtvoru dodává:

„Řeč vykazuje mnoho variací. Jednotlivci vyslovují stejná slova odlišně v různých kontextech, včetně variací se liší v trvání, amplitudě, tónu a dalších. Kromě lingvistického obsahu řeč navíc poskytuje bohaté informace o emočním stavu mluvčího a faktorech identity, jako je pohlaví, věk, etnická příslušnost a dokonce i osobnostní rysy. Náš přístup představuje průkopnické úsilí o zvýšení výkonu z pohledu učení zvukové reprezentace v AI a strojovém učení.“

Dle vývojářů by nástroj mohl pomoci jednotlivcům s poruchami řeči nebo obličeje umožnit vyjádřit své myšlenky a emoce prostřednictvím výrazných avatarů. Díky tomu zlepšit jejich schopnosti efektivně komunikovat. Ačkoliv se pyšní velmi inteligentní technologií, před společností je ještě spousta práce. Například v neschopnosti přizpůsobit konkrétní výrazy, jako je změna zamračeného výrazu na úsměv nebo náhodné změny nálad v konverzaci jsou omezení, které se snaží překonat.

▶️??‍? New #AI tool: #NTUsg scientists have developed DIRFA, a program that creates realistic #talkinghead videos using just photos and audio clips. Researchers stated that DIRFA could lead to new applications across various industries and domains, such as improving user… pic.twitter.com/u5UFH37KQq
— NTU Singapore (@NTUsg) November 16, 2023

Co si myslíte o programu DIRFA?

Zdroj: unite.AI

O autorovi

Zuzana Přibylová

Od dětství ji fascinovaly nejnovější technologie, počítače a veškeré druhy herních konzolí. S PlayStationem 1 a později Xboxem 360 začala její vášeň pro herní svět,… Více o autorovi

Sdílejte:

Žádné komentáře

Vložit komentář

Mohlo by vás zajímat

Integrace Google Gemini do Android Auto

Android Auto dostane schopnějšího asistenta! Takto (zhruba) vypadá Gemini v akci

Fotky Google, třídění fotografií

Fotky Google dají uživatelům větší kontrolu, chyby AI půjde opravit

Libor Foltýnek

Samsung Ballie

Roztomilý robůtek od Samsungu zamíří do domácností. Malý AI asistent pomůže zahnat nudu i samotu