Vidu: Kineski odgovor na OpenAI Soru

Kineski startup Shengshu Technology i tamošnje Sveučilište Tsinghua predstavili su Vidu, kineski odgovor na OpenAI Soru.

FOTO: SHENGSHU TECHNOLOGY

Aplikacija za pretvaranje teksta u video uz pomoć umjetne inteligencije može jednim klikom generirati isječke od 16 sekundi u razlučivosti od 1080p. To je zasad puno kraće od Sorinih 60-sekundnih video mogućnosti, ali i trenutno najbolje što Kinezi mogu ponuditi i naznaka velikih stvari koji će uslijediti, prenosi Bug.hr

“Vidu je maštovit, može simulirati fizički svijet i proizvodi videozapise od 16 sekundi s dosljednim likovima, scenama i vremenskom crtom”, pohvalili su se tvorci novog softvera za pretvaranje teksta u video na Zhongguancun forumu u Pekingu, održanom ovaj vikend.

Vidu razumije elemente kineskog pisma, izvijestio je South China Morning Post, a tokom predstavljanja modela Shengshu Technology je prikazao nekoliko demonstracija, uključujući pandu koja svira gitaru na travi i psića koji pliva u bazenu.

Vidu je navodno izgrađen na novoj arhitekturi modela vizualne transformacije Universal Vision Transformer (U-ViT) koji integrira dva AI modela teksta u video: Diffusion i Transformer. Ova arhitektura, kažu, omogućuje realistične videozapise s dinamičnim pokretima kamere, detaljnim izrazima lica te prirodnim osvjetljenjem i sjenama.

Pekinški Shengshu Technology osnovan je u martu 2023. i u njemu su zaposleni uglavnom članovi Instituta za umjetnu inteligenciju, Alibabe, Tencenta i ByteDancea. Tvrtka je prošli mjesec prikupila stotine milijuna juana od raznih ulagača, uključujući Qiming Ventures, Zhipu AI i Baidu Ventures.

aplikacija Kina Vidu