Google Gemini Omni transformă imagini, audio și text în video – și acesta e doar începutul

Când Google a lansat Gemini acum trei ani, obiectivul era să construiască un model de limbaj multimodal de mari dimensiuni – o singură rețea neuronală antrenată pe text, imagini, audio și video, capabilă să genereze conținut în oricare dintre aceste formate. Astăzi, la conferința pentru dezvoltatori Google I/O, compania a făcut un pas concret către această viziune cu Gemini Omni, o nouă familie de modele multimodale despre care CEO-ul Sundar Pichai spune că va putea „crea orice din orice input”.

Omni începe cu video. Utilizatorii pot combina acum imagini, audio, video și text, iar modelul nu doar că îmbină aceste intrări, ci raționează asupra lor pentru a produce un rezultat coerent. Rezultatul sunt videoclipuri de înaltă calitate care reflectă o înțelegere a fizicii, culturii, istoriei și științei. De exemplu, când i s-a dat un prompt simplu precum „un explainer în claymation despre plierea proteinelor”, Omni a generat rapid un videoclip stop-motion cu o voce narativă care explica: „Proteinele încep ca lanțuri de aminoacizi. Se pliază în modele precum helixul alfa și secțiuni plate numite foi beta, formând o formă tridimensională perfectă.”

Omni permite, de asemenea, editarea fotografiilor cu comenzi simple în text, fără a fi nevoie de software complex de editare, similar cu Nano Banana de la Google. Google avea deja un model video dedicat, Veo, care permite utilizatorilor să transforme text și imagini în videoclipuri și chiar să dirijeze și să personalizeze avataruri. Dar Nicole Brichtova, director de management de produs la Google DeepMind, spune că lansarea de astăzi este mai mult decât o actualizare a lui Veo: „Este următorul pas către progresul combinării inteligenței lui Gemini cu capacitățile de randare ale modelelor noastre media.”

Viziunea pe termen lung pentru Omni este mai amplă, implicând utilizarea modelului pentru a genera imagini din audio sau audio din video. „Când am anunțat prima dată Gemini, era primul nostru model AI nativ multimodal”, a spus Pichai în cadrul briefingului. „Știam că antrenarea pe o combinație de text, cod, audio, imagini și video îi va oferi o înțelegere mai profundă a lumii. Cu modelele lumii, AI trece de la prezicerea textului la simularea realității. Gemini Omni este următorul pas în această direcție.”

Ca parte a lansării, utilizatorii vor putea crea videoclipuri cu propriile avataruri digitale – ceva ce OpenAI a popularizat pe aplicația sa acum dispărută Sora cu Cameos. Pentru a preveni deepfake-urile, utilizatorii vor trebui să treacă printr-un proces dedicat de înscriere în produs, care implică înregistrarea propriei persoane și rostirea unei serii de numere, conform Brichtovei. Avatarul este apoi stocat pentru utilizare ulterioară. În plus, toate videoclipurile create cu Omni vor include filigranul digital SynthID de la Google, care permite utilizatorilor să verifice dacă videoclipurile au fost generate prin produsele Gemini.

Primul model din familie este Gemini Omni Flash, care va fi lansat astăzi în aplicația Gemini, YouTube Shorts și studioul creativ AI Flow. Flash va fi capabil să redea 10 secunde de video, ceea ce Brichtova spune că nu este o limitare a modelului, ci mai degrabă o decizie bazată atât pe dorința de a-l face accesibil mai multor persoane, cât și pe anticiparea că majoritatea utilizatorilor nu vor dori încă să facă videoclipuri mult mai lungi. Durate mai lungi sunt în plan pentru viitorul apropiat.

Google pare să poziționeze Omni Flash mai degrabă ca un instrument pentru consumatori. Exemplele pe care Brichtova și Gabe Barth-Maron, inginer de cercetare la DeepMind, le-au oferit într-un apel cu TechCrunch pentru utilizări ale avatarurilor digitale au fost toate personale: realizarea unui videoclip în care câștigi un premiu sau mergi pe Lună, sau eliminarea unui trecător din fundalul unui videoclip făcut în vacanță. „Cu siguranță ne-am concentrat pe a face acest lucru ușor de utilizat pentru consumatori”, a spus Brichtova. „Nu multe modele video au reușit să treacă această prăpastie cu consumatorii, așa că aceasta este încercarea noastră de a face asta.”

Ușurința de utilizare vine cu o avertizare: Brichtova și Barth-Maron au menționat că prompturile de editare vor trebui să fie foarte specifice, altfel Omri riscă să editeze excesiv sau să modifice neintenționat elemente pe care utilizatorul dorea să le păstreze – o problemă pe care utilizatorii Nano Banana ar fi întâlnit-o.

În ciuda focusului pe termen scurt asupra consumatorilor, implicațiile enterprise și creative ale Omni sunt evidente, iar Google va pune Omni la dispoziție prin API în următoarele săptămâni. Instrumentul de generare a avatarurilor – o capacitate disponibilă astăzi pe Shorts – este ceva ce Google se așteaptă să fie preluat de creatorii de conținut. Dar, mai larg, un flux de lucru multimodal end-to-end ar putea fi transformator pentru agenții de publicitate și realizatorii de film. Startup-ul Luma AI construiește ceva similar, un instrument agentic care poate genera o întreagă campanie publicitară pe baza unui scurt brief și a unei imagini de produs, alimentat de propriul său model „unificat”.

„Suntem destul de mândri de capacitățile modelului de a reda text, ceea ce este foarte util pentru lucruri precum publicitatea”, a spus Brichtova. „Dacă vrei un produs undeva, sau chiar doar un slogan, trebuie să fie precis... Cu siguranță anticipăm că realizatorii de film și alte tipuri de creatori vor folosi acest model.”

Cazurile de utilizare mai profesionale ar putea fi mai bine deservite de modelul Omni Pro, care ar trebui să performeze mai bine în toate sarcinile Omni. Google nu a spus încă când va lansa Pro, dar Brichtova a spus că acest lucru se va întâmpla când „simțim că suntem la un punct în care avem o schimbare semnificativă față de Flash.”

De ce este important:

Lansarea Gemini Omni marchează un pas major în evoluția inteligenței artificiale generative, trecând de la simple modele de text sau imagine la un sistem cu adevărat multimodal care poate înțelege și crea conținut în mai multe formate simultan. Aceasta nu este doar o actualizare a unui model video, ci o fundație pentru viitoare aplicații care vor putea simula realitatea, de la asistenți virtuali care „văd” și „aud” până la instrumente creative care democratizează producția video. Pentru consumatori, înseamnă acces la instrumente puternice de editare și creație fără cunoștințe tehnice avansate. Pentru întreprinderi, deschide posibilități de automatizare a campaniilor publicitare, a conținutului educațional și a producției media. În același timp, măsurile de siguranță precum filigranul SynthID și procesul de verificare a avatarurilor arată că Google încearcă să abordeze riscurile de deepfake și dezinformare, deși provocările rămân. Pe scurt, Gemini Omni este un indicator clar că AI-ul multimodal nu mai este un vis de viitor, ci o realitate care începe să modeleze modul în care interacționăm cu tehnologia.

Filtrează articolele

De ce este important: