Filtrează articolele

Subiect: #Modele Multimodale

AI TimeScope: Până unde poate ajunge înțelegerea video în modelele multimodale avansate?

TimeScope: Până unde poate ajunge înțelegerea video în modelele multimodale avansate?

TimeScope este un benchmark open-source care testează limitele reale ale modelelor AI în înțelegerea videoclipurilor de lungă durată, dezvăluind diferența dintre promisiunile de marketing și performanța efectivă în sarcini complexe de sinteză și raționament temporal.

🕒 1 luni în urmă
AI Alinierea Modelelor Viziune-Limbaj în TRL: O Nouă Eră a Optimizării Preferințelor

Alinierea Modelelor Viziune-Limbaj în TRL: O Nouă Eră a Optimizării Preferințelor

Modelele Viziune-Limbaj evoluează rapid, dar alinierea lor la preferințele umane rămâne o provocare critică. Acest articol explorează noile tehnici din TRL, precum MPO și GRPO, care depășesc limitările DPO tradițional, oferind o robustete superioară și o capacitate de raționament îmbunătățită pentru modelele multimodale.

🕒 1 luni în urmă
AI Holotron-12B: O nouă eră în agenții AI pentru utilizarea computerelor – performanță, eficiență și scalabilitate

Holotron-12B: O nouă eră în agenții AI pentru utilizarea computerelor – performanță, eficiență și scalabilitate

H Company lansează Holotron-12B, un model AI multimodal revoluționar, optimizat pentru agenți care utilizează computerele. Cu o arhitectură hibridă SSM ce dublează debitul de inferență față de predecesorii săi, modelul excelează în sarcini complexe de navigare și interacțiune vizuală, deschizând calea pentru automatizarea autonomă la scară largă.

🕒 1 luni în urmă

Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.