Filtrează articolele

Subiect: #Evaluare Modele

AI 📚 3LM: Un nou punct de referință pentru modelele de limbaj arabe în domeniile STEM și programare

📚 3LM: Un nou punct de referință pentru modelele de limbaj arabe în domeniile STEM și programare

3LM (علم) reprezintă primul benchmark dedicat evaluării modelelor de limbaj arabe în domeniile STEM și generarea de cod, adresând o lacună majoră în peisajul actual al NLP-ului arab prin introducerea a trei seturi de date distincte: întrebări educaționale native, întrebări sintetice de dificultate ridicată și sarcini de programare traduse.

🕒 1 luni în urmă
AI Gaia2 și ARE: Noile Frontiere în Evaluarea și Dezvoltarea Agenților AI Autonomi

Gaia2 și ARE: Noile Frontiere în Evaluarea și Dezvoltarea Agenților AI Autonomi

Lansarea Gaia2 și a framework-ului Meta Agents Research Environments (ARE) marchează o evoluție majoră în evaluarea agenților AI, trecând de la teste statice la scenarii interactive complexe, care includ gestionarea timpului, ambiguității și eșecurilor tehnice.

🕒 1 luni în urmă
AI Prezentând RTEB: Un Noua Standard pentru Evaluarea Recuperării Datelor în Era Inteligenței Artificiale

Prezentând RTEB: Un Noua Standard pentru Evaluarea Recuperării Datelor în Era Inteligenței Artificiale

RTEB (Retrieval Embedding Benchmark) redefinesc evaluarea modelelor de embedding prin utilizarea unei strategii hibride, care combină seturi de date deschise și private pentru a combate supra-ajustarea și a oferi o măsură reală a capacității de generalizare în domenii precum finanțe, drept, cod și sănătate.

🕒 1 luni în urmă
AI BigCodeArena: Evaluarea generării de cod prin execuție efectivă și judecată comunitară

BigCodeArena: Evaluarea generării de cod prin execuție efectivă și judecată comunitară

BigCodeArena revoluționează evaluarea modelelor AI de generare de cod prin introducerea execuției în timp real într-un mediu sandbox. Cu peste 14.000 de conversații și 4.700 de voturi colectate, platforma dezvăluie ierarhii clare între modelele de top precum o3-mini și cele open-source, subliniind că execuția efectivă este singura metodă fiabilă de judecare a calității codului.

🕒 1 luni în urmă
AI Alyah ⭐️: Spre o evaluare robustă a capacităților dialectului emirian în modelele lingvistice arabe

Alyah ⭐️: Spre o evaluare robustă a capacităților dialectului emirian în modelele lingvistice arabe

Alyah, un nou benchmark dedicat dialectului emirian, revelează lacune semnificative în modelele lingvistice arabe actuale și deschide calea spre asistenți AI mai cultural conștienți.

🕒 1 luni în urmă
Tehnologie Evaluări Comunitare: De ce nu mai avem încredere în clasamentele „cutie neagră” în detrimentul comunității

Evaluări Comunitare: De ce nu mai avem încredere în clasamentele „cutie neagră” în detrimentul comunității

În 2026, discrepanța dintre scorurile la benchmark-uri și performanța reală a modelelor AI a atins un nivel critic. Hugging Face răspunde prin lansarea Community Evals, o inițiativă care descentralizează raportarea rezultatelor, permite comunității să contribuie prin PR-uri și standardizează evaluările prin formatul Inspect AI.

🕒 1 luni în urmă

Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.