GPT-5.5: Cel mai avansat model AI agentic al OpenAI până în prezent

OpenAI a lansat pe 23 aprilie GPT-5.5, un model pe care îl descrie drept „o nouă clasă de inteligență pentru muncă reală și pentru alimentarea agenților”. Denumirea nu este întâmplătoare: compania susține că este cel mai capabil model AI agentic creat vreodată, construit de la zero pentru a planifica, a utiliza instrumente, a-și verifica propriile rezultate și a rezolva sarcini în mod independent.

GPT-5.5 este primul model de bază reantrenat de la GPT-4.5, fiind co-proiectat cu sistemele rack-scale GB200 și GB300 NVL72 de la NVIDIA. Potrivit OpenAI, diferența practică este că sarcinile care necesitau anterior mai multe prompturi și corecții umane pot fi acum delegate mai complet. Modelul este implementat treptat pentru utilizatorii Plus, Pro, Business și Enterprise în ChatGPT și Codex, iar accesul API a urmat pe 24 aprilie.

Performanțe de referință impresionante

Cea mai puternică afirmație a OpenAI se referă la Terminal-Bench 2.0, un benchmark care testează fluxurile de lucru în linia de comandă, ce necesită planificare și coordonare a instrumentelor într-un mediu izolat. GPT-5.5 obține un scor de 82,7%, față de 75,1% pentru GPT-5.4 și 69,4% pentru Claude Opus 4.7. Pe SWE-Bench Pro, care evaluează rezolvarea problemelor GitHub, GPT-5.5 atinge 58,6%, rezolvând mai multe probleme dintr-o singură încercare decât versiunile anterioare.

OpenAI a introdus și Expert-SWE, un benchmark intern în care sarcinile au un timp median estimat de finalizare umană de 20 de ore. GPT-5.5 obține 73,1%, față de 68,5% pentru GPT-5.4. În raționamentul pe contexte lungi, MRCR v2 la un milion de tokenuri – un benchmark de regăsire care testează dacă modelul poate localiza un răspuns specific ascuns într-un document mare – GPT-5.5 înregistrează 74,0%, față de 36,6% pentru GPT-5.4.

Cu toate acestea, pe MCP Atlas, benchmark-ul Scale AI pentru utilizarea instrumentelor bazate pe Model Context Protocol, Claude Opus 4.7 conduce cu 79,1%, iar GPT-5.5 nu are niciun scor raportat. OpenAI a inclus această absență în propriul tabel de benchmark-uri, ceea ce indică cel puțin încrederea în imaginea de ansamblu.

Prețuri și eficiență

Accesul API este taxat la 5 dolari per milion de tokenuri de intrare și 30 de dolari per milion de tokenuri de ieșire, exact de două ori mai mult decât tarifele pentru GPT-5.4. Apărarea OpenAI este că GPT-5.5 finalizează aceleași sarcini Codex cu mai puține tokenuri decât GPT-5.4, ceea ce face ca costurile efective să fie cu aproximativ 20% mai mari odată ce eficiența este luată în calcul – o afirmație validată de laboratorul independent de testare Artificial Analysis.

GPT-5.5 Pro, disponibil pentru utilizatorii Pro, Business și Enterprise, este taxat la 30 de dolari per milion de tokenuri de intrare și 180 de dolari per milion de tokenuri de ieșire. Acesta aplică timp de calcul suplimentar paralel pentru probleme mai dificile și conduce lista modelelor disponibile public pe BrowseComp, benchmark-ul agentic de navigare web al OpenAI, cu 90,1%.

Eficiența tokenurilor merită testată în funcție de sarcinile reale înainte de a decide o migrare. La 10 milioane de tokenuri de ieșire pe lună, GPT-5.5 standard costă 300 de dolari, față de 250 de dolari pentru Claude Opus 4.7 – o diferență de 20% care se justifică doar dacă performanța agentică superioară înseamnă mai puține iterații și mai puține reîncercări, matematica variind în funcție de cazul de utilizare.

Adopție internă și viziune

OpenAI afirmă că peste 85% dintre angajați folosesc acum Codex săptămânal în departamentele lor, inclusiv inginerie și marketing. Într-un exemplu, echipa de comunicare a folosit GPT-5.5 pentru a procesa șase luni de date privind cererile de vorbire, modelul reușind să construiască un cadru de notare și evaluare a riscurilor pentru a automatiza aprobările cu risc scăzut.

Greg Brockman a descris lansarea ca „un pas real înainte către tipul de calcul pe care îl așteptăm în viitor”, iar cercetătorul-șef Jakub Pachocki a remarcat că ultimii doi ani de progres al modelelor s-au simțit „surprinzător de lenți”. OpenAI spune că GPT-5.5 egalează latența per token a GPT-5.4 în producție, oferind în același timp un nivel mai ridicat de inteligență – modelele mai mari și mai capabile sunt adesea mai lente, dar acest compromis a fost evitat aici.

Întrebarea rămâne

Dacă rezultatele benchmark-urilor se traduc în câștiguri de producție pentru echipele care rulează pipeline-uri agentice reale este întrebarea care va necesita câteva săptămâni pentru a primi un răspuns corect. Scorul Terminal-Bench este promițător pentru agenții terminali nesupravegheați și automatizarea DevOps. Diferența pe MCP Atlas merită urmărită de oricine construiește intens pe orchestrarea instrumentelor.

De ce este important:

Lansarea GPT-5.5 marchează un salt semnificativ în capabilitățile AI agentice, aducându-ne mai aproape de sisteme care pot funcționa autonom în sarcini complexe, de la dezvoltare software la analiză de date. Cu toate acestea, costurile mai ridicate și decalajele pe anumite benchmark-uri subliniază că niciun model nu este perfect. Pentru companii și dezvoltatori, decizia de a adopta GPT-5.5 va depinde de echilibrul dintre performanța superioară în sarcinile agentice și costurile suplimentare, precum și de nevoile specifice de utilizare a instrumentelor. Această evoluție reafirmă cursa accelerată pentru inteligența artificială generală și necesitatea unei evaluări atente a compromisurilor tehnice și financiare.

Filtrează articolele

De ce este important: