Construirea Deep Research: Cum am atins performanța de ultimă generație (State of the Art)
Articol de echipă
Publicat la 24 noiembrie 2025
Într-o eră definită de accelerația tehnologică frenetică, provocarea supremă pentru inginerii din domeniul inteligenței artificiale nu mai constă doar în dezvoltarea de algoritmi mai rapizi, ci în arhitectura unor sisteme capabile să evolueze organic odată cu modelele pe care le găzduiesc. Aceasta este povestea noastră despre cum am reconstruit fundamental sistemul Deep Research, transformând limitările inițiale într-o platformă de referință în industrie.
Construirea pentru Viitor: Arhitectura unui Agent Harness
Sarcina de a construi un „agent harness” (un cadru de execuție pentru agenți) este echivalentă cu crearea unui strat software sofisticat care amplifică capacitatea de execuție a unui model. Acest strat gestionează contextul, invocă instrumentele, controlează buclele de execuție, orchestrează fluxurile complexe și tratează erorile. Totuși, construirea aplicațiilor peste modele care se îmbunătățesc cu o viteză uluitoare reprezintă o provocare inginerească modernă, plină de paradoxuri.
Întrebarea centrală care ne ghidează este: cum putem proiecta software astăzi încât să absoarbă automat câștigurile de performanță ale modelelor viitoare? Răspunsul necesită o abordare prospectivă, o doză sănătoasă de optimism tehnologic și, cel mai important, limitarea asumpțiilor rigide. Am învățat această lecție pe calea cea grea, cu șapte luni în urmă, când a trebuit să abandonăm prima noastră încercare de a dezvolta Deep Research și să reconstruim întregul sistem de la zero. Prima arhitectură era complicată și sofisticată – credeam atunci că sofisticarea este un sinonim pentru calitate. Totuși, asumpțiile noastre au devenit rapid gâturi de îmbulare (bottlenecks) odată cu sosirea noii generații de modele de limbaj.
Evoluția Modelelor: De la Fluxuri de Lucru la Agenți Autonomi
În ultimele șapte luni, capacitățile modelelor de limbaj au evoluat subtil, dar semnificativ, în special în ceea ce privește capacitatea de a apela instrumente (tool-calling). Această singură direcție de optimizare ne-a propulsat de la simple fluxuri de lucru (workflows) la agenți complecși. Credem cu tărie că modelele viitoare vor fi antrenate specific pentru a rezolva punctele nevralgice cu care se confruntă dezvoltatorii de agenți astăzi. Într-un final, fiecare model este consumat de un harness, deci evoluția modelelor trebuie să servească necesitățile acestui harness. Ne așteptăm să vedem îmbunătățiri majore în sumarizarea cu rată înaltă de rechemare (pentru compresia contextului), în fiabilitatea apelurilor de instrumente și în concizia scrierii.
Instrumente Inteligente: Mai Puțin înseamnă Mai Mult
În mod similar, instrumentele trebuie să evolueze pentru a susține Modelele de Limbaj Mari (LLM) și arhitecturile de agenți adoptate pe scară largă. Cele mai bune instrumente ar trebui să efectueze o formă de „inginerie a contextului” în interiorul lor, abstractizând această complexitate față de agentul care le utilizează. Ele ar trebui să returneze doar cele mai relevante date, în loc să „verse” volume imense de tokeni în fereastra de context. Ca furnizor de instrumente, am investit masiv în funcția noastră de căutare avansată, care are ingineria contextului integrată în mod nativ („baked in”). Acest lucru reduce, la rândul său, halucinațiile și latența pentru procesele agenților din aval.
Lecții Învățate: Principii Ghid pentru Agenți care Evoluează
Pentru a construi agenți care se îmbunătățesc în timp, am urmat câteva principii directoare esențiale:
Ingineria Contextului – Un Exercițiu de Curare (Curation)
Sarcinile de cercetare cu orizont lung de timp expun o provocare fundamentală în designul actual al agenților: menținerea unei ferestre de context curate și optimizate pe parcursul execuției. Dacă curarea contextului nu este o sarcină la care inginerul acordă o atenție meticuloasă, agentul este aproape destinat eșecului. Haosul informațional este inamicul raționamentului.
Preluarea Web cu Gestionarea Contextului
Utilizarea Căutării Avansate Tavily reprezintă primul pas natural în depășirea acestei provocări. Aceasta abstractizează procesarea conținutului web brut și returnează doar fragmentele de conținut cele mai relevante din fiecare sursă. Valorificând această funcționalitate, permitem Tavily Search să efectueze „munca grea” și permitem Tavily Research să recolteze beneficiile, adunând conținutul valoros într-o manieră eficientă din punct de vedere al latenței.
Asigurarea că agentul nu se suprapune (overfit) pe un singur fir de cercetare este următorul pas către un pipeline eficient de colectare a contextului. În acest sens, persistența stării globale și deduplicarea surselor sunt paramount. În cazul nostru, acest lucru ajută triplu: economisește tokeni, reduce latența și previne buclele de raționament eronate.
Modelarea Interacțiunii Om-Web
Oamenii efectuează cercetări într-un mod inerent nestructurat și iterativ. Începem prin a defini sarcina: ce încercăm să realizăm și ce informații ne sunt necesare. Apoi, colectăm date din surse, extragem ideile cheie și le păstrăm în memoria pe termen scurt, lăsând aceste gânduri distilate să ne ghideze acțiunile ulterioare. Acest ciclu se repetă: colectează informații, distilează, decide ce urmează. Doar atunci când am adunat suficientă înțelegere pentru a produce rezultatul final, ne întoarcem la sursele originale, folosindu-le ca referințe pentru a asambla produsul finit.
Credem că agenții de cercetare profundă (deep research) ar trebui proiectați într-un mod similar. Ieșirile instrumentelor ar trebui distilate în „reflecții”, și doar setul de reflecții anterioare ar trebui utilizat ca context pentru apelantul de instrumente. Similar oamenilor, doar în momentul în care agentul începe să pregătească livrabilul final trebuie să furnizăm informația brută ca context, pentru a ne asigura că nu există pierderi de informație.
Mai Mult cu Mai Puțin: Eficiență Matematică
Această abordare diferă fundamental de structurarea tradițională a contextului într-o arhitectură de agent ReAct. În mod tipic, apelurile de instrumente și ieșirile sunt propagate prin bucla de apelare, tokenii fiind persistați în fereastra de context la fiecare iterație ulterioară. Acest model poate fi reprezentat matematic printr-o serie cu creștere pătratică, care consumă rapid resursele disponibile.
Dimpotrivă, metoda noastră propusă de inginerie a contextului elimină această propagare masivă de tokeni. Deoarece distilările de cunoștințe, chiar când sunt agregate, sunt neglijabile în comparație cu volumul de tokeni colectați de pe web, consumul poate fi modelat printr-o serie liniară. Comparând cele două abordări, tokenii sunt economisiți pe un factor semnificativ. Prin această metodologie, am reușit să reducem consumul de tokeni cu 66% (în comparație cu Open Deep Research), atingând totodată State of the Art (SOTA) pe DeepResearch Bench – o intersecție perfectă între calitate și eficiență.
Productionizarea Agenților – O Provocare Continuă
Construirea agenților de calitate producție este un act de echilibru precar. Am optat pentru autonomie pentru a maximiza performanța și calitatea, respectând totuși cerințe stricte de latență, cost și fiabilitate.
Inginerie cu Nedeterminism
LLM-urile sunt inerent nedeterministice. Am descoperit că oferirea lor libertății de a raționa și itera, dar îngrădite de limite de siguranță (guard-railed), produce cele mai puternice rezultate. Totuși, autonomia greșit gestionată poate duce la comportamente neașteptate. Instrumentele pot fi apelate incorect, modelele se pot bloca pe un subiect secundar, iar tiparele de raționament se pot rupe. Nicio singură măsură de siguranță nu poate captura toate aceste probleme. Este necesară o schimbare de mentalitate inginerească: tratarea modurilor de eșec ca considerații de design centrale, nu ca gânduri ulterioare.
Instrumentarea Optimă – Mai Puțin este Mai Mult
Din experiența noastră, este mult mai bine să expui agentului un set mic și esențial de instrumente, rather than one large and complex. Am fost tentați să supra-ingineriem adăugând multe instrumente care păreau utile în teorie, dar în practică, aceasta a creat noi moduri de eșec și a făcut mai dificilă pentru LLM-uri alegerea consistentă a instrumentului corect.
Evaluări (Evals) și Direcția Dezvoltării
Am folosit evaluările pentru a steer procesul nostru de dezvoltare, dar recunoaștem și scurtăturile lor. Evaluările de tip „LLM-as-a-judge” sunt greu de încredințat: modelele actuale sunt nedeterministice, greu de interpretat în raționamentul lor și pot deveni gâturi de îmbulare. În loc să optimizăm pentru scoruri de benchmark, am optimizat pentru feedback direcțional. Întrebarea centrală a fost mereu: această schimbare a făcut agentul mai fiabil și mai util în practică? Intuiția și monitorizarea atentă a urmelor de execuție ale agentului au oferit constant feedback de calitate superioară comparativ cu orice scor singular de evaluare. Pentru sistemele de producție, îmbunătățiri precum reducerea utilizării tokenilor, fiabilitatea crescută și latența redusă sunt mult mai valoroase decât o creștere marginală a unui scor de evaluare.
Construirea Deep Research: Cum am atins performanța de ultimă generație (State of the Art)