Subquadratic a dezvoltat un nou tip de LLM, numit SubQ, care promite să fie mai rapid, mai ieftin și să consume mult mai puțină energie decât orice alt model de pe piață. Mai mult, susține că poate procesa de până la 12 ori mai mult text simultan, permițând sarcini masive precum analizarea a sute de documente sau a unor baze întregi de cod. Și toate astea, chipurile, cu o performanță comparabilă cu giganții Google DeepMind, OpenAI și Anthropic la sarcini-cheie precum programarea.
Problema? Dovezile inițiale s-au rezumat la câteva scoruri autopublicate, iar modelul nu era disponibil pentru testare publică. „SubQ e fie cea mai mare descoperire de la Transformer încoace, fie e un AI-style Theranos”, a glumit Dan McAteer, inginer AI, pe X. Reacția generală a fost exact asta: un amestec de curiozitate și neîncredere.
O lună mai târziu, Subquadratic a făcut public mai multe informații, inclusiv rezultatele testelor independente realizate de Appen, o firmă terță specializată în evaluarea modelelor AI. „Ne așteptam la un scepticism sănătos”, spune Alex Whedon, cofondator și CTO. „Privind în urmă, publicarea benchmark-urilor terțe încă de la început ar fi prevenit mult din neîncredere. De aceea, acum avem grijă ca orice rezultat viitor să fie complet verificat înainte de lansare.”
Jeanine Sinanan-Singh, directoarea de cercetare AI generativă la Appen, confirmă: „Rezultatele au fost extraordinare. Am spus: «Uau, asta ar putea schimba regulile jocului», pentru că modelele se luptă cu viteza și ineficiența. Dar când ai rezultate șocante, nu e la fel de credibil când le spui tu însuți.”
Testele Appen par să susțină mare parte din afirmațiile Subquadratic. SubQ nu va înlocui modelele de top peste tot, dar pentru anumite sarcini oferă creșteri uriașe de viteză la o fracțiune din costul tipic. Pe termen lung, Subquadratic susține că descoperirea lor ar putea schimba fundamental modul în care sunt construite LLM-urile. „Sperăm să lansăm o nouă eră a eficienței”, spune Justin Dangel, CEO și cofondator. „Nu credem că cineva va mai construi pe baza transformatorilor în câțiva ani.”
Pentru a înțelege de ce afirmațiile lor contează, să descompunem cum funcționează majoritatea LLM-urilor. Mecanismul principal e un tip de rețea neurală numit transformer, care rulează un proces numit „atenție densă”. Când un transformer procesează un text, codifică fiecare cuvânt cu un număr, apoi înmulțește fiecare număr cu fiecare alt număr din acel text. De exemplu, un text de 10.000 de cuvinte generează aproape 50 de milioane de înmulțiri individuale. Pe măsură ce textul crește, numărul de calcule explodează – dublezi cuvintele, cvadruplezi calculele, o expansiune pătratică (de unde și numele companiei: subquadratic, adică sub-pătratic).
Soluția Subquadratic? Abandonarea atenției dense în favoarea „atenției rare” (sparse attention), care reduce drastic calculele. În loc să înmulțească fiecare token cu fiecare alt token, selectează doar unele perechi relevante. „Nu toate relațiile dintre cuvinte contează”, explică Whedon. „Când citești o carte, nu compari primul și al doilea cuvânt, primul și al treilea – e absurd.” Nu e prima încercare, dar abordările anterioare nu au reușit să egaleze performanța atenției dense. Subquadratic spune că a găsit soluția: selectează dinamic, în funcție de text, care perechi sunt importante.
„Istoric, majoritatea mecanismelor foloseau patternuri fixe (de ex. compară întotdeauna primul cuvânt cu al cincilea), ceea ce e limitant. Limba e prea sofisticată. Secretul nostru e selecția dinamică”, dezvăluie Whedon, fără a intra în detalii.
Rezultatele Appen sunt impresionante. La testul de viteză pură, SubQ a fost de 56 de ori mai rapid decât modelele care foloseau FlashAttention, o tehnică anterioară de atenție rară. La LiveCodeBench (probleme de programare competițională), SubQ a obținut 89,7%, comparabil cu modelele de top. Iar la testul „acul în carul cu fân” (găsirea unei informații specifice într-un set masiv de date), SubQ a atins 98% cu ferestre de context de 6 și 12 milioane de tokeni – „performanță aproape perfectă la scări la care puține modele sunt testate”, spune Appen.
Costurile sunt greu de verificat, dar Dangel susține că rularea modelului Opus 4.6 al Anthropic pe testul RULER 128 costă 2.600 de dolari, în timp ce SubQ costă doar 8 dolari. Modelul are o fereastră de context de până la 12 milioane de tokeni, față de 1 milion la majoritatea modelelor actuale. Într-o demonstrație, Whedon i-a cerut SubQ să raționeze pe baza a 400 de documente – a răspuns în câteva secunde. Perplexity, un motor de căutare bazat pe LLM, nu a reușit nici măcar să încarce toate documentele.
Cu toate acestea, rămân semne de întrebare. Subquadratic a reutilizat ponderile (weights) dintr-o versiune a modelului chinezesc open-source Qwen pentru a bootstrapla SubQ, în loc să-l antreneze de la zero. Asta e o practică comună, dar contrazice imaginea unei reinventări totale. „Poate că au construit ceva real și util, dar dovezile publice nu justifică încă afirmația puternică că au rezolvat blocajul atenției pătratice”, spune Will Depue, fost cercetător OpenAI.
Subquadratic oferă acces limitat, cu o listă de așteptare de zeci de mii de utilizatori și peste 500 de companii. Până când mai mulți oameni vor testa modelul, scepticismul rămâne justificat. Dar, pentru prima dată, există date independente care arată că o abordare alternativă la atenția densă ar putea funcționa la scară. Fie că e vorba de o revoluție sau de un nou capitol în eficiența AI, rămâne de văzut.
De ce este important:
Această descoperire, dacă se confirmă pe scară largă, ar putea reduce dramatic costurile energetice și financiare ale rulării LLM-urilor, permițându-le să fie utilizate în aplicații care necesită procesarea unor volume uriașe de date (analiză juridică, medicală, codare complexă) fără a consuma resurse exorbitante. Mai mult, ar deschide calea către modele mai eficiente, democratizând accesul la AI de ultimă generație pentru startup-uri și cercetători cu bugete reduse. Dacă Subquadratic reușește să-și demonstreze tehnologia, s-ar putea să nu mai vorbim doar despre transformatori, ci despre o nouă paradigmă în procesarea limbajului natural.