Physical Intelligence, startup-ul de robotică cu sediul în San Francisco, înființat acum doi ani, care a devenit discret una dintre cele mai atent monitorizate companii de inteligență artificială din Bay Area, a publicat joi o nouă cercetare care demonstrează că cel mai recent model al său poate direciona robotii să efectueze sarcini pentru care nu au fost niciodată antrenați în mod explicit — o capacitate pe care chiar cercetătorii companiei admit că i-a luat prin surprindere.
Noul model, denumit π0.7, reprezintă ceea ce compania descrie ca un pas timpuriu, dar semnificativ, către obiectivul mult căutat al unui creier robotic de uz general: unul care poate fi îndreptat către o sarcină necunoscută, ghidat prin aceasta în limbaj simplu și, în cele din urmă, să o ducă la bun sfârșit. Dacă aceste constatări rezistă scrutiny-ului științific, ele sugerează că AI-ul robotic ar putea apropia de un punct de inflexiune similar cu cel pe care domeniul l-a experimentat cu modelele lingvistice mari — unde capacitățile încep să se compună în moduri care depășesc ceea ce datele subiacente par să prezică.
Dar mai întâi: afirmația centrală din lucrare este generalizarea compozițională — abilitatea de a combina abilități învățate în contexte diferite pentru a rezolva probleme pe care modelul nu le-a întâlnit niciodată. Până acum, abordarea standard pentru antrenarea robotilor a fost essentially memorare mecanică — colectarea datelor pentru o sarcină specifică, antrenarea unui model specialist pe acele date, apoi repetarea pentru fiecare sarcină nouă. π0.7, conform Physical Intelligence, rupe acest tipar.
„Odată ce depășește acel prag în care trece de la a face doar exact lucrurile pentru care colectezi datele la remixarea efectivă a lucrurilor în moduri noi," spune Sergey Levine, co-fondator al Physical Intelligence și profesor la UC Berkeley specializat în AI pentru robotică, „capacitățile cresc mai mult decât liniar cu cantitatea de date. Această proprietate de scalare mult mai favorabilă este ceva ce am văzut în alte domenii, precum limbajul și viziunea."
Cea mai izbitoare demonstrație din lucrare implică un air fryer pe care modelul practic nu îl văzuse niciodată în antrenament. Când echipa de cercetare a investigat, au descoperit doar două episoade relevante în întregul set de date de antrenament: unul în care un alt robot doar împingea air fryer-ul închis, și unul dintr-un set de date open source unde un alt robot plasa o sticlă de plastic în interiorul unuia, la instrucțiunile cuiva. Modelul sintetizase într-un fel acele fragmente, împreună cu date de pre-antrenament mai ample de pe web, într-o înțelegere funcțională a modului în care funcționează aparatul.
„Este foarte greu să urmărești de unde vine cunoașterea sau unde va reuși sau eșua," spune Lucy Shi, cercetător la Physical Intelligence și student doctorand în informatică la Stanford. Totuși, fără niciun îndrumare, modelul a făcut o încercare acceptabilă de a folosi aparatul pentru a găti un cartof dulce. Cu instrucțiuni verbale pas cu pas — essentially, un om care ghidează robotul prin sarcină în modul în care ai putea explica ceva unui nou angajat — a performat cu succes.
Această capacitate de coaching contează deoarece sugerează că robotii ar putea fi desfășurați în medii noi și îmbunătățiți în timp real fără colectare suplimentară de date sau re-antrenarea modelului.
Deci ce înseamnă toate acestea? Cercetătorii nu sunt timizi în privința limitărilor modelului și sunt atenți să nu se avânte prea mult. În cel puțin un caz, ei indică cu degetul direct propria echipă.
„Uneori modul de eșec nu este pe robot sau pe model," spune Shi. „Este pe noi. Nu suntem buni la prompt engineering." Ea descrie un experiment timpuriu cu air fryer care a produs o rată de succes de 5%. După ce a petrecut aproximativ o jumătate de oră rafinând modul în care sarcina a fost explicată modelului, aceasta a sărit la 95%, spune ea.
Modelul nu este încă capabil să execute sarcini complexe multi-pas autonom dintr-o singură comandă de nivel înalt.
„Nu poți să îi spui, 'Hei, fă-mi niște pâine prăjită'," spune Levine. „Dar dacă îl ghidezi — 'pentru prăjitorul de pâine, deschide această parte, apasă butonul acela, fă asta' — atunci de fapt tinde să funcționeze destul de bine."
Echipa a recunoscut, de asemenea, că benchmark-urile standardizate pentru robotică nu există cu adevărat, ceea ce face validarea externă a afirmațiilor lor dificilă. În schimb, compania a măsurat π0.7 împotriva propriilor sale modele anterioare de specialitate — sisteme construite special antrenate pe sarcini individuale — și a constatat că modelul generalist a corespuns performanței acestora pe o gamă de lucrări complexe, inclusiv prepararea cafelei, plierea rufelor și asamblarea cutiilor.
Ceea ce poate fi cel mai notabil despre cercetare — dacă iei cercetătorii la cuvânt — nu este nicio demonstrație singulară, ci gradul în care rezultatele i-au surprins, oameni a căror meserie este să știe exact ce se află în datele de antrenament și, prin urmare, ce ar trebui și nu ar trebui să poată face modelul.
„Experiența mea a fost întotdeauna că atunci când știu profund ce se află în date, pot cam ghici ce va putea face modelul," spune Ashwin Balakrishna, om de știință cercetător la Physical Intelligence. „Rareori sunt surprins. Dar ultimele câteva luni au fost prima dată când sunt genuin surprins. Am cumpărat doar un set de roți la întâmplare și am întrebat robotul, 'Hei, poți roti asta?' Și pur și simplu a funcționat."
Levine și-a amintit momentul în care cercetătorii au întâlnit pentru prima dată GPT-2 generând o poveste despre unicorni în Anzi. „De unde naiba a învățat despre unicorni în Peru?" spune el. „Asta e o combinație atât de ciudată. Și cred că vederea acestui lucru în robotică este cu adevărat specială."
Natural, criticii vor indica o asimetrie inconfortabilă aici: Modelele lingvistice au avut întregul internet pentru a învăța. Robotii nu au, și nicio cantitate de prompting ingenios nu închide complet acel decalaj. Dar când a fost întrebat unde se așteaptă la scepticism, Levine indică în altă parte.
„Critica care poate fi întotdeauna adusă oricărei demonstrații de generalizare robotică este că sarcinile sunt cam plictisitoare," spune el. „Robotul nu face un backflip." El respinge această încadrare, argumentând că distincția între o demonstrație impresionantă de robot și un sistem robotic care generalizează cu adevărat este chiar punctul. Generalizarea, sugerează el, va arăta întotdeauna mai puțin dramatic decât un stunt coregrafiat cu grijă — dar este considerabil mai util.
Lucrarea în sine folosește un limbaj de hedging atent pe tot parcursul său, descriind π0.7 ca arătând „semn timpurii" de generalizare și „demonstrații inițiale" ale unor capacități noi. Acestea sunt rezultate de cercetare, nu un produs desfășurat. Când a fost întrebat direct când un sistem bazat pe aceste constatări ar putea fi gata pentru desfășurare în lumea reală, Levine a refuzat să speculeze.
„Cred că există motive întemeiate să fii optimist și, cu siguranță, progresează mai rapid decât mă așteptam acum câțiva ani," spune el. „Dar este foarte greu pentru mine să răspund la această întrebare."
Physical Intelligence a strâns peste 1 miliard de dolari până în prezent și a fost cel mai recent evaluat la 5,6 miliarde de dolari. O parte semnificativă a entuziasmului investitorilor în jurul companiei provine de la Lachy Groom, co-fondator care a petrecut ani ca unul dintre cei mai respectati investitori angel din Silicon Valley — susținând Figma, Notion și Ramp, printre altele — înainte de a decide că Physical Intelligence era compania pe care o căuta. Acest pedigree a ajutat startup-ul să atragă capital instituțional serios, chiar dacă a refuzat să ofere investitorilor un calendar de comercializare. Compania se spune acum că ar fi în discuții pentru o nouă rundă care ar aproape dubla cifra de evaluare la 11 miliarde de dolari. Echipa a refuzat să comenteze.
Loizos relatează despre Silicon Valley de la sfârșitul anilor '90, când s-a alăturat revistei originale Red Herring. Anterior redactor șef pentru Silicon Valley la TechCrunch, a fost numită redactor șef și director general al TechCrunch în septembrie 2023. Este, de asemenea, fondatoarea StrictlyVC, un newsletter zilnic și serie de prelegeri achiziționat de Yahoo în august 2023 și operat acum ca sub-marcă a TechCrunch.
Physical Intelligence, startup-ul de robotică care a captat atenția Silicon Valley, susține că noul creier robotic poate învăța sarcini pe care nu le-a fost niciodată predat