Fostul insider de la Facebook care construiește moderarea conținutului pentru era AI

Când Brett Levenson a plecat de la Apple în 2019 pentru a conduce departamentul de integritate al afacerilor la Facebook, gigantul rețelelor sociale se afla în plină criză Cambridge Analytica. La acea vreme, credea că poate rezolva simplu problema moderării conținutului de la Facebook cu o tehnologie mai bună.

Problema, a realizat rapid, era mult mai profundă decât tehnologia. Revizorii umani trebuiau să memoreze un document de politică de 40 de pagini care fusese tradus automat în limba lor, a declarat acesta. Apoi aveau aproximativ 30 de secunde pentru fiecare conținut semnalat pentru a decide nu doar dacă acel conținut încălca regulile, ci ce să facă în privința lui: să îl blocheze, să interzică utilizatorul, să limiteze răspândirea. Aceste decizii rapide erau doar „cu puțin peste 50% corecte", potrivit lui Levenson. „Era cam ca aruncatul unei monede dacă revizorii umani puteau aborda corect politicile, și asta multe zile după ce prejudiciul se produsese oricum", a declarat Levenson pentru TechCrunch.

Acest tip de abordare întârziată și reactivă nu este sustenabilă într-o lume a actori adversari agili și bine finanțați. Ascensiunea chatbot-urilor AI a agravat problema, deoarece eșecurile în moderarea conținutului au dus la o serie de incidente de mare rezonanță, precum chatbots care oferă adolescentilor îndrumări despre autovătămare sau imagini generate de AI care evită filtrele de siguranță.

Frustrarea lui Levenson l-a condus la ideea de „politică ca cod" — o modalitate de a transforma documentele statice de politică în logică executabilă și actualizabilă, strâns cuplată la aplicare. Această perspectivă a condus la fondarea Moonbounce, care a anunțat vineri că a strâns 12 milioane de dolari în finanțare, exclusiv pentru TechCrunch. Runda a fost co-condusă de Amplify Partners și StepStone Group.

Moonbounce lucrează cu companiile pentru a oferi un strat suplimentar de siguranță oriunde este generat conținut, fie de un utilizator, fie de AI. Compania și-a antrenat propriul model lingvistic mare pentru a examina documentele de politică ale unui client, evalua conținutul în timp real, oferi un răspuns în 300 de milisecunde sau mai puțin și lua măsuri. În funcție de preferința clientului, acea acțiune ar putea însemna sistemul Moonbounce încetinind distribuția în timp ce conținutul așteaptă o revizuire umană mai târziu, sau ar putea bloca conținutul cu risc ridicat pe loc.

Astăzi, Moonbounce deservește trei verticale principale: platforme care se ocupă de conținut generat de utilizatori, precum aplicațiile de întâlniri; companii AI care construiesc personaje sau însoțitori; și generatoare de imagini AI.

Moonbounce susține peste 40 de milioane de revizuiri zilnice și deservește peste 100 de milioane de utilizatori activi zilnic pe platformă, a declarat Levenson. Clienții includ startup-ul AI companion Channel AI, compania de generare de imagini și video Civitai și platformele de roleplay cu personaje Dippy AI și Moescape.

„Siguranța poate fi de fapt un beneficiu al produsului", a declarat Levenson pentru TechCrunch. „Pur și simplu nu a fost niciodată, pentru că a fost întotdeauna un lucru care se întâmplă mai târziu, nu un lucru pe care îl poți construi efectiv în produsul tău. Și vedem că clienții noștri găsesc modalități cu adevărat interesante și inovatoare de a folosi tehnologia noastră pentru a face siguranța un factor de diferențiere și parte a poveștii produsului lor."

Șeful de încredere și siguranță de la Tinder a explicat recent cum platforma de întâlniri folosește aceste tipuri de servicii alimentate de LLM pentru a atinge o îmbunătățire de 10 ori în acuratețea detecțiilor. „Moderarea conținutului a fost întotdeauna o problemă care a afectat platformele online mari, dar acum, cu LLM-urile în centrul fiecărei aplicații, această provocare este și mai descurajantă", a declarat Lenny Pruss, partener general la Amplify Partners, într-un comunicat. „Am investit în Moonbounce pentru că ne imaginăm o lume în care gardurile de protecție obiective și în timp real devin coloana vertebrală care permite fiecărei aplicații mediate de AI."

Companiile AI se confruntă cu presiuni legale și reputaționale crescânde după ce chatbots au fost acuzați că împing adolescentii și utilizatorii vulnerabili spre sinucidere, iar generatoarele de imagini precum Grok de la xAI au fost folosite pentru a crea imagini nud fără consimțământ. În mod evident, gardurile de protecție interne eșuează, și devine o chestiune de răspundere.

Levenson a declarat că companiile AI se uită tot mai mult în afara propriilor pereți pentru ajutor în consolidarea infrastructurii de siguranță.

„Suntem o terță parte care stăm între utilizator și chatbot, deci sistemul nostru nu este inundat de context așa cum este chat-ul în sine", a declarat Levenson. „Chatbot-ul în sine trebuie să-și amintească, potențial, zeci de mii de token-uri care au venit înainte... Noi ne ocupăm exclusiv de aplicarea regulilor în timp real."

Levenson conduce compania de 12 persoane împreună cu fostul său coleg de la Apple, Ash Bhardwaj, care anterior a construit infrastructură cloud și AI la scară largă în cadrul ofertei de bază a producătorului iPhone.

Următorul lor focus este o capabilitate numită „ghidare iterativă", dezvoltată ca răspuns la cazuri precum sinuciderea din 2024 a unui băiat de 14 ani din Florida care a devenit obsedat de un chatbot Character AI. Mai degrabă decât un refuz blunt când apar subiecte dăunătoare, sistemul ar intercepta conversația și ar redirectiona-o, modificând prompturile în timp real pentru a împinge chatbot-ul către un răspuns mai activ de sprijin.

„Sperăm să putem adăuga la trusa noastră de acțiuni capacitatea de a ghida chatbot-ul într-o direcție mai bună, pentru a lua în esență promptul utilizatorului și a-l modifica pentru a forța chatbot-ul să nu fie doar un ascultător empatic, ci un ascultător util în acele situații", a declarat Levenson.

Când a fost întrebat dacă strategia sa de ieșire implica o achiziție de către o companie precum Meta, aducându-și munca în moderarea conținutului la cercul complet, Levenson a declarat că recunoaște cât de bine s-ar potrivi Moonbounce în stiva fostei sale companii, precum și propriile sale obligații fiduciare ca CEO.

„Investitorii mei m-ar ucide pentru că spun asta, dar aș urî să văd pe cineva cumpărându-ne și apoi restrictționând tehnologia", a spus el. „Gen, 'Okay, asta e a noastră acum, și nimeni altcineva nu poate beneficia de ea.'"

Levenson nu este singurul care încearcă să rezolve această problemă. Peisajul moderării conținutului în era AI este în plină transformare, iar companii precum Moonbounce apar ca răspuns direct la lacunele din sistemele tradiționale. Provocarea fundamentală rămâne echilibrul dintre libertatea de exprimare și siguranța utilizatorilor, un echilibru care devine din ce în ce mai complex pe măsură ce AI generativ devine omnipotent.

Pentru Levenson, aceasta nu este doar o afacere, ci o misiune personală. Experiența sa de la Facebook i-a arătat că tehnologia singură nu poate rezolva probleme care sunt în rădăcină umane și sistemice. Dar combinația dintre AI avansat și o filozofie de „politică ca cod" ar putea oferi o cale de urmat pentru o industrie care încă își caută identitatea într-o lume a conținutului generat de mașini.

„Vedem o lume în care siguranța nu mai este un obstacol sau un cost, ci un avantaj competitiv real", a declarat Levenson. „Companiile care înțeleg asta vor fi cele care vor prospera în era AI."

Filtrează articolele