De ce modelele AI se luptă să detecteze discursul de ură online?

Pe măsură ce Națiunile Unite marchează Ziua Internațională pentru Combaterea Discursului de Ură, Al Jazeera analizează cum gestionează inteligența artificială această problemă – și unde eșuează. Discursul de ură, care odinioară circula față în față, acum călătorește mai departe și mai rapid prin conturi anonime online, ascunse în spatele unui ecran. Secretarul General al ONU, Antonio Guterres, a avertizat că platformele sociale amplifică amenințarea. Cu inteligența artificială (AI) din ce în ce mai însărcinată să detecteze și să elimine discursul de ură online, Al Jazeera analizează unde aceste sisteme rămân în urmă față de judecata umană.

Conform ONU, discursul de ură acoperă orice comunicare – vorbită, scrisă sau comportamentală – care discriminează sau incită la violență împotriva unei persoane sau grupuri. ONU subliniază că discursul de ură vizează identitatea reală sau percepută a unei persoane, rasa, etnia, religia, genul, orientarea sexuală sau dizabilitatea. Și nu se limitează la cuvinte, ONU notând că poate lua și forma imaginilor, desenelor animate, gesturilor și chiar obiectelor.

Potrivit unui sondaj comun din 2023 realizat de compania de sondaje Ipsos și UNESCO, la care au participat 8.000 de persoane din 16 țări, peste două treimi dintre utilizatorii de internet au întâlnit discurs de ură online. Sondajul a mai arătat că 33% dintre respondenți consideră că persoanele LGBTQI se confruntă cu cele mai multe cazuri de discurs de ură, urmate de minoritățile etnice și rasiale (28%) și femei (18%).

Meta, care deține Facebook, a eliminat mai puține postări instigatoare la ură din 2023. În ultimul trimestru al anului 2025, compania a eliminat 1,3 milioane de postări de pe Instagram și 1,3 milioane de pe Facebook, comparativ cu 7,4 milioane eliminate de pe Instagram și 5,8 milioane de pe Facebook în trimestrul patru al anului 2024. Aceasta s-a întâmplat pe măsură ce compania s-a îndepărtat de detectarea proactivă a discursului de ură și s-a bazat mai mult pe raportările utilizatorilor. Pe de altă parte, TikTok a declarat că a eliminat 96,3% din tot discursul de ură și conținutul din trimestrul patru al anului 2025 înainte ca acesta să fie raportat.

Pentru a detecta și combate răspândirea discursului de ură online, companiile de social media au apelat din ce în ce mai mult la AI, folosind sisteme de moderare a conținutului bazate pe modele lingvistice mari (LLM-uri) care promit să automatizeze filtrarea conținutului pe volume uriașe de mesaje. În general, aceste sisteme folosesc seturi de date etichetate și modele lingvistice pre-antrenate pentru a detecta limbajul abuziv. Apoi aplică reguli sau praguri de scor pentru a decide dacă conținutul este instigator la ură sau încalcă politicile companiei.

Un studiu din 2025 realizat de cercetători de la Universitatea din Pennsylvania a constatat că aceste modele variază foarte mult în modul în care identifică și clasifică discursul de ură, cu inconsecvențe semnificative între sisteme și grupuri demografice, ridicând îngrijorări cu privire la părtinire și protecție inegală online. Studiul a evaluat șapte sisteme de moderare AI – inclusiv modele de la OpenAI, Anthropic, DeepSeek, Mistral și Google – și a găsit diferențe majore în modul în care identificau și notau discursul de ură pe categorii.

Un grafic din studiu arată cum diferite sisteme de moderare AI au notat severitatea discursului de ură care vizează aceleași grupuri pe o scară de la 0 la 1. Valorile mai mari indică faptul că modelul a considerat conținutul mai instigator la ură. Mistral Moderation Endpoint este adesea grupat foarte aproape de 1, ceea ce înseamnă că etichetează multe exemple ca fiind extrem de instigatoare la ură, indiferent de grupul țintă. OpenAI Moderation Endpoint tinde să producă scoruri mult mai mici pentru multe categorii, uneori mai puțin de jumătate din scorul atribuit de alte modele. După cum spun autorii studiului: „Dacă două sisteme produc rezultate diferite pentru aceeași bucată de conținut – semnalând-o ca discurs de ură într-un caz, dar nu în altul – subminează legitimitatea procesului de moderare.”

În timp ce sistemele AI sunt capabile să detecteze discursul explicit de ură – de exemplu, atunci când sunt folosite înjurături și insulte împotriva unui anumit grup – exemplele mai nuanțate sunt ratate de LLM-uri. „Un exemplu dificil este cazul discursului implicit de ură, care adesea nu este detectat ca atare deoarece nu conține nicio mențiune de insulte”, a declarat pentru Al Jazeera Arkaitz Zubiaga, profesor asociat la Queen Mary University of London și co-conducător al laboratorului de Științe Sociale ale Datelor al universității. „Acesta ar putea fi cazul unui mesaj cu aparență pozitivă, cum ar fi „Mi-ar plăcea să văd cât de grozavă ar fi lumea dacă…” urmat de un mesaj derogatoriu care denigrează un grup demografic. Sistemele AI se pot lupta să vadă ura în acele mesaje dacă se concentrează în schimb pe partea pozitivă a mesajului.”

Zubiaga adaugă că opusul este, de asemenea, adevărat, unde cuvinte aparent ofensatoare, care acum sunt încorporate în limbaj în scopuri mai afectuoase, sunt evidențiate ca discurs de ură. „Acesta este cazul limbajului recuperat, unde cuvinte cheie care sunt considerate istoric insulte sunt îmbrățișate și reutilizate de comunitățile pe care au fost folosite inițial pentru a le denigra, iar insultele sunt apoi folosite între membrii comunității marginalizate”, a spus el. „În timp ce aceste cazuri nu ar trebui semnalate ca instigatoare la ură, sistemele AI au tendința de a o face.”

De ce este important:

Înțelegerea limitelor AI în detectarea discursului de ură este crucială pentru protejarea grupurilor vulnerabile și pentru menținerea unui spațiu online sigur. Pe măsură ce platformele de social media se bazează tot mai mult pe automatizare, inconsecvențele și părtinirile din sistemele AI pot duce fie la cenzurarea excesivă a vorbirii legitime, fie la eșecul de a elimina conținutul dăunător. Acest lucru afectează în mod disproporționat comunitățile marginalizate și subminează încrederea în moderarea conținutului. Fără o supraveghere umană atentă și îmbunătățiri continue ale modelelor, riscul de a amplifica inegalitățile și de a permite răspândirea urii rămâne ridicat.

Filtrează articolele

De ce este important: