Arc Virtual Cell Challenge: O inițiere în modelarea celulară virtuală

În era actuală, caracterizată de progrese exponentiale în domeniul inteligenței artificiale, granițele dintre biologia computațională și cercetarea medicală tradițională devin din ce în ce mai difuze. Arc Virtual Cell Challenge reprezintă unul dintre cele mai ambițioase proiecte în acest sens, având ca scop fundamental antrenarea unui model capabil să prezică efectele asupra unei celule atunci când un anumit gen este redus la tăcere prin tehnologia CRISPR. Activitățile desfășurate în lumea atomilor – adică experimentele biologice tradiționale – sunt notoriu de scumpe, laborioase și predispuse la erori. Imaginați-vă posibilitatea de a testa mii de candidați pentru un medicament fără a atinge vreodată o cutie Petri. Acesta este elul suprem al provocării celulei virtuale: crearea unui model, cel mai probabil o rețea neuronală complexă, capabilă să simuleze cu precizie ce se întâmplă la nivel celular atunci când modificăm anumiți parametri biologici. Având în vedere faptul că strângerea buclei de feedback este adesea cea mai eficientă metodă de a accelera progresul științific, un model capabil să realizeze aceste predicții cu acuratețe ar avea un impact revoluționar asupra descoperirii de medicamente și a înțelegerii mecanismelor celulare.

Pentru a antrena această rețea neuronală sofisticată, este necesară o cantitate substanțială de date. În cadrul acestei provocări, Arc a curatoriat un set de date impresionant, constând în aproximativ 300.000 de profiluri de secvențiere ARN cu celulă unică. Înainte de a aprofunda detaliile tehnice, poate fi util să revedem Dogma Centrală a biologiei moleculare, un concept fundamental care dictează fluxul informației genetice. Acest eseu se va baza pe acest concept pentru a oferi cunoștințele biologice minimale necesare pentru a înțelege complexitatea provocării.

Datele de antrenament și structura lor

Setul de antrenament este compus dintr-o matrice rară (sparse matrix) și metadate asociate. Mai specific, avem la dispoziție 220.000 de celule, iar pentru fiecare celulă deținem un transcriptom. Acest transcriptom este reprezentat ca un vector rar, unde fiecare intrare reprezintă numărul brut de molecule ARN (transcripți) pe care genul corespunzător (coloana noastră) le codifică. Dintre aceste 220.000 de celule, aproximativ 38.000 sunt neperturbate, ceea ce înseamnă că niciun gen nu a fost redus la tăcere folosind CRISPR. Aceste celule de control sunt cruciale pentru procesul de învățare, așa cum vom vedea în curând. Pentru a înțelege mai concret setul de date, putem selecta un gen specific, TMSB4X (cel mai frecvent gen redus la tăcere în setul de date), și putem compara numărul de molecule ARN detectate într-o celulă de control versus o celulă perturbată. Observația directă arată că celula cu genul TMSB4X redus la tăcere are un număr semnificativ redus de transcripți comparativ cu celulele de control, validând eficacitatea perturbării.

Modelarea provocării și efectul observatorului

Cei mai perspicace dintre cititori s-ar putea întreba de ce nu se măsoară pur și simplu numărul moleculelor ARN înainte și după reducerea la tăcere a genului – de ce sunt necesare celulele de control? Din păcate, citirea transcriptomului distruge celula, o problemă care amintește de efectul observatorului din fizica cuantică. Această incapacitate de a măsura starea celulei înainte și după introduce numeroase probleme metodologice, forțându-ne să folosim o populație de celule bazale (de control, neperturbate) ca punct de referință. Celulele de control și cele perturbate nu sunt complet omogene nici măcar înainte de perturbare. Acest lucru înseamnă că trebuie să separăm semnalul nostru real – perturbarea – de zgomotul indus de eterogenitatea populației celulare. Ecuația care modelează acest proces, X^p∼T^p(Dbasal)+H(Dbasal)+ε, reflectă complexitatea extragerii semnalului din zgomot.

STATE: Linia de bază de la Arc

Înaintea lansării provocării virtuale, Arc a lansat STATE, propria încercare de a rezolva provocarea folosind o pereche de modele bazate pe arhitectura transformer. Acest lucru servește ca o linie de bază puternică pentru participanți. STATE constă în două modele: Modelul de Tranziție a Stării (ST) și Modelul de Încorporare a Stării (SE). SE este conceput pentru a produce încorporări semantice bogate ale celulelor, în efortul de a îmbunătăți generalizarea între diferite tipuri de celule. ST este „simulatorul de celule”, care primește fie transcriptomul unei celule de control, fie o încorporare a unei celule produsă de SE, împreună cu un vector codificat „one-hot” reprezentând perturbarea de interes, și produce transcriptomul perturbat.

Modelul de Tranziție a Stării este un transformer relativ simplu, cu o coloană vertebrală Llama, care operează pe principiul potrivirii covariate. Folosind un set de celule de control potrivite cu celule țintă ar trebui să asiste modelul în a discerne efectul real al perturbării noastre intenționate. Atât tensorul de control, cât și cel de perturbare sunt alimentați prin codificatoare independente, care sunt simplu rețele MLP de 4 straturi cu activări GELU. Modelul este antrenat folosind Maximum Mean Discrepancy (Discrepanța Medie Maximă), învățând să minimizeze diferența dintre două distribuții de probabilitate.

O digresiune biologică: Splicingul Alternativ

Modelul de Încorporare a Stării (SE) este un autoencoder de tip BERT. Pentru a înțelege mai profund cum funcționează acesta, trebuie să facem o scurtă digresiune pentru a stabili câteva concepte biologice fundamentale. Un gen constă din exoni (secțiuni care codifică proteine) și introni (secțiuni care nu codifică proteine). ADN-ul este mai întâi transcris în ARNm premesager (pre-mRNA). Apoi, celula efectuează ceea ce se numește Splicing Alternativ. Acest proces poate fi gândit ca un „alege exoni”, tăind toți intronii. Puteți privi genul ca pe un manual IKEA pentru a construi o masă. Totuși, s-ar putea construi și o masă cu trei picioare sau un raft ciudat, lăsând unele părți afară. Aceste obiecte diferite sunt analoage cu izoformele proteice – proteine codificate de același gen, dar cu funcții ușor diferite.

Întoarcerea la model: Crearea încorporărilor

Cu această înțelegere biologică, putem trece la modul în care funcționează modelul SE. Obiectivul nostru principal pentru SE este de a crea încorporări celulare semnificative. Pentru a face acest lucru, trebuie mai întâi să creăm încorporări de gene semnificative. Pentru a produce o singură încorporare de gen, obținem mai întâi secvența de aminoacizi a tuturor izoformelor proteice codificate de gena în cauză. Apoi, alimentăm aceste secvențe către ESM2, un Model de Limbaj Proteic cu 15 miliarde de parametri de la FAIR. ESM produce o încorporare per aminoacid, pe care o mediem pentru a obține o încorporare de „transcript”. Apoi, mediem aceste încorporări de izoforme proteice pentru a obține încorporarea finală a genei. Această abordare permite modelului să capteze nu doar prezența unei gene, ci și funcția sa biologică potențială.

Următorul pas este proiecția acestor încorporări de gene în dimensiunea modelului folosind un codificator învățat. Arc reprezintă fiecare celulă prin primele 2048 gene, clasificate după nivelul de expresie log fold. Construim apoi o „propoziție celulară” din cele 2048 de încorporări de gene, adăugând un token [CLS] și un token [DS]. Token-ul [CLS] este utilizat ca „încorporare a celulei”, similar cu arhitectura BERT, în timp ce token-ul [DS] este utilizat pentru a „dezîncurca efectele specifice setului de date”. Deși genele sunt sortate, Arc impune magnitudinea expresiei fiecărei gene prin încorporarea transcriptomului într-un mod analog cu încorporările poziționale, folosind un algoritm de „soft binning” pentru a modula intensitatea expresiei.

Evaluările: Măsurarea succesului

Înțelegerea modului în care contribuția va fi evaluată este cheia succesului. Arc a ales 3 metrici de evaluare: Discriminarea Perturbării, Expresia Diferențială și Eroarea Medie Absolută. Discriminarea Perturbării evaluează capacitatea modelului de a descoperi diferențele relative dintre perturbări. Se calculează distanța Manhattan pentru toate transcriptomele perturbate măsurate în setul de test și se clasifică locul în care aterizează adevărul fundamental. Un scor de 0 ar fi o potrivire perfectă. Expresia Diferențială evaluează ce fracțiune din genele cu adevărat afectate a identificat corect modelul ca fiind semnificativ afectate. Se folosește testul Wilcoxon rank-sum cu corecție pentru egalități, urmat de procedura Benjamini-Hochberg pentru a modula valorile p, având în vedere că, cu 20.000 de gene, ne așteptăm la multe fals pozitive. Această metodologie riguroasă asigură că modelele nu doar prezic schimbări, ci identifică corect semnalele biologice semnificative în mijlocul zgomotului de date.

Filtrează articolele