Filtrează articolele

AI

SAIR: Revoluționarea cercetării farmaceutice prin inteligență artificială și inteligență structurală

SAIR: Revoluționarea cercetării farmaceutice prin inteligență artificială și inteligență structurală
În era transformării digitale, industria farmaceutică traversează una dintre cele mai profunde metamorfoze din istoria sa modernă. Lansarea datasetului SAIR (Structural AI Resources) marchează un punct de inflexiune major în modul în care companiile farmaceutice, biotehnologice și cele din sectorul tech-bio abordează descoperirea și dezvoltarea de noi medicamente. Acest proiect, care a fost publicat la data de 2 septembrie 2025, nu este doar o simplă colecție de date, ci un activ strategic menit să pună capăt unei breșe istorice în designul asistat de inteligență artificială al medicamentelor.

O nouă paradigmă în cercetarea și dezvoltare

SAIR se prezintă ca un dataset open-source, disponibil publicului în mod gratuit sub o licență permisivă CC BY 4.0. Această decizie de accesibilitate face ca resursa să fie imediat utilizabilă atât în conductele de cercetare și dezvoltare (R&D) comerciale, cât și în cele non-comerciale. Mai mult decât o simplă arhivă de informații, SAIR funcționează ca un pod strategic care conectează abisul de date existent în designul medicamentelor bazat pe AI. Misiunea sa este clară: să împuternicească liderii din industriile farmaceutică, biotehnologică și tehnologică să accelereze procesele de R&D, să extindă orizonturile țintelor terapeutice și să supra-alimenteze modelele de inteligență artificială.

Obiectivul final este transferarea unei părți semnificative a procesului costisitor și îndelungat de design și optimizare a medicamentelor din laboratoarele umede (wet lab) în mediul computational (in silico). Acest transfer tehnologic promite timpi de reacție mult mai scurți în faza hit-to-lead, o optimizare a moleculelor lider mai eficientă, reducerea numărului de proiecte care ajung în fundătură și o cale mult mai previzibilă de la ideea inițială până la candidatul clinic.

Depășirea barierelor tradiționale ale inteligenței artificiale

De zeci de ani, comunitatea științifică a visat la o inteligență artificială capabilă să identifice sau să proiecteze un compus potenț, netoxic și eficace pornind de la un simplu prompt care descrie calea moleculară a bolii. Visul comprimării anilor de R&D farmaceutic în câteva minute de procesare pe calculator a fost însă sistematic blocat de limitările tehnologice. Capacitatea AI-ului de a prezice proprietăți critice ale medicamentelor – precum potența sau toxicitatea – bazându-se exclusiv pe structura moleculară a reprezentat o provocare majoră.

În plus, descoperirea tradițională bazată pe structură a fost adesea încetinită în fazele incipiente de determinarea structurilor 3D fiabile. Este cunoscut faptul că structura moleculară tridimensională dictează funcționalitatea, dinamica și interacțiunile unei molecule, aspect crucial atunci când un candidat medicament trebuie să se lege de o țintă proteică umană. Metodele experimentale clasice, precum cristalografia cu raze X și criomicroscopia electronică (cryo-EM), necesită investiții masive de timp și bani, iar multe ținte terapeutice promițătoare încă nu dispun de informații structurale validate experimental.

Deși simulațiile computerizate au redus bariera de intrare pentru obținerea structurilor 3D și predicția afinității de legare, generațiile anterioare de algoritmi – cum ar fi AlphaFold pentru plierea proteinelor și Vina pentru andocare (docking) – au prezentat o limitare fundamentală: ele prezic doar instantanee statice ale moleculelor și proteinelor. În realitate, aceste entități sunt inerent dinamice, își schimbă forma și conformația în timp. SAIR rezolvă această constrângere majoră prin compilarea a peste 1 milion de perechi proteine-ligand pliate computațional (co-folded), generând în final 5,24 milioane de complecși 3D distinși. Fiecare structură este asociată cu o măsurătoare IC₅₀ (concentrația inhibitorie) curată din surse precum ChEMBL sau BindingDB, oferind pentru prima dată o legătură scalabilă între structurile 3D de înaltă calitate și potența medicamentelor.

Performanță computatională la limita tehnologiei

Crearea datasetului SAIR a reprezentat o performanță remarcabilă de inginerie software și hardware, un adevărat tur de forță al computingului AI de înaltă performanță. Generarea datelor a necesitat peste 130.000 de ore-GPU, utilizând modelul de inteligență artificială Boltz1 pe un cluster de 760 procesoare NVIDIA H100, toate accesate prin platforma NVIDIA DGX Cloud via Google Cloud Platform.

Colaborarea strânsă între echipele de inginerie NVIDIA AI Accelerator și SandboxAQ a fost esențială pentru optimizarea infrastructurii și a volumului de muncă. Prin capturarea unor metrici extrem de granulare la nivel de noduri, operatori, scheduler și GPU, echipele au reușit să identifice blocajele și să optimizeze configurațiile pentru a atinge un randament maxim. Rezultatul a fost o utilizare a calculului GPU de peste 95%, o cifră impresionantă în domeniul HPC (High-Performance Computing). Această eficiență a permis crearea SAIR în doar trei săptămâni, comparativ cu estimarea inițială de trei luni – o accelerare de peste 4 ori a procesului de producție.

Scalabilitate, acuratețe și validare riguroasă

Generarea unui volum masiv de date este doar jumătate din ecuație; încrederea în calitatea acestora este la fel de importantă. În cazul SAIR, fiecare complex prezis a suferit o validare riguroasă folosind PoseBusters, un instrument standard în industrie, open-source, utilizat pentru benchmarking-ul AI-ului structural în descoperirea medicamentelor. Acest instrument verifică „sanitatea” chimică și plauzibilitatea fizică a structurilor. Rezultatul a fost remarcabil: 97% dintre structurile din SAIR au trecut toate testele de validare.

Pe lângă validarea cu PoseBusters, echipa SAIR a comparat cele mai performante metode de predicție a afinității, inclusiv funcții de scor empirice, rețele neuronale convoluționale 3D (3D CNNs) și rețele neuronale grafice (GNNs), folosind structurile sintetice și valorile IC₅₀ experimentale din dataset. Modelele de afinitate bazate pe deep learning, precum Boltz-2, antrenate pe date similare, au demonstrat o accelerare de până la 1.000 de ori comparativ cu abordările tradiționale bazate pe primele principii fizice.

Iluminarea „proteomului întunecat”

Una dintre cele mai mari provocări persistente în descoperirea medicamentelor este așa-numitul „proteom întunecat” – proteine relevante pentru boli pentru care nu există structuri experimentale. SAIR luminează aceste regiuni neexplorate oferind complecși prezisi de AI, credibili, acolo unde datele experimentale sunt inexistente sau rare. De exemplu, peste 40% dintre proteinele din datasetul SAIR nu au nicio structură disponibilă în Protein Data Bank (PDB), cu sau fără ligand.

Această resursă abordează una dintre cele mai mari probleme ale modelelor AI actuale: generalizarea scăzută cauzată de lipsa datelor. Cu SAIR, oamenii de știință pot explora acum ținte care au fost considerate anterior „nedruggable” (care nu pot fi țintite cu medicamente), având la dispoziție ipoteze structurale care să ghideze screening-ul virtual și optimizarea moleculelor lider. Mai mult, lățimea trans-țintă a datasetului permite descoperirea modelelor de polifarmacologie și elucidarea modului în care o singură moleculă interacționează cu multiple proteine, oferind o înțelegere mai profundă a profilului compușilor înainte de a începe orice muncă de laborator.

Accesul și utilizarea resursei

SAIR este disponibil gratuit pe platforma Hugging Face, iar accesul este simplu și direct, necesitând doar câțiva pași de bază pentru autentificare și descărcare. Procesul implică instalarea unor pachete esențiale (huggingface_hub, pandas, pyarrow), autentificarea în platformă și încărcarea tabelului principal (sair.parquet) într-un DataFrame pentru analiză. De asemenea, utilizatorii au opțiunea de a lista și descărca arhive specifice de structuri, fiecare având dimensiuni considerabile (aproximativ 10 GB), în funcție de nevoile specifice de cercetare.

Viitorul descoperirii medicamentelor este indiscutabil condus de date, accelerat de AI și fundamentat pe informații structurale scalabile și de înaltă calitate. Deși încă nu dispunem de o inteligență artificială capabilă să proiecteze terapii eficiente doar dintr-un prompt descriptiv, SAIR aduce cercetătorii cu un pas mai aproape de acest obiectiv, având potențialul de a reduce semnificativ durata ciclurilor de R&D.

Acest site folosește cookie-uri pentru a-ți oferi o experiență de navigare cât mai plăcută. Continuarea navigării implică acceptarea acestora.