Construirea serverului MCP Hugging Face: O călătorie tehnică prin standardul de conectare a asistenților AI

În ultima lună, echipa Hugging Face a acumulat o experiență vastă în construirea unui server MCP (Model Context Protocol) util și eficient. Această articol detaliază parcursul nostru, provocările tehnice întâmpinate și deciziile arhitecturale luate pentru a oferi acces la ecosistemul Hugging Face prin acest nou standard emergent.

Introducere: MCP ca standard de conexiune cu lumea exterioară

Model Context Protocol (MCP) își îndeplinește promisiunea de a deveni standardul de facto pentru conectarea asistenților AI la lumea exterioară. Într-o eră în care modelele de limbaj mari (LLM) sunt din ce în ce mai capabile, limitarea lor majoră rămâne izolarea față de date și instrumente externe. MCP vine să rezolve această problemă, oferind un cadru unificat.

Pentru Hugging Face, oferirea accesului la Hub prin intermediul MCP a fost o alegere firească. Hub-ul găzduiește mii de modele, seturi de date și aplicații, iar facilitarea interacțiunii directe a agenților AI cu aceste resurse reprezintă un pas esențial în democratizarea inteligenței artificiale. Acest articol prezintă experiența noastră în dezvoltarea serverului MCP disponibil la hf.co/mcp.

Alegeri de design: Flexibilitate și simplitate

Comunitatea Hugging Face utilizează Hub-ul într-o multitudine de scopuri: de la cercetare academică și dezvoltare software, până la creație de conținut și prototipare rapidă. Obiectivul nostru principal a fost să permitem utilizatorilor să își personalizeze serverul în funcție de nevoile specifice, oferind în același timp acces simplu la mii de aplicații AI disponibile pe Spaces.

Această viziune a impus crearea unui server MCP dinamic, capabil să ajusteze „uneltele” (tools) disponibile utilizatorului „din mers” (on the fly). De asemenea, am prioritizat simplitatea accesului. Evitarea descărcărilor complicate și a configurațiilor locale laborioase a fost imperativă. Soluția a fost punerea la dispoziție a serverului prin intermediul unui URL simplu, accesibil remote.

Serverele Remote și opțiunile de transport

Construirea unui server MCP remote impune o decizie fundamentală: modul în care clienții se conectează la acesta. Protocolul MCP oferă mai multe opțiuni de transport, fiecare cu propriile compromisuri tehnice. Codul nostru open source suportă toate variantele, însă pentru producție am ales cea mai modernă abordare.

De la lansarea sa în noiembrie 2024, MCP a trecut printr-o evoluție rapidă, cu 3 revizii majore ale protocolului în doar 9 luni. Această dinamică a inclus înlocuirea transportului SSE (Server-Sent Events) cu Streamable HTTP, precum și introducerea și rafinarea mecanismelor de autorizare. Schimbările rapide creează provocări în compatibilitatea dintre clienți și servere.

Iată o sinteză a opțiunilor de transport:

1. STDIO (Standard Input/Output): Utilizat de obicei când serverul MCP rulează pe același computer cu clientul. Este ideal pentru accesul la resurse locale, cum ar fi fișierele, dar nu este potrivit pentru scenarii remote.
2. HTTP cu SSE: A fost standardul pentru conexiunile remote HTTP. Deși a fost marcat ca „deprecated” în versiunea din 26 martie 2025 a protocolului, este încă utilizat pe scară largă de clienții mai vechi.
3. Streamable HTTP: Reprezintă viitorul transportului remote HTTP. Oferă o flexibilitate superioară și opțiuni de implementare mai robuste comparativ cu SSE-ul pe care îl înlocuiește.

Atât STDIO, cât și HTTP cu SSE sunt bidirecționale în mod implicit, menținând o conexiune deschisă permanentă. Streamable HTTP aduce o abordare mai flexibilă, permițând serverelor să gestioneze fluxurile de date mai eficient.

Înțelegerea Streamable HTTP și a stării conexiunii

Dezvoltatorii de servere MCP se confruntă cu alegeri complexe atunci când configurează transportul Streamable HTTP. Un aspect critic este gestionarea stării (state) conexiunii. Serverul decide acest aspect atunci când clientul trimite cererea de inițializare:

Stateless (Fără stare): Fiecare cerere este independentă. Aceasta permite scalarea orizontală simplă; orice instanță a serverului poate gestiona orice cerere, fără a necesita afinitate de sesiune.

Stateful (Cu stare): Serverul menține contextul clientului. Necesită mecanisme de afinitate de sesiune sau stare partajată, dar permite reluarea conexiunilor întrerupte.

Un alt factor este modul de comunicare:

Direct Response: Răspunsul este trimis direct în fluxul cererii inițiale. Este metoda cu cel mai mic consum de resurse.

Server Push: Serverul poate iniția notificări oricând, necesitând menținerea unei conexiuni deschise.

Tabelul funcționalităților MCP ilustrează aceste diferențe. De exemplu, funcționalitățile precum „Tools”, „Prompts” și „Resources” pot funcționa atât în modul Direct Response, cât și Server Push. În schimb, „Sampling” și „Elicitation” (cereri inițiate de server) necesită o conexiune Stateful pentru a asocia răspunsurile corect folosind `mcp-session-id`.

Implementarea în producție: De ce am ales Stateless și Direct Response

Pentru lansarea oficială, echipa Hugging Face a optat pentru o configurație Streamable HTTP, Stateless, cu Direct Response. Această decizie a fost motivată strategic:

1. Gestionarea utilizatorilor: Pentru utilizatorii anonimi, oferim un set standard de unelte pentru navigarea Hub-ului și un generator de imagini. Pentru utilizatorii autentificați, starea constă în uneltele selectate și aplicațiile Gradio alese. Gestionați prin token-uri OAuth sau `HF_TOKEN`, acești utilizatori nu necesită menținerea unei stări persistente între cereri.
2. Eficiența resurselor: Configurația „Direct Response” minimizează overhead-ul infrastructurii. În prezent, niciuna dintre uneltele noastre nu necesită Sampling sau Elicitation în timpul execuției, deci nu este nevoie de complexitatea adițională a conexiunilor persistente.

Provocări practice: Notificările și experiența utilizatorului

Un aspect interesant discutat în articol este dificultatea implementării notificărilor în timp real pentru schimbarea listei de unelte (Tool List Change Notifications). Deși ar fi ideal ca utilizatorul să primească o notificare instantanee când își actualizează setările pe Hub, realitatea tehnică este complicată: clienții tind să mențină conexiunile deschise, dar inactive, iar canalele de notificare se închid adesea. Soluția pragmatică adoptată este refresh-ul listei de unelte de către client atunci când este necesar, o metodă mult mai simplă și mai puțin costisitoare pentru o implementare publică.

Experiența utilizatorului la nivel de URL a fost, de asemenea, un detaliu important. Inițial, accesarea URL-ului returna un JSON criptic. O contribuție comunitară a adăugat instrucțiuni prietenoase pentru utilizatorii care accesează link-ul din browser, îmbunătățind semnificativ UX-ul. Totuși, acest lucru a generat un volum neașteptat de trafic, deoarece anumite IDE-uri (precum VSCode) interpretau pagina web ca pe un endpoint valid și îl interogau repetat. Soluția a fost detectarea browserelor și returnarea paginii HTML doar în acele cazuri.

Concluzie și impact

Protocolul MCP evoluează rapid, iar integrarea Hugging Face Hub demonstrează potențialul imens al acestui standard. Prin suportul pentru Gradio Spaces, LLM-urile pot fi acum extinse cu ușurință folosind cele mai noi aplicații de Machine Learning. În prima săptămână din iulie 2025, serverul a înregistrat un trafic astonomător, cu 164 clienți diferiți, jumătate dintre aceștia folosind `mcp-remote` ca punte de conexiune.

Proiectul este open source, încurajând comunitatea să experimenteze cu diferitele opțiuni de transport și să contribuie la dezvoltarea viitoare a funcționalităților.