Ghid de codare pentru post-antrenamentul LLM cu TRL: de la Supervised Fine Tuning la DPO și GRPO Reasoning

În ultimii ani, modelele de limbaj de mari dimensiuni (LLM) au revoluționat domeniul inteligenței artificiale, iar tehnicile de post-antrenament (post-training) au devenit esențiale pentru a le ajusta performanțele. Unul dintre cele mai populare framework-uri pentru acest scop este TRL (Transformers Reinforcement Learning), o bibliotecă open-source care integrează metode de învățare prin întărire și optimizare directă a preferințelor. În acest ghid, vom explora pașii de la Supervised Fine Tuning (SFT) la Direct Preference Optimization (DPO) și Group Relative Policy Optimization (GRPO), oferind exemple practice de cod și explicații detaliate.

Ce este TRL și de ce este util?

TRL (Transformers Reinforcement Learning) este o extensie a bibliotecii Hugging Face Transformers, concepută pentru a facilita antrenarea modelelor de limbaj folosind tehnici de învățare prin întărire. Aceasta include implementări ale algoritmilor precum PPO (Proximal Policy Optimization), DPO și GRPO, permițând cercetătorilor și dezvoltatorilor să ajusteze modelele pre-antrenate pentru sarcini specifice, cum ar fi generarea de text controlată, alinierea la preferințele umane sau raționamentul complex.

1. Supervised Fine Tuning (SFT) – primul pas

Supervised Fine Tuning este procesul de ajustare a unui model pre-antrenat pe un set de date etichetat, de obicei pentru o sarcină downstream. În contextul LLM-urilor, SFT implică antrenarea modelului pe perechi (intrare, ieșire) pentru a învăța să genereze răspunsuri corecte. TRL oferă o clasă `SFTTrainer` care simplifică acest proces.

Exemplu de cod:
```python
from trl import SFTTrainer
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("gpt2")
tokenizer = AutoTokenizer.from_pretrained("gpt2")

trainer = SFTTrainer(
model=model,
tokenizer=tokenizer,
train_dataset=dataset,
max_seq_length=512,
)
trainer.train()
```

SFT este fundamentul pe care se construiesc tehnicile avansate. Fără un model bine ajustat prin SFT, metodele ulterioare de optimizare a preferințelor nu vor avea un punct de plecare solid.

2. Direct Preference Optimization (DPO) – alinierea fără recompensă explicită

DPO este o metodă care elimină necesitatea unui model de recompensă separat, optimizând direct politica modelului pe baza preferințelor umane. În loc să antrenezi un model de recompensă și apoi să folosești PPO, DPO folosește o funcție de pierdere care compară perechi de răspunsuri (preferat vs. nepreferat).

Cum funcționează în TRL:
```python
from trl import DPOTrainer

dpo_trainer = DPOTrainer(
model=model,
ref_model=ref_model, # modelul de referință (de obicei cel SFT)
tokenizer=tokenizer,
train_dataset=preference_dataset,
beta=0.1, # parametru de temperatură
)
dpo_trainer.train()
```

DPO este mai simplu și mai stabil decât PPO, deoarece nu necesită un critic sau un model de recompensă. Rezultatele sunt adesea comparabile sau chiar superioare, mai ales în sarcini de aliniere.

3. Group Relative Policy Optimization (GRPO) – raționament avansat

GRPO este o tehnică recentă, popularizată de modele precum DeepSeek-R1, care îmbunătățește capacitatea de raționament a LLM-urilor. Spre deosebire de DPO, GRPO grupează mostre și optimizează politica relativ la performanța grupului, nu la o recompensă absolută. TRL include suport experimental pentru GRPO.

Implementare simplificată:
```python
from trl import GRPOTrainer

grpo_trainer = GRPOTrainer(
model=model,
tokenizer=tokenizer,
train_dataset=reasoning_dataset,
group_size=8, # numărul de mostre per grup
reward_fn=reward_function, # funcție de recompensă (de ex., corectitudine)
)
grpo_trainer.train()
```

GRPO este ideal pentru sarcini care necesită raționament în mai mulți pași, cum ar fi problemele matematice sau logice. Prin compararea relativă a performanței în cadrul unui grup, modelul învață să genereze soluții mai bune.

Fluxul complet de post-antrenament

Un flux tipic începe cu SFT pe un set de date de instrucțiuni, urmat de DPO pentru alinierea la preferințe și, opțional, GRPO pentru raționament. Iată un exemplu integrat:

```python
# Pas 1: SFT
sft_trainer = SFTTrainer(model=model, tokenizer=tokenizer, train_dataset=instruction_data)
sft_trainer.train()
model.save_pretrained("./sft_model")

# Pas 2: DPO
ref_model = AutoModelForCausalLM.from_pretrained("./sft_model")
dpo_trainer = DPOTrainer(model=model, ref_model=ref_model, tokenizer=tokenizer, train_dataset=preference_data)
dpo_trainer.train()

# Pas 3: GRPO (opțional)
grpo_trainer = GRPOTrainer(model=model, tokenizer=tokenizer, train_dataset=reasoning_data, group_size=4)
grpo_trainer.train()
```

Considerații practice

Resurse hardware: Antrenarea LLM-urilor necesită GPU-uri cu memorie mare (cel puțin 24 GB pentru modele mici). Folosește `gradient_checkpointing` și `mixed_precision` pentru a reduce consumul.

Seturi de date: Pentru SFT, poți folosi seturi precum OpenAssistant sau Alpaca. Pentru DPO, seturi de preferințe umane (de ex., Anthropic HH-RLHF). Pentru GRPO, seturi de raționament (GSM8K, MATH).

Hiperparametri: `beta` în DPO controlează cât de mult se abate modelul de la referință. `group_size` în GRPO influențează stabilitatea antrenării.

Monitorizare: Folosește Weights & Biases sau TensorBoard pentru a urmări pierderea și metricile de performanță.

Provocări și soluții

Overfitting: SFT poate duce la overfitting pe seturi mici. Folosește dropout și early stopping.

Instabilitate în DPO: Dacă modelul divergă, reduce `beta` sau folosește un model de referință mai puternic.

GRPO și bias-ul de grup: Asigură-te că funcția de recompensă este bine calibrată pentru a evita recompense false.

Concluzie

Post-antrenamentul LLM-urilor cu TRL oferă o cale accesibilă și puternică pentru a îmbunătăți modelele. De la SFT, care pune bazele, la DPO pentru aliniere și GRPO pentru raționament, fiecare tehnică are rolul său. Înțelegerea acestor metode și a codului aferent te va ajuta să construiești aplicații AI mai sigure, mai precise și mai utile.

De ce este important:

Post-antrenamentul LLM-urilor este crucial pentru a transforma modelele generice în instrumente specializate, sigure și eficiente. Tehnicile precum DPO și GRPO permit alinierea la valorile umane și îmbunătățirea capacității de raționament, ceea ce este esențial pentru aplicații în medicină, educație, servicii clienți și multe altele. În plus, TRL democratizează accesul la aceste metode avansate, permițând chiar și echipelor mici să experimenteze și să inoveze.