Parallax: Noua arhitectură de atenție care păstrează softmax-ul, dar adaugă o ramură de corecție a covarianței
Parallax este o nouă arhitectură de atenție care păstrează funcția softmax a transformatoarelor clasice și adaugă, în paralel, o ramură ușoară de corecție a covarianței, învățată din date. Combinația promite contexte mai lungi, costuri mai mici și o acuratețe comparabilă cu modelele de top.
🕒 1 săptămâni în urmă