Părtinirea de frecvență a Gradientului Descendent Stocastic (SGD) și cum o rezolvă Adam
Gradientul Descendent Stocastic (SGD) are o părtinire de frecvență care favorizează tiparele rare în detrimentul celor frecvente. Optimizatorul Adam corectează această problemă prin adaptarea ratei de învățare per-parametru, normalizând gradienții în funcție de varianță. Articolul explică mecanismul și importanța sa practică.
🕒 3 săptămâni în urmă