Stability AI lansează Stable Audio 3: O familie de modele rapide de difuzie latentă pentru generarea și editarea audio

Stability AI a lansat Stable Audio 3, o familie de modele de difuzie latentă concepute pentru generarea de muzică instrumentală și efecte sonore. Această nouă versiune include greutăți deschise pentru variantele mici și medii, oferind accesibilitate și performanță îmbunătățită. Varianta mică rulează pe un MacBook Pro M4 CPU, în timp ce varianta medie se potrivește pe GPU-uri de consum cu 8 GB de VRAM. Ambele generează audio stereo la 44,1 kHz, utilizând un pipeline de antrenament în trei etape: potrivirea fluxului, încălzirea prin distilare și post-antrenamentul adversarial.

Pe benchmark-ul BBC Sound Effects, la o durată de 5 secunde, SA3 mediu a obținut un scor FAD de 0,369, mai mic decât orice alt model open-weight evaluat în lucrare. Acest rezultat demonstrează superioritatea modelului în generarea de efecte sonore realiste și de înaltă calitate.

Stable Audio 3 reprezintă un pas semnificativ înainte în domeniul generării audio, oferind cercetătorilor și dezvoltatorilor instrumente puternice pentru crearea de conținut audio. Cu greutăți deschise și cerințe hardware accesibile, acest model democratizează accesul la tehnologii avansate de generare audio.

De ce este important:

Stable Audio 3 este important deoarece oferă o soluție accesibilă și eficientă pentru generarea de audio de înaltă calitate, deschizând noi posibilități în domenii precum producția muzicală, designul sonor pentru jocuri și filme, și aplicațiile de realitate virtuală. Prin lansarea greutăților deschise, Stability AI încurajează inovația și colaborarea în comunitatea de cercetare.

Filtrează articolele

De ce este important: