Riffusion

Riffusion : créer des pistes audio avec l’intelligence artificielle

 

Deux chercheurs adaptent le modèle Stable Diffusion pour générer des spectrogrammes et produire de la musique avec l’intelligence artificielle.

Stable Diffusion est le nom du modèle d’apprentissage automatique en profondeur publié en 2022 qui exploite l’intelligence artificielle pour générer des images de qualité à partir de descriptions textuelles.

Déjà en août, nous avions vu comment générer des images à partir de texte en utilisant Stable Diffusion .

L’un des nombreux avantages de Stable Diffusion est que le code derrière le fonctionnement du modèle a été rendu public. Le modèle a été formé à l’aide d’au moins 5 milliards de paires d’images et de légendes, classées en fonction de leurs caractéristiques.

Deux chercheurs, Seth Forsgren et Hayk Martiros, ont démontré l’énorme potentiel de la Diffusion Stable : ils ont en effet modifié et adapté le modèle pour générer des images de spectrogrammes ou des représentations graphiques de l’intensité d’un son en fonction du temps et de la fréquence.

C’est ainsi qu’est né Riffusion , un instrument qui génère des pièces musicales en combinant des instruments et, souvent, en générant des résultats très intéressants.

Puisque l’axe des x représente le temps et que l’axe des y représente la fréquence, la couleur de chaque pixel fournit l’amplitude sonore à la fréquence et au temps résultant du croisement de la ligne et de la colonne. En utilisant la transformée de Fourier à court terme, il est possible de générer le spectrogramme à partir de l’audio. La fonction est cependant réversible : Forsgren et Martiros ont ensuite utilisé le spectrogramme produit par Stable Diffusion pour créer l’audio.

À cette fin, la bibliothèque Torchaudio est utilisée qui intègre tout le nécessaire pour effectuer un traitement audio avec le GPU.

Le résultat des travaux menés par les deux chercheurs est à écouter sur le site du projet Riffusion qui offre évidemment la possibilité de générer ses propres morceaux musicaux en fournissant la description de ce que l’on souhaite obtenir. De plus amples détails techniques sur Riffusion sont disponibles sur la page dédiée.

En bas de la même page sont publiés les liens renvoyant aux dépôts GitHub : les personnes intéressées peuvent télécharger le code et utiliser Riffusion sur leurs propres systèmes.

Retour en haut