OpenAI Whisper : meilleur guide pour démarrer avec l’IA de la parole au texte
OpenAI Whisper est un nouveau système d’IA de reconnaissance automatique de la parole.
Whisper est créé par OpenAI , la société derrière GPT-3 , Codex , DALL-E , etc.
OpenAI Whisper peut effectuer une reconnaissance automatique de la parole et convertir la parole en texte de haute qualité, ainsi que faire une parole non anglaise très efficace en texte anglais avec une traduction très efficace.
Le code de Whisper est disponible en Open Source et gratuit pour quiconque peut le modifier ou l’utiliser dans son flux de travail ou ses applications. Il est désormais également disponible pour être utilisé à partir de l’application No Code d’OpenAI appelée Playground ainsi que via l’API pour créer des applications ou écrire des programmes.
Dans cet article, nous allons passer en revue quelques-unes des façons les plus simples d’utiliser Whisper localement sur votre machine.
- Utilisation d’OpenAI Whisper à partir de l’interface graphique d’OpenAI Playground
- Utilisation d’OpenAI Whisper via l’API OpenAI dans le code
- Installez et utilisez OpenAI Whisper localement sur votre machine
Ce guide peut être utilisé sur Mac, Windows ou un tas de saveurs Linux comme Ubuntu, Debian, Arch Linux, etc.
Table des matières
Utilisation d’OpenAI Whisper à partir de l’interface graphique d’OpenAI Playground
- Connectez-vous à OpenAI Playground
2. Dans le menu déroulant du modèle sur le côté gauche de la page, choisissez audio-transcribe-001 (le nom du modèle pour Whisper)

3. Cliquez sur le bouton vert du microphone. Cela fera apparaître la boîte de dialogue de téléchargement ou d’enregistrement audio

Dans ce qui précède, vous pouvez choisir de télécharger un fichier audio ou d’enregistrer un nouveau son.
4. Une fois cela fait, la transcription démarrera automatiquement

5. Une fois terminé (cela peut prendre quelques minutes selon la taille du fichier audio), vous verrez le texte transcrit dans une fenêtre contextuelle

6. Vous pouvez copier et utiliser ce texte où vous voulez ou vous pouvez cliquer sur Utiliser comme entrée qui le collera dans OpenAI Playground et vous pouvez l’utiliser comme entrée pour d’autres modèles OpenAI, par exemple, en le résumant à l’aide de GPT-3.
Utilisation d’OpenAI Whisper via l’API OpenAI dans le code

Installer OpenAI Whisper sur votre machine
Exigences
Vous devez avoir Python 3.7 ou supérieur installé sur votre ordinateur.
Ouvrez la ligne de commande et exécutez la commande python -v ou python3 -v pour le confirmer.
Si vous n’avez pas Python 3.7 ou supérieur, vous devriez envisager d’installer ou de mettre à jour Python avant de continuer.
Installation
Installer ffmpeg
Vous devez d’abord installer l’outil de ligne de commande ffmpeg.
Vous pouvez l’installer en utilisant l’une de ces commandes dans la ligne de commande.
# sur Ubuntu ou Debian sudo apt mise à jour && sudo apt installer ffmpeg # sur Arch Linux sudo pacman -S ffmpeg # sur MacOS en utilisant Homebrew (https://brew.sh/) préparer l'installation de ffmpeg # sur Windows avec Chocolatey (https://chocolatey.org/) choco installer ffmpeg # sur Windows en utilisant Scoop (https://scoop.sh/) scoop installer ffmpeg
Installer Murmure
Depuis la ligne de commande, exécutez la commande ci-dessous
pip installer git+https://github.com/openai/whisper.git
Cette commande extrait toutes les dépendances de code Whisper et python requises et les installe sur votre ordinateur.
Utilisation d’OpenAI Whisper
Depuis la ligne de commande
Pour convertir un fichier audio en texte, utilisez la commande ci-dessous
murmure audio.wav --modèle moyen
Remplacez audio.wav par votre nom de fichier audio. Le modèle choisi ici est moyen. Une liste de tous les modèles disponibles se trouve dans la section ci-dessous.
Pour transcrire plusieurs fichiers, utilisez cette commande
murmure audio.flac audio.mp3 audio.wav --modèle moyen
La commande ci-dessous transcrira un fichier audio japonais.
murmure japonais.wav --langue japonaise
remplacez la langue par la langue de votre fichier.
Afin de traduire l’audio non anglais en anglais, ajoutez l’option -task translate à la commande, comme ceci
murmure japonais.wav --language japonais --task traduire
De l’intérieur d’un script python
Utilisez le code ci-dessous pour utiliser Whisper pour transcrire l’audio
chuchotement d'importation modèle = murmure.load_model("base") result = model.transcribe("audio.mp3") imprimer(résultat["texte"])
Le code ci-dessus importe d’abord murmure. Il charge ensuite le modèle de base. puis il utilise le modèle pour transcrire un fichier aduio.mp3. puis le texte résultant est imprimé à l’écran. Vous pouvez remplacer le modèle de base par un modèle approprié dans la liste ci-dessous.
Divers modèles OpenAI Whisper
Whisper est livré avec différents modèles. Ils varient selon
- comment ils se comportent dans différentes langues,
- la quantité de VRAM GPU dont ils ont besoin pour fonctionner, et
- vitesse
Taille | Paramètres | Modèle uniquement en anglais | Modèle multilingue | VRAM requise | Vitesse relative |
---|---|---|---|---|---|
minuscule | 39 mois | tiny.en |
tiny |
~1 Go | ~32x |
base | 74 M | base.en |
base |
~1 Go | ~16x |
petit | 244 M | small.en |
small |
~2 Go | ~6x |
moyen | 769 millions | medium.en |
medium |
~5 Go | ~2x |
grand | 1550M | N / A | large |
~10 Go | 1 fois |
Utilisez le modèle approprié en fonction de vos besoins.
Prise en charge du langage OpenAI Whisper
OpenAI fonctionne mieux sur la transcription de la parole en texte en anglais. Cependant, il fonctionne assez bien pour les langues autres que l’anglais, à la fois pour la transcription et la traduction en anglais. Voici une notation de l’industrie pour Whisper dans différentes langues.