OpenAI Whisper

OpenAI Whisper : meilleur guide pour démarrer avec l’IA de la parole au texte

OpenAI Whisper est un nouveau système d’IA de reconnaissance automatique de la parole.

Whisper est créé par OpenAI , la société derrière GPT-3 , Codex , DALL-E , etc.

OpenAI Whisper peut effectuer une reconnaissance automatique de la parole et convertir la parole en texte de haute qualité, ainsi que faire une parole non anglaise très efficace en texte anglais avec une traduction très efficace.

Annonces

OpenAI Whisper Speech en texte avec traduction
Crédit image : OpenAI. Whisper Speech au texte avec traduction

Le code de Whisper est disponible en Open Source et gratuit pour quiconque peut le modifier ou l’utiliser dans son flux de travail ou ses applications. Il est désormais également disponible pour être utilisé à partir de l’application No Code d’OpenAI appelée Playground ainsi que via l’API pour créer des applications ou écrire des programmes.

Dans cet article, nous allons passer en revue quelques-unes des façons les plus simples d’utiliser Whisper localement sur votre machine.

  1. Utilisation d’OpenAI Whisper à partir de l’interface graphique d’OpenAI Playground
  2. Utilisation d’OpenAI Whisper via l’API OpenAI dans le code
  3. Installez et utilisez OpenAI Whisper localement sur votre machine

Ce guide peut être utilisé sur Mac, Windows ou un tas de saveurs Linux comme Ubuntu, Debian, Arch Linux, etc.

Utilisation d’OpenAI Whisper à partir de l’interface graphique d’OpenAI Playground

  1. Connectez-vous à OpenAI PlaygroundAnnonces

2. Dans le menu déroulant du modèle sur le côté gauche de la page, choisissez audio-transcribe-001 (le nom du modèle pour Whisper)

Terrain de jeu OpenAI Whisper
HarishGarg.com – OpenAI Whisper Playground

3. Cliquez sur le bouton vert du microphone. Cela fera apparaître la boîte de dialogue de téléchargement ou d’enregistrement audio

Annonces

OpenAI - Terrain de jeu - Murmure
OpenAI – Terrain de jeu – Murmure

Dans ce qui précède, vous pouvez choisir de télécharger un fichier audio ou d’enregistrer un nouveau son.

4. Une fois cela fait, la transcription démarrera automatiquement

OpenAI Whisper dans Playground
OpenAI Whisper dans Playground

5. Une fois terminé (cela peut prendre quelques minutes selon la taille du fichier audio), vous verrez le texte transcrit dans une fenêtre contextuelle

openai-whisper-playground-api-résultats
openai-whisper-playground-api-résultats

6. Vous pouvez copier et utiliser ce texte où vous voulez ou vous pouvez cliquer sur Utiliser comme entrée qui le collera dans OpenAI Playground et vous pouvez l’utiliser comme entrée pour d’autres modèles OpenAI, par exemple, en le résumant à l’aide de GPT-3.

Utilisation d’OpenAI Whisper via l’API OpenAI dans le code

 

harishgarg.com - API de chuchotement openai dans le terrain de jeu
harishgarg.com – API de chuchotement openai dans le terrain de jeu

Installer OpenAI Whisper sur votre machine

Exigences

Vous devez avoir Python 3.7 ou supérieur installé sur votre ordinateur.

Ouvrez la ligne de commande et exécutez la commande python -v ou python3 -v pour le confirmer.

Si vous n’avez pas Python 3.7 ou supérieur, vous devriez envisager d’installer ou de mettre à jour Python avant de continuer.

Installation

Installer ffmpeg

Vous devez d’abord installer l’outil de ligne de commande ffmpeg.

Vous pouvez l’installer en utilisant l’une de ces commandes dans la ligne de commande.

# sur Ubuntu ou Debian
sudo apt mise à jour && sudo apt installer ffmpeg

# sur Arch Linux
sudo pacman -S ffmpeg

# sur MacOS en utilisant Homebrew (https://brew.sh/)
préparer l'installation de ffmpeg

# sur Windows avec Chocolatey (https://chocolatey.org/)
choco installer ffmpeg

# sur Windows en utilisant Scoop (https://scoop.sh/)
scoop installer ffmpeg

Installer Murmure

Depuis la ligne de commande, exécutez la commande ci-dessous

   pip installer git+https://github.com/openai/whisper.git

Cette commande extrait toutes les dépendances de code Whisper et python requises et les installe sur votre ordinateur.

Utilisation d’OpenAI Whisper

Depuis la ligne de commande

Pour convertir un fichier audio en texte, utilisez la commande ci-dessous

murmure audio.wav --modèle moyen

Remplacez audio.wav par votre nom de fichier audio. Le modèle choisi ici est moyen. Une liste de tous les modèles disponibles se trouve dans la section ci-dessous.

Annonces

Pour transcrire plusieurs fichiers, utilisez cette commande

murmure audio.flac audio.mp3 audio.wav --modèle moyen

La commande ci-dessous transcrira un fichier audio japonais.

murmure japonais.wav --langue japonaise

remplacez la langue par la langue de votre fichier.

Afin de traduire l’audio non anglais en anglais, ajoutez l’option -task translate à la commande, comme ceci

murmure japonais.wav --language japonais --task traduire

De l’intérieur d’un script python

Utilisez le code ci-dessous pour utiliser Whisper pour transcrire l’audio

chuchotement d'importation

modèle = murmure.load_model("base")
result = model.transcribe("audio.mp3")
imprimer(résultat["texte"])

Le code ci-dessus importe d’abord murmure. Il charge ensuite le modèle de base. puis il utilise le modèle pour transcrire un fichier aduio.mp3. puis le texte résultant est imprimé à l’écran. Vous pouvez remplacer le modèle de base par un modèle approprié dans la liste ci-dessous.

Divers modèles OpenAI Whisper

Whisper est livré avec différents modèles. Ils varient selon

  • comment ils se comportent dans différentes langues,
  • la quantité de VRAM GPU dont ils ont besoin pour fonctionner, et
  • vitesse
Taille Paramètres Modèle uniquement en anglais Modèle multilingue VRAM requise Vitesse relative
minuscule 39 mois tiny.en tiny ~1 Go ~32x
base 74 M base.en base ~1 Go ~16x
petit 244 M small.en small ~2 Go ~6x
moyen 769 millions medium.en medium ~5 Go ~2x
grand 1550M N / A large ~10 Go 1 fois

Utilisez le modèle approprié en fonction de vos besoins.

Prise en charge du langage OpenAI Whisper

OpenAI fonctionne mieux sur la transcription de la parole en texte en anglais. Cependant, il fonctionne assez bien pour les langues autres que l’anglais, à la fois pour la transcription et la traduction en anglais. Voici une notation de l’industrie pour Whisper dans différentes langues.

Annonces

Prise en charge du langage OpenAI Whisper
Retour en haut