Comment choisir un moteur de Speech-to-text ?

November 20, 2025
par
Article
Outils & Méthodes
5 min de lecture 

Le moteur de speech-to-text (ou ASR pour Automatic Speech Recognition) est cette “brique IA” qui prend l’audio d’un appel en entrée et nous donne la transcription en texte.

Une transcription de haute qualité est essentielle. Sans transcription de qualité, impossible d’extraire correctement des résumés d’appels, du quality monitoring, des verbatims, des objections, des motifs d’appel ou toute information qui peut nous être utile.

Voici un scénario frustrant directement lié à une transcription de mauvaise qualité :

  1. À l’écoute de l’audio : l’agent se présente avec son prénom et le nom de votre marque.
  2. La - mauvaise - transcription retranscrit de façon erronée l’appel (mauvaise orthographe pour le prénom de l’agent ou des mots manquants comme le nom de la marque)
  3. La notation IA basée sur le transcript donne zéro à l’agent pour sa présentation alors que sa présentation est parfaite à l’écoute !
Tip 1
Tester un moteur de speech-to-text avec une centaine d’audio sur la reconnaissance des noms / prénoms de vos agents et du nom de marque vous donnera une bonne idée de la performance dudit moteur.

Capture de l’audio

Vous n’avez pas attendu cet article pour équiper vos agents des meilleurs casques audios avec microphones professionnels. Vous pouvez donc espérer la meilleure performance pour transcrire les paroles de vos agents car la capture de l’audio aura été excellente pour eux.

En revanche, vos clients continueront d’appeler/recevoir vos appels depuis leur voiture, sur leur portable depuis un supermarché, dans la rue au milieu de la circulation, avec leur conjoint.e qui se joint à la conversation avec le haut parleur.

Le moteur de speech-to-text doit être robuste et il doit continuer à délivrer une haute qualité de transcription dans ces environnements de “production” et ne pas fonctionner uniquement dans des environnement “parfaits”.

Tip 2
Au moment de tester un moteur de speech-to-text, envoyez des audios de “production”. Même dans les pires conditions, la performance doit suivre.

Votre fournisseur telecom

Fréquence d'échantillonnage et bitrate sont précisés dans votre contrat de telco mais vous n’avez jamais vraiment compris leur utilité et leur impact sur vos audios ? Ces deux points sont liés et essentiels à comprendre pour espérer une transcription de haute performance.

Fréquence d’échantillonnage


Imaginez capturer une vidéo en prenant 1 image par seconde. Le résultat sera une vidéo saccadée, l’opposé de fluide.

Pour l’audio en téléphonie, le standard est de capturer 8,000 “images” par seconde. On parle ici de fréquence (de capture) en Hertz : 8,000 Hertz pour 8,000 points par seconde. Si vous avez du mono, votre fréquence d'échantillonnage doit être d’au moins 8,000 Hertz. Au vous avez du stéréo (en général vous êtes au courant car c’est plus cher) vous avez 16,000 points par seconde - 8,000 pour le canal gauche et 8,000 pour le canal droit.

Tip 3
Les moteurs de speech-to-text sont entraînés majoritairement avec des audios mono en 16,000 Hertz. La performance sur des audios téléphoniques en 8,000 Hertz (soit 2 fois moins d’information) peut se détériorer drastiquement.

Le bitrate

Regarder une vidéo sur son téléphone en 3G (bitrate faible) n’est pas la même expérience que de regarder la même vidéo sur un DVD en blue Ray (bitrate haut).

Le moteur de speech-to-text fonctionnera beaucoup mieux avec un bitrate haut (“DVD blue Ray” qui contient une capture détaillée de l’audio) qu’avec un audio avec un bitrate faible (“3G” avec un audio qui contient le minimum possible d’information avec des voix parfois déformées et loin de la réalité).

Le bitrate est directement lié à la taille d’un audio.   Votre fournisseur telecom a tout intérêt à limiter la taille de l’audio pour des raisons économiques (notamment de stockage et bande passante).

L’unité de mesure pour le bitrate est le “kbps” pour “kilobits par seconde" soit la taille en “Ko” pour une seconde d’audio. Une échelle pour se situer :

  • 8 kbps : niveau 3G
  • ~32 kbps : dans la moyenne des fournisseurs telco
  • supérieur à 128 kbps : niveau DVD Blue Ray
Tip 4
Challengez votre fournisseur telecom en demandant un bitrate d’au moins 32 kbps. En dessous de ce niveau, il sera difficile d’obtenir une performance de transcription acceptable.

Le moteur speech-to-text : rapidité

Combien de temps vais-je devoir attendre avant d’obtenir ma transcription ? Votre agent attend patiemment que le résumé de son appel soit généré…. Et plus son appel est long, plus cela prendra de temps !

On parle de RTFX (pour Real Time Factor). Un RTFX de 60 se traduit en un temps d’attente de 1 seconde pour un appel de 60 secondes. Soit 1 minute d’attente (une éternité pour votre agent qui attend que son résumé d’appel soit fourni) pour un appel de 1 heure.

Un ordre d’idée : un RTFX de 60 est le minimum. On peut faire beaucoup mieux avec un RTFX de 3000. Dans ce cas, un agent attendra alors seulement quelques secondes (beaucoup plus acceptable) pour avoir obtenir la transcription d’un appel de plusieurs heures. Vous avez alors un impact business directement mesurable : une réduction du temps passé en post-appel et un confort de travail pour l’agent indéniable qui obtient son résumé “au raccroché”.

Le moteur speech-to-text : qualité

Aujourd’hui, les meilleures performances se situent autour de 5-6% de WER (Word Error Rate). Dans une minute d’audio où environ 120 mots vont être prononcés, il y aura entre 6 et 7 mots par minute qui seront mal transcrits ou absents de la transcription.

Les fournisseurs de speech-to-text vont donner un WER calculé sur des audios qui peuvent parfois correspondre… à des lectures bien au calme de livres audios en mono 16,000Hz avec un bitrate de 128 kbps dans un environnement “parfait”. On est bien loin des conditions de production d’un centre d’appel. Ces chiffres avancés sont parfois bien loin des performances obtenues en production.

Tip 5
Avant d’envoyer des audios à un fournisseur de moteur de speech-to-text, faites transcrire ces audios par des experts humains. Comparez ensuite la transcription humaine à la transcription du moteur de speech-to-text : vous connaîtrez alors exactement les taux d’erreurs de mots à la minute, de reconnaissance de noms de marque, et de noms/prénoms d’agent !