Après avoir essayé il y a quelques années le très célèbre Vosk (alors oui, si vous êtes sur Microsoft ou Apple, cela ne vous parle certainement pas du tout), je m’étais confronté à la configuration un peu « touchy » pour l’intégration au niveau du Windows Manager. Mais ça, c’était avant !! Avant que je remette le nez dans ce projet et que je découvre IBus Text To Speech.
Qu’est ce que le Text To Speech
Si vous êtes en train de lire cet article, c’est que vous devez très certainement savoir ce que c’est. Pour faire très simple, le Speech To Text (STT) permet de transcrire la voix (capture d’une entrée ou lecture d’un fichier audio) en texte. Ce procédé est très familier à beaucoup d’entre vous, car nous le rencontrons fréquemment dans notre société : les assistants comme Siri, Alexa, Google Assistant, … utilisent en partie cette technologie. Il permet aussi dans nos métiers de rédiger plus rapidement des rapports (de mise en production, d’incident, de bugs, …), de la documentation ou encore des cahiers des charges techniques. Et c’est pour ces raisons que j’ai décidé de remettre le nez dans la mise en place du STT sur Linux.
Ibus Speech To Text
C’est donc lors de ces recherches que je suis tombé sur ce package de PhilippeRo : IBus Speech To Text. Pour le contexte, je suis sur Fedora 41 (on ne juge pas, mais pour le dev, je trouve cette distrib cool) avec Gnome3 en WM. Je vais donc détailler l’installation pour cet environnement, à vous de l’adapter à votre distribution.
Installation
Sur Fedora, la commande suivante est suffisantesudo dnf install ibus-speech-to-text gst-vosk
Pour gst-vosk, c’est un plugin GStreamer pour la reconnaissance vocale pour vosk. Si le package n’est pas disponible pour votre distribution, il vous suffira de suivre les instructions de build sur le GitHub d’IBus Speech To Text.
Configuration
Pour la configuration sur Gnome, voici la marche à suivre.
- Ajouter la source d’entrée. Pour cela on se rend dans les paramètres de Gnome et on clic sur Clavier => Ajouter une source de saisie.
- Ensuite on télécharge et on sélectionne le modèle VOSK
- On relance ibus dans un terminal avec la commande
ibus restart
Utilisation
Pour utiliser le STT via l’API VOSK, il vous suffira simplement de sélectionner la source d’entrée « Autre (Speech To Text) » et de commencer à dicter.
La suite de cet article est destinée aux lecteurs qui souhaitent plus d’information sur les différentes solutions proposées dans cet article.
Une Brève Présentation d’IBus Speech To Text Input
IBus (Intelligent Input Bus) est le framework d’entrée par défaut sur de nombreuses distributions Linux, offrant une gestion centralisée des méthodes de saisie. La version dédiée au Speech To Text Input permet désormais de convertir la parole en texte en temps réel, une fonctionnalité particulièrement utile pour les environnements Linux. Contrairement à d’autres solutions, IBus Speech To Text Input intègre VOSK, un moteur de reconnaissance vocale open source, réputé pour sa légèreté, sa rapidité, et sa capacité à fonctionner en mode hors ligne.
Les Points Forts d’IBus Speech To Text Input
- Open Source et Libre : Pas de dépendance à une infrastructure propriétaire ou à un cloud, garantissant ainsi la confidentialité des données.
- Compatibilité et Intégration : S’intègre directement dans l’écosystème IBus déjà utilisé sur la majorité des distributions Linux.
- Fonctionnement Hors Ligne : Grâce à VOSK, la reconnaissance vocale peut se faire sans connexion internet, un atout majeur pour la sécurité et l’autonomie.
- Modularité et Flexibilité : Possibilité de configurer finement la reconnaissance en fonction des besoins de l’utilisateur.
Comparatif avec les Solutions de Microsoft et Apple
Les solutions de reconnaissance vocale de Microsoft et Apple dominent souvent le marché en raison de leur intégration poussée dans leurs écosystèmes respectifs (Windows et macOS/iOS). Cependant, plusieurs points de comparaison révèlent des différences notables :
Microsoft Speech To Text
- Points Forts :
- Intégration native dans Windows.
- Performance et précision élevées, soutenues par des algorithmes d’IA avancés.
- Accès aux services cloud pour une amélioration continue via l’apprentissage machine.
- Limites :
- Dépendance au cloud et aux services Microsoft, ce qui peut poser des problèmes de confidentialité.
- Moins de contrôle sur les paramètres et les configurations pour les utilisateurs avancés.
Apple Dictation
- Points Forts :
- Excellente intégration dans l’écosystème Apple, avec une interface utilisateur intuitive.
- Optimisation pour la reconnaissance vocale dans plusieurs langues et contextes.
- Limites :
- Fonctionnalité souvent liée aux services en ligne d’Apple, avec des préoccupations similaires en matière de confidentialité.
- Moins personnalisable pour les utilisateurs souhaitant une approche sur mesure.
IBus Speech To Text Input (avec VOSK)
- Avantages :
- Confidentialité et Indépendance : La solution est 100% open source, ne nécessitant aucune connexion à un service cloud. Vos données vocales restent sur votre machine.
- Fonctionnement Hors Ligne : VOSK permet une reconnaissance vocale efficace même sans connexion internet, ce qui est un avantage décisif pour les environnements sensibles ou isolés.
- Personnalisation : Les utilisateurs peuvent adapter et configurer la reconnaissance selon leurs besoins spécifiques, en modifiant les paramètres ou en intégrant d’autres modules open source.
- Écosystème Linux : Pour les passionnés et professionnels du logiciel libre, cette solution s’intègre parfaitement à l’environnement Linux, offrant une alternative robuste aux solutions propriétaires.
L’Avantage de VOSK : Un Moteur Puissant et Légère
VOSK est au cœur de IBus Speech To Text Input. Ce moteur de reconnaissance vocale open source se distingue par plusieurs caractéristiques :
- Légèreté et Rapidité : VOSK est conçu pour être léger, permettant des performances optimales même sur des machines avec des ressources limitées.
- Support Multilingue : Il prend en charge une multitude de langues, ce qui en fait une solution polyvalente pour des utilisateurs internationaux.
- Compatibilité Hors Ligne : Contrairement à certains services propriétaires qui s’appuient sur le cloud, VOSK permet une reconnaissance efficace sans connexion internet, garantissant ainsi une meilleure confidentialité et un fonctionnement continu.
- Facilité d’Intégration : L’intégration dans IBus permet de bénéficier d’une interface utilisateur standardisée tout en profitant des performances de VOSK pour la conversion de la parole en texte.
Conclusion
IBus Speech To Text Input, enrichi par VOSK, se présente comme une alternative puissante et flexible aux solutions de reconnaissance vocale propriétaires proposées par Microsoft et Apple. Pour les utilisateurs Linux soucieux de confidentialité, de personnalisation et d’autonomie, cette solution open source offre un équilibre parfait entre performance et respect de la vie privée.
Merci à PhilippeRo pour cette contribution trop peu connue à mon goût et bon STT à tous !