IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Affichage des résultats du sondage: Quelles sont les API de traitement de la parole que vous préférez en 2019 ?

Votants
32. Vous ne pouvez pas participer à ce sondage.
  • Google Cloud Speech-to-Text API

    3 9,38%
  • IBM Watson Speech to Text

    6 18,75%
  • Microsoft Azure Bing Speech API

    9 28,13%
  • Amazon Transcribe

    0 0%
  • Amazon Polly

    0 0%
  • VoxSigma API

    0 0%
  • API Nexmo Voice

    0 0%
  • Autres (à préciser en commentaire)

    3 9,38%
  • Aucune, et je n'ai pas l'intention d'en utiliser

    13 40,63%
  • Aucune, mais j'envisage d'en utiliser

    4 12,50%
Sondage à choix multiple
Actualités Discussion :

Quelles sont les API de traitement de la parole que vous préférez en 2019 ?

  1. #1
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    8 437
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 8 437
    Points : 197 394
    Points
    197 394
    Par défaut Quelles sont les API de traitement de la parole que vous préférez en 2019 ?
    Quelles sont les API de traitement de la parole que vous préférez en 2019 ?
    Petit tour d'horizon sur les API les plus populaires du marché

    Le traitement de la parole est un domaine très populaire de l’apprentissage automatique. Il existe une demande importante pour transformer le discours humain en texte et le texte en discours. Cela est particulièrement important pour le développement du libre-service dans différents endroits: magasins, transports, hôtels, etc. En effet, les machines remplacent de plus en plus de main-d'œuvre humaine et ces machines devraient pouvoir communiquer. C’est pourquoi la reconnaissance vocale est une perspective et un domaine important de l’intelligence artificielle et de l’apprentissage automatique.

    Aujourd'hui, de nombreuses grandes entreprises fournissent des API pour effectuer différentes tâches d'apprentissage machine. La reconnaissance vocale ne fait pas exception. Il n’est pas nécessaire que vous soyez un expert en traitement de langage naturel pour utiliser ces API. Ils fournissent généralement une interface pratique. Tout ce que vous avez à faire est d’envoyer une requête HTTP avec le contenu requis au serveur de l’API. Ensuite, vous recevrez la réponse avec les tâches terminées. Cette approche est utile lorsque vous n’avez pas besoin de quelque chose de spécial (en d'autres termes, si votre problème est standard et connu). L'avantage supplémentaire de cette méthode est que vous pouvez économiser autant de ressources précieuses que le temps et l'argent.

    Néanmoins, il existe de nombreuses situations dans lesquelles vous ne pouvez pas utiliser l'API et devez développer un système de reconnaissance vocale à partir de zéro. Cette méthode est assez complexe, elle nécessite de nombreux efforts et ressources, mais vous pouvez ainsi créer un système parfaitement compatible avec vos besoins. En outre, il est possible d'améliorer la qualité des résultats si vous construisez vous-même les algorithmes. Quoi qu'il en soit, il est bon de connaître les API. Vous pouvez comprendre ce que chaque API peut faire, ses avantages et inconvénients, etc. Ainsi, vous serez en mesure de détecter quand vous devriez utiliser une API (et quelle API) et quand vous devriez penser à votre propre système.

    Il est donc question ici de parler d'API populaires pouvant fonctionner avec la parole humaine. Nous allons aussi évoquer quelques API moins connues.

    Google Cloud Speech-to-Text API

    Google assure que son API dispose d'une reconnaissance vocale performante :

    Citation Envoyé par Google
    Grâce à Google Cloud Speech-to-Text, les développeurs peuvent convertir du son en texte en exploitant des modèles de réseaux de neurones performants dans une API facile à utiliser. Celle-ci reconnaît 120 langues et variantes pour s'adapter à votre base mondiale d'utilisateurs. Vous pouvez activer la commande vocale, transcrire des contenus audio provenant de centres d'appels et bien plus. L'outil s'appuie également sur la technologie de machine learning de Google pour traiter des flux en temps réel et des fichiers audio préenregistrés.
    Nom : 1.png
Affichages : 13727
Taille : 18,1 Ko

    Détection automatique de la langue : l'API vous permet d'identifier la langue de l'énoncé (fonctionnalité limitée à quatre langues). Vous pouvez ainsi retranscrire des recherches ("Quelle température fait-il à Paris ?", par exemple) et commandes vocales (comme "Augmenter le volume").

    Transcriptions audio en temps réel de contenus de courte ou longue durée : Cloud Speech-to-Text est capable de transmettre instantanément des résultats au format texte. Le discours est reconnu dès que le contenu audio est lancé ou que l'utilisateur parle. Vous pouvez également fournir un fichier audio à Cloud Speech-to-Text pour obtenir sa transcription. L'API vous permet d'analyser des contenus audio de courte ou longue durée.

    Expressions clés : Vous pouvez personnaliser la reconnaissance vocale pour un contexte particulier en fournissant un ensemble de mots et d'expressions susceptibles d'être utilisés. Cette fonctionnalité est particulièrement utile, car elle permet d'ajouter des mots et des noms personnalisés au vocabulaire existant et de prédéfinir des commandes vocales.

    Une sélection de modèles prédéfinis adaptés à votre cas d'utilisation : Cloud Speech-to-Text comprend plusieurs modèles de reconnaissance vocale prédéfinis (tels que le modèle adapté aux commandes vocales) que vous pouvez mettre à profit dans votre cas d'utilisation. Par exemple, Google explique que son modèle de transcription vidéo prédéfini est idéal pour indexer ou sous-titrer des vidéos et/ou des contenus comportant plusieurs locuteurs. Il emploie une technologie de machine learning comparable à celle utilisée pour créer des sous-titres dans YouTube.

    Nom : 2.png
Affichages : 12286
Taille : 24,0 Ko

    IBM Watson Speech to Text

    IBM Watson Speech to Text est un service fourni par IBM Watson capable de convertir la parole humaine en texte. IBM Watson prend en charge la personnalisation non seulement pour le dictionnaire de mots spécifiques mais également pour les conditions acoustiques particulières. Vous pouvez donc adapter le système à l'environnement dans lequel vous prévoyez de l'utiliser. La principale faiblesse de IBM Watson Speech to Text réside dans le très petit nombre de langues prises en charge. De plus, les modèles personnalisés sont disponibles pour un nombre de langues encore plus réduit. Pour le moment, des fonctions telles que la détection de mots-clés et l'étiquetage des locuteurs sont disponibles en version bêta.

    Voici les fonctionnalités présentés par IBM :
    • Puissante reconnaissance de la parole en temps réel : Transcrivez automatiquement l’audio de 7 langues en temps réel. Identifiez et transcrivez rapidement ce qui est discuté, même à partir d'audio de qualité inférieure, à travers une variété de formats audio et d'interfaces de programmation (HTTP REST, Websocket, Asynchronous HTTP).
    • Moteur de parole extrêmement précis : Personnalisez votre modèle pour améliorer la précision de la langue et du contenu qui vous intéressent le plus, tels que les noms de produits, les sujets sensibles ou les noms de personnes. Reconnaît différents haut-parleurs dans votre audio. Utilisez des mots clés spécifiés en temps réel avec une grande précision et une grande confiance
    • Conçu pour supporter divers cas d'utilisation : Transcrivez l'audio pour différents cas d'utilisation, allant de la transcription audio en temps réel d'un microphone à l'analyse de 1 000 enregistrements audio de votre centre d'appels pour fournir des analyses significatives.



    Microsoft Azure Bing Speech API

    L'API Microsoft Azure Bing Speech est un composant des services cloud Microsoft Azure permettant de résoudre deux tâches simultanément: la conversion parole / texte et la conversion texte-parole.

    Voici les différentes fonctionnalités évoquées par Microsoft :

    La reconnaissance vocale convertit de la parole audio en texte pour permettre une interaction intuitive : Ajoutez facilement la conversion de parole en texte en temps réel à vos applications pour des usages tels que les commandes vocales, les transcriptions en temps réel ou l’analyse de journaux de centre d’appels. Adaptez vos modèles de reconnaissance vocale aux styles oraux, expressions ou jargon des utilisateurs, ainsi qu’aux bruits de fond, accents et caractéristiques vocales spécifiques de votre scénario. Convertissez un enregistrement vocal en texte. Appelez l’API pour reconnaître le signal audio provenant du microphone, d’autres sources audio de streaming en temps réel ou d’un fichier audio enregistré. À mesure que le signal audio est envoyé au serveur, des résultats de reconnaissance partielle sont renvoyés si vous le souhaitez. Vous pouvez utiliser l’API pour générer des applications intelligentes déclenchées par la voix.

    Nom : 3.png
Affichages : 12027
Taille : 2,3 Ko

    La synthèse vocale confère une voix naturelle à vos applications : Générez des applications et services intelligents qui s’adressent aux utilisateurs en langage naturel grâce au service de synthèse vocale. Convertissez du texte en audio en temps quasi réel, et adaptez la vitesse, la tonalité, le volume et d’autres paramètres de la parole. Donnez à votre application une voix caractéristique unique et reconnaissable à l’aide de modèles vocaux personnalisés. Enregistrez et chargez simplement des données d’apprentissage. Le service crée ensuite une police de la voix unique calquée sur votre enregistrement.

    Nom : 4.png
Affichages : 12003
Taille : 2,0 Ko

    Traduction vocale : Dotez votre application de fonctionnalités de traduction vocale en temps réel dans l’une des langues prises en charge, et obtenez une traduction de texte ou de parole. Les modèles de traduction vocale sont basés sur des technologies de pointe en matière de reconnaissance vocale et de traduction automatique neuronale. Ils sont optimisés pour comprendre la façon dont les gens parlent dans la vie réelle, et générer des traductions d’une qualité exceptionnelle.

    Nom : 5.png
Affichages : 11970
Taille : 4,1 Ko

    Amazon Transcribe

    Amazon Transcribe fait partie de l'infrastructure Amazon Web Services. Vous pouvez analyser vos documents audio stockés dans le service Amazon S3 et obtenir le texte à partir de l'audio.

    Amazon Transcribe peut ajouter de la ponctuation et du formatage du texte. Une autre fonction intéressante fournie par ce service est la prise en charge de la téléphonie audio. C'est parce que l'audio des conversations téléphoniques est souvent de mauvaise qualité. Les développeurs d’Amazon Transcribe ont donc estimé qu’ils devaient traiter ce type d’audio de manière spécifique. Le système ajoute des horodatages pour chaque mot du texte. Ainsi, vous pourrez faire correspondre chaque mot du texte à la place correspondante dans le fichier audio.


    Amazon affirme que son API Amazon Transcribe peut reconnaître lorsque le locuteur change et attribuer le texte transcrit de manière appropriée. Cela peut considérablement réduire la charge de travail nécessaire pour transcrire de l'audio avec plusieurs locuteurs comme les appels téléphoniques, les entretiens et les émissions de télévision. Amazon Transcribe vous permet également d'enrichir et de personnaliser votre vocabulaire de reconnaissance vocale. Vous pouvez ajouter de nouveaux mots au vocabulaire de base et générer des transcriptions de haute précision spécifique à votre utilisation, comme des noms de produits, une terminologie propre au secteur ou des noms de personnes.

    Amazon Polly

    Amazon Polly est un service qui transforme le texte en paroles réalistes, vous permettant de créer des applications qui parlent et de bâtir une toute nouvelle gamme de produits dotés de parole. Amazon Polly est un service de synthèse vocale qui exploite des technologies avancées de deep learning pour synthétiser la parole de façon naturelle.

    Amazon Polly convertit non seulement le texte en parole, mais permet également d’ajuster certains paramètres de parole. Par exemple, vous pouvez configurer différentes voix (genre), volume, prononciation, vitesse du discours, hauteur de ton et quelques autres propriétés. Avec des douzaines de voix réalistes dans différentes langues, vous pouvez sélectionner la voix idéale et créer des applications vocales qui fonctionnent dans de nombreux pays différents.


    VoxSigma API

    L'API VoxSigma pour la conversion parole en texte est un produit de la société Vocapia Research. Cette société est spécialisée dans le domaine de la technologie de la parole et du langage. L'API VoxSigma peut non seulement convertir le discours saisi en texte, mais également effectuer l'identification de la langue et l'alignement parole-texte. Une autre caractéristique intéressante de l’API est qu’elle peut ajouter de la ponctuation au texte de sortie, calculer le score de confiance pour la sortie. En outre, l'API VoxSigma peut traiter des entités numériques et d'autres entités (telles que des devises, par exemple) de manière unique. Il est possible de personnaliser le modèle de langue disponible, mais vous devez pour cela contacter la société et lui parler directement.

    API Nexmo Voice

    L'API Nexmo Voice n'est pas une API autonome. Vous pouvez l'utiliser pour appeler. Par exemple, si vous souhaitez appeler quelqu'un, vous pouvez utiliser l'API Nexmo Voice pour convertir du texte en parole. Nexmo est la société qui fournit des services de communication programmable. L'ensemble des fonctionnalités disponibles n'est pas très riche. Cela inclut uniquement la possibilité de changer le genre de voix (homme ou femme) ainsi que de changer l'accent du discours.

    Nom : nexmo.png
Affichages : 12365
Taille : 36,6 Ko

    Sources : Google, IBM, Microsoft, Amazon Transcribe, Amazon Poly, VoxSigma, Nexmo

    Et vous ?

    Vous êtes-vous déjà servi d'une API de traitement de la parole ?
    Si oui, laquelle ? Quelles sont les API de traitement de la parole que vous préférez ?
    Si non, pourquoi ? Envisagez-vous d'en utiliser une ? Laquelle ?
    Quels sont les critères qui vous orientent dans le choix d'une API ?

    Voir aussi :

    Quelles sont les avantages et les inconvénients de l'Intelligence artificielle ? Noodle.ai, spécialiste de l'IA, donne son point de vue
    Quelles bibliothèques de test utilisez-vous pour vos développements avec la plateforme Java ? Venez partager votre expérience
    La France dévoile son plan sur l'Intelligence artificielle pour 665 millions d'euros, quelles en sont les grandes lignes ?
    Quels sont vos environnements de développement intégrés (EDI) préférés en 2018 ? Et pourquoi ? Partagez vos avis
    Quels sont les coûts cachés liés aux violations de données ? Un aperçu dans une étude d'IBM Security
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  2. #2
    Membre éclairé

    Homme Profil pro
    Développeur Java
    Inscrit en
    Février 2007
    Messages
    179
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Développeur Java
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Février 2007
    Messages : 179
    Points : 653
    Points
    653
    Par défaut
    J'en utiliserais une uniquement quand le tout pourra tourner chez moi et pas sur des serveurs distant.
    J'en vois l'utilité dans le cadre de la domotique (que je souhaite mettre ne place chez moi), a part ça dans les applications mobile j'ai plus de mal à comprendre (hors cadre pro).
    L'expérience est une lanterne que l'on porte sur le dos et qui n'eclaire jamais que le chemin parcouru.

    La nature fait les choses sans se presser, et pourtant tout est accompli.

  3. #3
    Expert confirmé
    Homme Profil pro
    Développeur .NET
    Inscrit en
    Novembre 2009
    Messages
    2 023
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Développeur .NET

    Informations forums :
    Inscription : Novembre 2009
    Messages : 2 023
    Points : 5 456
    Points
    5 456
    Par défaut
    Citation Envoyé par Angelsafrania Voir le message
    J'en utiliserais une uniquement quand le tout pourra tourner chez moi et pas sur des serveurs distant.
    J'en vois l'utilité dans le cadre de la domotique (que je souhaite mettre ne place chez moi), a part ça dans les applications mobile j'ai plus de mal à comprendre (hors cadre pro).
    Regarde du coté de https://www.openjarvis.com/
    Jamais testé, surement pas au niveau des en lignes, mais pour de la domotique je pense que ca peut etre sympas

  4. #4
    Membre chevronné Avatar de FatAgnus
    Homme Profil pro
    Troufion de base
    Inscrit en
    Août 2015
    Messages
    360
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Troufion de base

    Informations forums :
    Inscription : Août 2015
    Messages : 360
    Points : 2 102
    Points
    2 102
    Par défaut
    Utiliser des API de sociétés comme Google, Microsoft, Amazon ou autres qui sont réputées pour violer en permanence la vie privée de leurs utilisateurs ne m'enchante pas du tout. Le critère d'utilisation d'une API de traitement de la parole c'est qu'elle soit locale à mes serveurs et open source. Par contre j'ignore ce que vaut la qualité des projets open source CMU Shpinx ou Kaldi.

  5. #5
    Membre éclairé
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Février 2008
    Messages
    163
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 59
    Localisation : France, Calvados (Basse Normandie)

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Février 2008
    Messages : 163
    Points : 710
    Points
    710
    Par défaut
    Via-Voice sur Os/2
    A cette époque là (1998), le grand spécialiste du nucléaire annonçait fièrement que Zindozs 5 serait multi-utilisateurs et complètement pilotable à la voix

  6. #6
    Membre averti
    Profil pro
    AdminSys
    Inscrit en
    Juin 2007
    Messages
    139
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : AdminSys

    Informations forums :
    Inscription : Juin 2007
    Messages : 139
    Points : 343
    Points
    343
    Par défaut
    Google et Amazon ont clairement de l'avance, ça marche diablement bien...
    J'aimerai une API à héberger soit même ça serait le top pour éviter la latence et ne pas dépendre d'internet ou d'un GAFAM & Co.

    Existe il une API de la sorte installable sur ses machines ?
    Je pense toujours à me faire mon propre Jarvis

  7. #7
    Membre chevronné
    Avatar de emixam16
    Homme Profil pro
    Chercheur en sécurité
    Inscrit en
    Juin 2013
    Messages
    333
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Calvados (Basse Normandie)

    Informations professionnelles :
    Activité : Chercheur en sécurité

    Informations forums :
    Inscription : Juin 2013
    Messages : 333
    Points : 1 828
    Points
    1 828
    Par défaut
    Personnellement, quand je suis fatigué de lire des articles (on en bouffe un max dans la recherche), j'utilise NaturalReaders qui peut lire un texte à ma place (par exemple directement un pdf). Je trouve que la voix est de qualité suffisante pour que la lecture ne soit pas désagréable pour des textes généraux (par contre c'est une catastrophe pour des formules). Par ailleurs la vitesse est réglable.

    Par contre, tant que les données devront être traitées à distance, je refuse d'utiliser des applications de reconnaissance vocale!

  8. #8
    Membre habitué
    Homme Profil pro
    WANT
    Inscrit en
    Juin 2011
    Messages
    45
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Finlande

    Informations professionnelles :
    Activité : WANT

    Informations forums :
    Inscription : Juin 2011
    Messages : 45
    Points : 170
    Points
    170
    Par défaut
    Pas un mot sur le service de Firefox ?

    Pour faire ce genre d’api il faut des millions d’heures d’enregistrement... Apple a réalisé sa bdd en enregistrant l’ensemble des appels de ses clients (sauf erreur de ma part) google fait la même.

  9. #9
    Membre régulier
    Profil pro
    Inscrit en
    Mai 2006
    Messages
    82
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2006
    Messages : 82
    Points : 114
    Points
    114
    Par défaut
    Citation Envoyé par Angelsafrania Voir le message
    J'en utiliserais une uniquement quand le tout pourra tourner chez moi ...
    Je suis assez d'accord, et j'ai découvert Kalliope : https://kalliope-project.github.io/
    Cela à l'air vraiment prometteur °)

  10. #10
    Nouveau Candidat au Club
    Homme Profil pro
    Transcripteur audio
    Inscrit en
    Avril 2020
    Messages
    1
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : France, Seine Maritime (Haute Normandie)

    Informations professionnelles :
    Activité : Transcripteur audio

    Informations forums :
    Inscription : Avril 2020
    Messages : 1
    Points : 1
    Points
    1
    Par défaut
    Avec Speechmatics il y a une super qualité et de la ponctuation.

Discussions similaires

  1. Quelles sont les habitudes de programmation qui peuvent faire de vous un bon développeur ?
    Par Michael Guilloux dans le forum Débats sur le développement - Le Best Of
    Réponses: 69
    Dernier message: 20/09/2017, 19h55
  2. Réponses: 0
    Dernier message: 08/05/2015, 12h38
  3. [Avis] Quelles sont les meilleures API et outils Java ?
    Par Mickael Baron dans le forum API standards et tierces
    Réponses: 33
    Dernier message: 08/06/2011, 14h39
  4. Quelles sont les distibutions avec le kernel 2.4.x.x?
    Par barucca dans le forum Administration système
    Réponses: 7
    Dernier message: 01/04/2004, 15h44
  5. [CR][Jetform] Quelles sont les différences ?
    Par littlecow dans le forum SAP Crystal Reports
    Réponses: 2
    Dernier message: 23/07/2002, 11h40

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo