Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Discussion :

Live Transcribe : le moteur vocal de Google passe en open source


Sujet :

Logiciels Libres & Open Source

  1. #1
    Chroniqueur Actualités
    Avatar de Bruno
    Homme Profil pro
    Enseignant
    Inscrit en
    mai 2019
    Messages
    119
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cameroun

    Informations professionnelles :
    Activité : Enseignant
    Secteur : Enseignement

    Informations forums :
    Inscription : mai 2019
    Messages : 119
    Points : 2 389
    Points
    2 389
    Par défaut Live Transcribe : le moteur vocal de Google passe en open source
    Live Transcribe : le moteur vocal de Google passe en open source,
    afin d’aider les développeurs à exploiter cette technologie

    Ce vendredi 16 août 2019, Google a annoncé l’ouverture de la source de son moteur de traitement de la parole. La société espère que cela permettra à tout développeur de livrer des sous-titres pour les conversations longues. Le code source est disponible maintenant sur GitHub.

    Présentation de Live Transcribe

    Live Transcribe est une application Android qui fournit un sous-titrage en temps réel aux personnes sourdes ou malentendantes. Permettant ainsi aux sourds et malentendants d’avoir des conversations facilement, avec juste un téléphone Android. Elle est facile à utiliser, partout où vous avez une connexion Wi-Fi ou internet. Gratuite, elle est alimentée par la technologie de reconnaissance vocale de Google. Les sous-titres s’adaptent au fil de la conversation et comme les conversations ne sont pas stockées sur des serveurs, elles restent sécurisées sur votre appareil.

    Construit avec l'aide d'experts, Google, s’était associé à l’Université Gallaudet, une école de choix pour les sourds et les malentendants, afin de s'assurer que Live Transcribe était utile pour un usage quotidien. « Nous pouvons maintenant faire des choses qui n’étaient même pas possible il y’a quelques années, comme prendre part à des conversations ou prendre part de manière décontractée lorsque l'occasion se présente », soutien Christian Vogler Professeur et chercheur à l’université Gallaudet.

    Nom : Gallaudet456.png
Affichages : 1727
Taille : 23,0 Ko

    Ce nouveau service Android peut être téléchargé en tant qu'application sur le Google Play Store. Après avoir installé l'application, vous pouvez activer Live Transcribe dans les paramètres d'accessibilité de votre téléphone et appuyez sur l'application pour l'utiliser ou, si vous avez un Pixel 3, activez simplement l'application dans vos paramètres d’accessibilité.

    Nom : pixel3456.png
Affichages : 1724
Taille : 18,2 Ko

    « Au cours des nombreux tests utilisateurs, nous avons constaté qu'il n'est pas si facile de fournir de bonnes légendes pour les conversations longues, et nous souhaitons aider les développeurs à exploiter davantage ce que nous avons appris », déclare Google. « Aujourd'hui, nous partageons notre moteur de transcription avec le monde afin que les développeurs du monde entier puissent créer des applications avec une transcription robuste ».

    Travailler autour du cloud

    La reconnaissance vocale de Live Transcribe est fournie par l'API Cloud Speech à la pointe de la technologie de Google qui, dans la plupart des conditions, offre une précision de transcription très impressionnante. Cependant, le recours au cloud introduit plusieurs complications, de la robustesse face aux connexions réseau, aux coûts de données et à la latence en constante évolution.

    Ceux qui ont travaillé avec l’API Cloud Speech savent que l'envoi de flux audio infiniment longs n'est actuellement pas pris en charge. Pour résoudre ce problème, Google a pris des mesures pour fermer et redémarrer les demandes de diffusion en continu avant la fin du délai d'attente, notamment en relançant la session pendant de longues périodes de silence et en fermant chaque fois qu'une pause dans la parole est détectée. Sinon, cela entraînerait une phrase ou un mot tronqué.

    La diffusion audio en continu comporte ses propres défis. Dans de nombreux pays, les données réseau sont assez coûteuses, en Afrique par exemple, où la connexion Internet est faible, la bande passante peut être limitée.

    Caractéristiques du module de reconnaissance vocale automatique (ASR)

    • robuste à la perte de réseau étendue. Se reconnectera même si le réseau est en panne depuis des heures. Aucune reconnaissance vocale ne peut être délivrée sans connexion ;
    • prise en charge intégrée des détecteurs de parole, qui peut être utilisée pour arrêter l'ASR pendant des silences étendus afin d'économiser de l'argent et des données ;
    • prise en charge intégrée de l'identification du locuteur, qui peut être utilisée pour étiqueter ou colorier le texte en fonction du numéro du locuteur ;
    • perte réseau robuste à brève (qui se produit souvent lors de déplacements et de la commutation réseau/wifi). Le texte n'est pas perdu, seulement différé ;
    • prise en charge de plus de 70 langues.

    Les bibliothèques fournies sont presque identiques à celles exécutées dans l'application de production Live Transcribe. Elles ont été testées sur le terrain, et ce, de manière approfondie. Cependant, les tests eux-mêmes ne sont pas à source ouverte pour le moment.


    Source : Googleblog

    Et vous ?

    Quel est votre avis sur le sujet ?

    Comment comprendre l'ouverture de Google pour ce projet ?

    Voir aussi :

    Microsoft apporte le sous-titrage des conversations audio et vidéo sur Skype, PowerPoint devra attendre début 2019 pour pouvoir en bénéficier
    Bien avec vous.

  2. #2
    Membre éprouvé

    Homme Profil pro
    Écrivain public, Économiste et Programmeur Free Pascal
    Inscrit en
    août 2005
    Messages
    205
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Écrivain public, Économiste et Programmeur Free Pascal
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : août 2005
    Messages : 205
    Points : 1 141
    Points
    1 141
    Billets dans le blog
    39
    Par défaut Énergie
    Où sont les serveurs de transcriptions ?
    Matthieu Giroux - Rennes - 13 Rue François Tanguy Prigent A 15
    Livres : editions.liberlog.org/
    Contact : matthius@framasphere.org
    Tous les liens : www.agoravox.tv/auteur/matthius

  3. #3
    Membre éprouvé

    Homme Profil pro
    Écrivain public, Économiste et Programmeur Free Pascal
    Inscrit en
    août 2005
    Messages
    205
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Écrivain public, Économiste et Programmeur Free Pascal
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : août 2005
    Messages : 205
    Points : 1 141
    Points
    1 141
    Billets dans le blog
    39
    Matthieu Giroux - Rennes - 13 Rue François Tanguy Prigent A 15
    Livres : editions.liberlog.org/
    Contact : matthius@framasphere.org
    Tous les liens : www.agoravox.tv/auteur/matthius

  4. #4
    Membre expert
    Homme Profil pro
    Développeur informatique
    Inscrit en
    avril 2017
    Messages
    755
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : avril 2017
    Messages : 755
    Points : 3 372
    Points
    3 372
    Par défaut
    Citation Envoyé par Bruno Voir le message
    Live Transcribe : le moteur vocal de Google passe en open source,
    Heu non. Si j'ai bien compris, c'est "juste" le service qui est en accès libre. Ou alors, je veux bien un lien vers le code.

  5. #5
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    janvier 2016
    Messages
    1
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : janvier 2016
    Messages : 1
    Points : 2
    Points
    2
    Par défaut
    En effet, seul le client (qui communique avec le service de google : https://cloud.google.com/speech-to-text/docs/) est open-source.
    https://github.com/google/live-transcribe-speech-engine

Discussions similaires

  1. Smile fait appel à vos avis sur les CMS open-source
    Par Gordon Fowler dans le forum Outils
    Réponses: 0
    Dernier message: 25/04/2013, 14h10
  2. question sur les erp open source
    Par terra prime dans le forum Forum général ERP
    Réponses: 3
    Dernier message: 22/06/2009, 14h49
  3. question sur les erp open source
    Par terra prime dans le forum SAP
    Réponses: 0
    Dernier message: 22/06/2009, 07h12

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo