IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

L'application Google Gemini permet désormais de générer des fichiers PDF, Word, Excel et Google Docs


Sujet :

Intelligence artificielle

  1. #1
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    2 892
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 2 892
    Par défaut L'application Google Gemini permet désormais de générer des fichiers PDF, Word, Excel et Google Docs
    Google lance son tout dernier modèle d'IA, Gemini 3.1 Flash-Lite, conçu pour être le plus rapide et le plus rentable de la série Gemini 3

    Google a lancé son tout dernier modèle d'IA, Gemini 3.1 Flash-Lite, conçu pour être le plus rapide et le plus rentable de la série Gemini 3. Google affirme que cette nouvelle version est destinée aux développeurs qui ont besoin de traiter d'énormes quantités de données de manière rentable. Google explique que l'objectif principal de ce nouveau modèle est d'équilibrer une vitesse extrême et une intelligence profonde.

    Gemini, anciennement Bard, est un assistant conversationnel développé par l'entreprise Google. Pour générer du texte, il se base sur une famille de grands modèles de langage également appelée Gemini, introduite au public le 7 décembre 2023. Gemini est l'acronyme de Generalized Multimodal Intelligence Network. Gemini peut comprendre et interagir avec l'audio et la vidéo, et générer du texte, du code, des traductions. Il peut produire plusieurs types de contenu créatif (images, dessins, sons, musique, vidéos…).

    Google a lancé son tout dernier modèle d'IA, Gemini 3.1 Flash-Lite, conçu pour être le plus rapide et le plus rentable de la série Gemini 3. Google affirme que cette nouvelle version est destinée aux développeurs qui ont besoin de traiter d'énormes quantités de données de manière rentable. Le modèle est actuellement en phase de prévisualisation pour les développeurs utilisant Google AI Studio et pour les entreprises via Vertex AI.

    Google explique que l'objectif principal de ce nouveau modèle est d'équilibrer une vitesse extrême et une intelligence profonde. Alors que les modèles « Lite » étaient souvent considérés comme des versions « édulcorées » de l'IA, Google affirme que 3.1 Flash-Lite surpasse en réalité ses prédécesseurs dans plusieurs domaines clés. Selon l'entreprise, il est 2,5 fois plus rapide pour donner sa première réponse et offre une augmentation de 45 % de la vitesse de frappe globale par rapport à l'ancien Gemini 2.5 Flash.


    De plus, Google a fixé le prix de ce modèle à 0,25 dollar par million de jetons d'entrée, ce qui en fait l'un des modèles haut de gamme les plus rentables du marché. En outre, bien qu'il s'agisse d'un modèle « Lite », il a obtenu un score de 1432 au classement Arena.ai, surpassant même certains des modèles plus importants des générations précédentes en matière de raisonnement et de compréhension.

    « Google Gemini 3.1 Flash-Lite obtient un score Elo impressionnant de 1432 dans le classement Arena.ai et surpasse les autres modèles de niveau similaire dans les benchmarks de raisonnement et de compréhension multimodale, avec notamment 86,9 % sur GPQA Diamond et 76,8 % sur MMMU Pro, dépassant même les modèles Gemini plus importants des générations précédentes comme le 2.5 Flash », a déclaré la société.

    L'une des fonctionnalités les plus uniques de ce lancement est le niveau de réflexion, qui offre aux développeurs un « curseur » leur permettant de contrôler le niveau de réflexion de l'IA avant qu'elle ne s'exprime. Par exemple, pour des tâches simples telles que la traduction d'un document ou la modération de commentaires, les développeurs peuvent le régler sur « Low Thinking » (faible niveau de réflexion) afin de gagner du temps et de l'argent. Pour les tâches complexes, vous pouvez augmenter le niveau de « réflexion » afin d'obtenir un raisonnement plus approfondi et plus précis.

    « Les premiers testeurs ont souligné l'efficacité et les capacités de raisonnement de la version 3.1 Flash-Lite, affirmant qu'elle peut traiter des entrées complexes avec la précision d'un modèle de niveau supérieur, tout en suivant les instructions et en maintenant la conformité », a déclaré Google.

    Voici les performances du modèle, selon l'annonce de Google :

    Une rentabilité sans compromis

    Au prix de seulement 0,25 $/1 million de jetons d'entrée et 1,50 $/1 million de jetons de sortie, 3.1 Flash-Lite offre des performances améliorées à un coût bien inférieur à celui des modèles plus volumineux. Il surpasse 2.5 Flash avec un temps de réponse initial 2,5 fois plus rapide et une vitesse de sortie accrue de 45 %, selon le benchmark Artificial Analysis, tout en conservant une qualité similaire ou supérieure. Cette faible latence est nécessaire pour les workflows à haute fréquence, ce qui en fait un modèle idéal pour les développeurs qui souhaitent créer des expériences réactives en temps réel.

    Nom : 1.jpg
Affichages : 7184
Taille : 57,1 Ko

    3.1 Flash-Lite obtient un score Elo impressionnant de 1432 sur le classement Arena.ai et surpasse les autres modèles de niveau similaire dans les benchmarks de raisonnement et de compréhension multimodale, avec notamment 86,9 % sur GPQA Diamond et 76,8 % sur MMMU Pro, dépassant même les modèles Gemini plus volumineux des générations précédentes comme 2.5 Flash.

    Nom : 2.jpg
Affichages : 1641
Taille : 84,6 Ko

    Cette annonce intervient dans un contexte où Gemini semble rattraper son retard par rapport aux autres modèles d'IA. Alors que la compétition autour de l’intelligence artificielle générative est souvent racontée comme une succession de coups médiatiques, de démonstrations spectaculaires et d’annonces parfois précipitées, Google avance à un rythme plus feutré. Avec Gemini, son modèle d’IA unifié, le groupe semble aujourd’hui récolter les fruits d’une stratégie plus structurelle que narrative. Sans déclarer officiellement la victoire, Google apparaît de plus en plus comme un acteur central, voire dominant, dans la phase actuelle de la course à l’IA. C'est en tout cas l'avis de certains spécialistes comme Geoffrey Hinton, le « parrain de l'IA ».

    Source : Annonce de Gemini 3.1 Flash-Lite

    Et vous ?

    Pensez-vous que cette annonce est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Google introduit Gemini 3 Flash comme nouveau modèle par défaut dans l'application Gemini et le mode IA dans Google Search, se positionnant comme un modèle d'IA plus rapide et plus abordable

    OpenAI présente son nouveau modèle GPT-5.3 Instant, censé être plus utile en réduisant les refus inutiles et moins enclin à moraliser pour des dialogues plus naturels

    Anthropic améliore la mémoire de Claude afin d'attirer les utilisateurs souhaitant changer d'IA, grâce à une instruction générative et à un outil d'importation permettant de copier les données des utilisateurs
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  2. #2
    Inactif  

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    10 084
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 10 084
    Par défaut Le lancement de Gemini 3.1 Flash Live pourrait rendre plus difficile de savoir si vous parlez à un robot
    Gemini 3.1 Flash Live : Google déploie un agent vocal si naturel qu'il serait plus difficile de savoir si vous parlez à un robot,
    offrant une expérience plus intuitive aux développeurs et aux entreprises

    Google franchit un nouveau seuil avec Gemini 3.1 Flash Live, son modèle vocal le plus avancé à ce jour : réponses quasi instantanées, plus précises, suppression du bruit ambiant et support de plus de 90 langues. Le tout avec, en filigrane, une question qui dérange : sommes-nous encore capables de distinguer une machine d'un être humain au téléphone ?

    Il y a quelques années encore, l'IA conversationnelle se trahissait d'elle-même : pauses robotiques, intonation plate, incompréhension dès que la phrase sortait des sentiers battus. Ces défauts, aussi énervants que rassurants, constituaient une forme involontaire de marqueur. On savait à qui on avait affaire. Ce repère est en train de disparaître.

    Le 26 mars 2026, Google a annoncé Gemini 3.1 Flash Live, présenté comme son modèle audio et vocal de la plus haute qualité à ce jour. Le modèle est immédiatement disponible pour les développeurs via l'API Gemini Live dans Google AI Studio, pour les entreprises via Gemini Enterprise for Customer Experience, et pour le grand public à travers Gemini Live et Search Live. Search Live est ainsi déployé dans plus de 200 pays et territoires, dans toutes les langues où le mode IA est actuellement disponible.

    Ce déploiement massif et simultané n'est pas anodin. Il signale que Google considère cette technologie suffisamment mature pour l'exposer à des centaines de millions d'utilisateurs et ce dès maintenant.

    Moins de silence, plus d'intelligence

    Le premier reproche adressé aux assistants vocaux IA a toujours été la latence. Entre le moment où l'utilisateur finit de parler et celui où la réponse commence, le délai pouvait rendre la conversation artificielle, voire frustrante. Les chercheurs considèrent généralement que 300 millisecondes constituent le seuil au-delà duquel la perception de la parole se dégrade, mais Google n'a pas communiqué de chiffre précis pour Gemini 3.1 Flash Live. La firme préfère avancer ses résultats sur les benchmarks.

    Sur le ComplexFuncBench Audio, un test mesurant l'enchaînement de fonctions multiples avec contraintes, le modèle obtient un score de 90,8 %, surpassant ses prédécesseurs. Sur le BigBench Audio, qui évalue le raisonnement à partir de 1 000 questions audio, Gemini 3.1 Flash Live se hisse en tête du classement. Quant au Scale AI Audio MultiChallenge, conçu pour évaluer la capacité à gérer interruptions et hésitations typiques d'une vraie conversation, le modèle obtient 36,1 % avec le mode « thinking » activé et domine là aussi ses concurrents directs.

    Ces chiffres ne sont pas de la pure rhétorique marketing. L'Audio MultiChallenge teste précisément ce qui fait la substance d'une vraie conversation : les reprises, les changements de sujet à mi-phrase, les « euh » et les interruptions. C'est là que les anciens systèmes craquaient.

    Nom : complex.png
Affichages : 12834
Taille : 37,5 Ko

    Comprendre la frustration, pas seulement les mots

    Gemini 3.1 Flash Live a évolué pour mieux reconnaître les nuances acoustiques telles que le ton et le rythme, lui permettant de gérer des tâches complexes dans des environnements bruyants et de répondre avec précision aux expressions émotionnelles comme la frustration ou la confusion de l'utilisateur. Le modèle est plus efficace pour filtrer les bruits de fond et distinguer la parole pertinente des sons environnementaux comme la circulation ou la télévision allumée en arrière-plan. Pour le développement d'agents vocaux destinés à des centres de service client, qui représentent un marché colossal, cette capacité est déterminante.

    Du côté de Gemini Live, les réponses sont désormais plus rapides, avec moins de silences gênants, et le modèle peut suivre le fil d'une conversation deux fois plus longtemps qu'auparavant, ajustant dynamiquement la longueur et le ton de ses réponses selon le contexte.

    Nom : gemini flash.png
Affichages : 1988
Taille : 128,3 Ko

    Google, Verizon et Home Depot : le marché des robots téléphoniques

    L'annonce de Google est accompagnée de témoignages de partenaires industriels qui ont testé le modèle en conditions réelles. Des entreprises comme Verizon, LiveKit et The Home Depot ont fourni des retours positifs sur l'intégration de Gemini 3.1 Flash Live dans leurs flux de travail, soulignant la qualité améliorée et le naturel des conversations.

    Ces partenariats ne sont pas anodins. Ils indiquent clairement que la cible prioritaire de Google pour ce modèle n'est pas le particulier qui discute avec son téléphone dans son salon, mais bien les entreprises qui gèrent des millions d'interactions client par téléphone, chat vocal ou borne interactive. Home Depot, avec ses milliers de magasins et son service client à grande échelle, ou Verizon et ses dizaines de millions d'abonnés, sont exactement le type d'acteurs qui pourraient déployer des agents vocaux IA à grande échelle dans les mois qui viennent. Un déploiement discret, mais aux conséquences potentiellement massives sur l'emploi et sur la nature même du service client.

    SynthID : le tatouage sonore que vous n'entendrez jamais

    Face à cette montée en puissance du réalisme, Google a pris soin d'intégrer une réponse technique à la question de l'authenticité. Tout le contenu audio généré par Gemini 3.1 Flash Live est marqué avec SynthID, un filigrane imperceptible intégré directement dans le signal audio pour permettre la détection de contenus générés par l'IA et prévenir la diffusion de désinformation.

    Le principe de SynthID est élégant : le filigrane est intégré directement dans le contenu audio au moment de sa génération, conçu pour résister aux modifications courantes comme l'ajout de bruit, la compression MP3 ou les changements de vitesse de lecture. Il n'est pas perceptible à l'oreille humaine, mais peut être détecté algorithmiquement.

    Cependant, les limites de ce système sont réelles et documentées. SynthID n'a pas été adopté comme standard industriel : des acteurs majeurs comme Microsoft et Meta continuent de développer leurs propres systèmes propriétaires, créant un écosystème fragmenté où la détection inter-plateformes reste inefficace. Si une IA de Meta génère un contenu audio, SynthID ne pourra pas le détecter.

    Pire encore : SynthID n'est pas un détecteur universel d'IA. Il ne cherche pas à déterminer si un contenu est généré par une IA en général, il ne vérifie que la présence de sa propre signature. Ce filigrane fonctionne sur un mode « signé ou non signé », ce qui le rend inutile face à des contenus générés par d'autres systèmes, ou face à un acteur malveillant qui utiliserait un modèle alternatif précisément pour contourner la détection.

    Des outils de détection statiques comme le tatouage numérique sont peu susceptibles de suffire face à des défis d'authenticité qui se posent désormais en temps réel. La détection en temps réel de contenus audio ou vidéo générés par IA reste un domaine de recherche actif et non une réalité déployée.

    Le test de Turing est-il derrière nous ?

    C'est la vraie question que pose ce lancement. Les textes générés par l'IA avaient autrefois une signature qui permettait de les reconnaître, mais il est devenu de plus en plus difficile d'en identifier les particularités à mesure que la technologie s'améliore. La même évolution semble se produire pour l'audio génératif.

    Le test de Turing, formulé par Alan Turing en 1950, posait la question suivante : peut-on distinguer une machine d'un humain à travers une conversation ? Pour le texte, la réponse est de plus en plus nuancée. Pour la voix, la question redevient brûlante. Gemini 3.1 Flash Live ne prétend pas être humain, mais ses concepteurs reconnaissent eux-mêmes qu'il peut sonner comme tel.

    Ce glissement soulève des enjeux qui dépassent largement la technologie. Dans un centre d'appels, l'utilisateur a-t-il le droit de savoir qu'il parle à un agent IA ? La réglementation européenne (l'AI Act) exige que tous les systèmes d'IA garantissent que leurs sorties soient marquées dans un format lisible par machine et détectables comme générées artificiellement, avec une conformité pleine requise d'ici août 2026. Mais être techniquement marqué ne signifie pas être intelligible pour l'utilisateur final : un tatouage audio inaudible ne remplace pas une information claire en début d'appel.

    La transparence reste donc largement tributaire de la bonne volonté des entreprises qui déploient ces systèmes. Google fournit l'outil ; c'est à ses clients (Verizon, Home Depot, et les milliers d'entreprises qui adopteront ce modèle via l'API) de décider ce qu'ils en disent à leurs propres clients.

    Une course à l'audio où Google prend de l'avance

    Sur le plan concurrentiel, ce lancement positionne Google en avance sur OpenAI, dont le mode voix de GPT-4o reste la référence depuis 2024, et sur d'autres acteurs comme ElevenLabs ou Eleven Turbo, spécialisés dans la synthèse vocale. La prise en charge de plus de 90 langues pour les conversations multimodales en temps réel donne à Google une portée géographique que peu de concurrents peuvent égaler.

    L'intégration directe dans Search Live est particulièrement stratégique : elle transforme la recherche Google (historiquement textuelle et visuelle) en une expérience conversationnelle vocale. Un utilisateur peut désormais avoir une conversation en temps réel avec le moteur de recherche le plus utilisé au monde, en utilisant sa propre voix, dans sa propre langue, avec une réponse quasi immédiate. C'est une rupture d'usage considérable.

    La direction est claire : l'interface vocale devient un vecteur d'interaction IA de premier plan, et Google entend y occuper une position dominante. La question n'est plus de savoir si les agents vocaux IA vont se généraliser dans les services client, les applications mobiles et les interfaces domestiques, mais à quelle vitesse, et avec quels garde-fous.

    Source : Google

    Et vous ?

    La mention explicite « vous parlez à un agent IA » devrait-elle être obligatoire en début de chaque appel impliquant un système comme Gemini 3.1 Flash Live, au même titre qu'un consentement RGPD ?

    Le tatouage SynthID est-il une réponse sérieuse au problème de la désinformation audio, ou une communication de façade qui masque l'absence de standard interopérable entre acteurs ?

    Avec des agents vocaux capables de gérer des centaines de milliers d'appels simultanément, dans quel délai les centres d'appels humains deviendront-ils économiquement intenables pour les grands groupes ?

    Si un utilisateur ne peut plus distinguer une IA d'un humain au téléphone, la notion même de consentement éclairé dans une interaction commerciale a-t-elle encore un sens ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  3. #3
    Chroniqueur Actualités
    Avatar de Anthony
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Novembre 2022
    Messages
    2 200
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Novembre 2022
    Messages : 2 200
    Par défaut L'application Google Gemini permet désormais de générer des fichiers PDF, Word, Excel et Google Docs
    L'application Google Gemini permet désormais de générer des fichiers PDF, Word, Excel et Google Docs, réduisant le besoin de copier, coller ou reformater manuellement le contenu d'une application à l'autre

    L'application Gemini de Google permet désormais aux utilisateurs de créer des fichiers téléchargeables et partageables directement à partir d'une fenêtre de chat, ce qui réduit le besoin de copier, coller ou reformater manuellement le contenu d'une application à l'autre. Les textes, brouillons, résumés et idées peuvent désormais être transformés en fichiers structurés au sein même de Gemini.

    Le lancement de cette fonctionnalité fait suite à l'annonce de Gemini 3.1 Flash-Lite, le dernier modèle d'IA de Google, conçu pour être le plus rapide et le plus rentable de la série Gemini 3. Selon l'entreprise, cette nouvelle version est destinée aux développeurs qui ont besoin de traiter d'importantes quantités de données de manière rentable.

    « Il est désormais encore plus facile de transformer vos meilleures idées en fichiers téléchargeables et prêts à être partagés. Sur simple demande, Gemini peut désormais créer des fichiers PDF, Microsoft Word et Excel, Google Docs, Sheets, Slides et bien d'autres formats directement dans votre chat. Vous pouvez ainsi passer rapidement d'une idée à un fichier complet sans jamais quitter l'application Gemini », a indiqué Google sur son site.


    Au lieu de copier, coller et reformater, cette mise à jour permet de transférer facilement le travail des utilisateurs vers différentes applications. Ils pourront ainsi exporter leur proposition de budget vers un fichier Microsoft Excel (.xlsx), organiser des idées éparses sous forme de brouillon à puces ou synthétiser une longue collaboration en un fichier PDF ou Microsoft Word (.docx) d'une seule page.

    Cette fonctionnalité prend en charge les formats courants tels que :

    • Fichiers Google Workspace (Docs, Sheets et Slides)
    • Fichiers PDF (.pdf)
    • Microsoft Word (.docx)
    • Microsoft Excel (.xlsx)
    • Format CSV (.csv)
    • Format LaTeX (.tex)
    • Format texte brut (.txt)
    • Format RTF (.rtf)
    • Format Markdown (.md)

    Les fichiers générés peuvent être téléchargés directement sur l'appareil ou exportés vers Google Drive afin d'être modifiés et partagés dans Google Workspace. Gemini permet de générer un fichier par instruction générative. Il n'existe par ailleurs aucun paramètre d'administration pour cette fonctionnalité. Tous les utilisateurs finaux, quel que soit leur âge, ayant accès à l'application Gemini, pourront générer des fichiers.

    Nom : Google Gemini generation fichiers.gif
Affichages : 3683
Taille : 871,3 Ko

    Cette fonctionnalité est disponible dans le monde entier pour tous les clients Google Workspace, les abonnés à Workspace Individual et les utilisateurs disposant d'un compte Google personnel et connectés à l'application Gemini. Elle est accessible en indiquant le type de fichier souhaité dans l'interface de chat.

    Cette avancée intervient alors que la concurrence dans le domaine de l'IA générative atteint un niveau de maturité stratégique. Trois ans après avoir été pris au dépourvu par ChatGPT, certains chercheurs et benchmarks suggèrent que Google dispose désormais des atouts nécessaires pour détrôner OpenAI et ses concurrents.

    Des chercheurs et des personnalités influentes du secteur, comme Geoffrey Hinton, estiment en effet que l'approche plus discrète mais fondée sur des améliorations continues de Google pourrait lui permettre de s'imposer durablement. Dans un paysage dominé par des cycles d'innovation rapides, cette stratégie conforte la position de Gemini en tant que concurrent de premier plan, voire de prétendant crédible au leadership.

    Sources : Google (1, 2)

    Et vous ?

    Quel est votre avis sur le sujet ?
    Trouvez-vous cette initiative de Google crédible ou pertinente ?

    Voir aussi :

    Google vous veut et déploie de nouveaux outils pour Gemini qui vous permettent d'importer vos mémoires, votre contexte personnel et l'historique de vos conversations depuis d'autres applications d'IA

    Google lance Gemini Embedding 2, son premier modèle d'intégration multimodal natif qui mappe du texte, des images, des vidéos, des fichiers audio et des documents dans un seul espace d'intégration

    La fonctionnalité d'automatisation des tâches Google Gemini peut réserver un Uber ou commander un repas pour vous, elle est disponible en version bêta sur les smartphones Android Pixel 10 et Galaxy S26
    Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  4. #4
    Candidat au Club

    Homme Profil pro
    ingenieur CVC
    Inscrit en
    Janvier 2017
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 51
    Localisation : Suisse

    Informations professionnelles :
    Activité : ingenieur CVC

    Informations forums :
    Inscription : Janvier 2017
    Messages : 5
    Par défaut Essayé pas pu
    ca marche pas bien leur truc, d un pdf de 755ko, il m a fait un fichier de 4ko

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo