IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Google publie en open source sur GitHub "Magika", un outil d'identification des types de fichiers


Sujet :

Intelligence artificielle

  1. #1
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    942
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 942
    Points : 66 356
    Points
    66 356
    Par défaut Google publie en open source sur GitHub "Magika", un outil d'identification des types de fichiers
    Google publie en open source sur GitHub "Magika", un outil alimenté par l'IA pour l'identification rapide et efficace des types de fichiers

    Google a décidé de rendre Magika open source, mais de quoi s'agit-il exactement ? Il s'agit d'un système innovant basé sur l'IA que le géant de la recherche a conçu pour révolutionner la manière dont les types de fichiers binaires et textuels sont identifiés. Magika se distingue par sa capacité à identifier les fichiers avec précision en quelques millisecondes, même lorsqu'il fonctionne sur une unité centrale.

    Magika utilise un modèle d'apprentissage profond (deep-learning) personnalisé et hautement optimisé qui a été méticuleusement conçu et entraîné à l'aide de Keras. Ce modèle est remarquablement léger, puisqu'il ne pèse qu'environ 1 Mo. Pour l'inférence, Magika utilise Onnx comme moteur, ce qui garantit que les fichiers sont identifiés rapidement, presque aussi rapidement que les outils sans IA, même sur un CPU.

    Les performances de Magika sont tout simplement impressionnantes. Lorsqu'il est évalué sur un benchmark d'un million de fichiers couvrant plus de 100 types de fichiers, Magika surpasse les outils existants d'environ 20 %. Le système affiche des gains de performance encore plus importants pour les fichiers textuels, y compris les fichiers de code et les fichiers de configuration, qui ont traditionnellement posé des problèmes aux autres outils.

    Nom : 0.png
Affichages : 199693
Taille : 150,4 Ko

    En interne, Google a déjà exploité Magika pour améliorer la sécurité des utilisateurs. Le système est déployé à grande échelle pour acheminer les fichiers dans Gmail, Drive et Safe Browsing vers les scanners de sécurité et de règles de contenu appropriés. Avec Magika, Google a observé une amélioration de 50 % de la précision d'identification des types de fichiers par rapport aux systèmes précédents qui s'appuyaient sur des règles élaborées à la main. Cette amélioration de la précision a permis d'analyser 11 % de fichiers supplémentaires à l'aide de scanners de documents spécialisés dans l'IA malveillante et de réduire le nombre de fichiers non identifiés à 3 %.

    En outre, l'intégration prochaine de Magika avec VirusTotal promet d'améliorer encore l'efficacité et la précision de la plateforme. Magika agira comme un préfiltre avant que les fichiers ne soient analysés par Code Insight de VirusTotal, qui utilise l'IA générative de Google pour détecter les codes malveillants. Cette collaboration devrait contribuer de manière significative à l'écosystème mondial de la cybersécurité.

    En ouvrant Magika, Google entend aider d'autres logiciels à améliorer la précision de leur identification de fichiers et fournir aux chercheurs une méthode fiable d'identification des types de fichiers à grande échelle. Le code et le modèle de Magika sont désormais librement accessibles sur GitHub sous la licence Apache2.

    Magika peut être facilement installé en tant qu'utilitaire autonome et bibliothèque Python via le gestionnaire de paquets pypi avec la simple commande pip install magika, sans GPU requis. Un package npm expérimental est également disponible pour ceux qui souhaitent utiliser la version TFJS.

    Nom : 1.png
Affichages : 43953
Taille : 56,2 Ko

    Magika : Identification rapide et efficace des types de fichiers grâce à l'IA

    Goole met en open source Magika, le système d'identification des types de fichiers alimenté par l'IA de Google, afin d'aider d'autres personnes à détecter avec précision les types de fichiers binaires et textuels. Sous le capot, Magika utilise un modèle d'apprentissage profond personnalisé et hautement optimisé, permettant une identification précise des fichiers en quelques millisecondes, même lorsqu'il est exécuté sur un processeur.


    Pourquoi l'identification du type de fichier est difficile

    Depuis les premiers jours de l'informatique, la détection précise des types de fichiers a été cruciale pour déterminer comment traiter les fichiers. Linux est équipé de libmagic et de l'utilitaire file, qui ont servi de norme de facto pour l'identification des types de fichiers pendant plus de 50 ans. Aujourd'hui, les navigateurs web, les éditeurs de code et d'innombrables autres logiciels s'appuient sur la détection du type de fichier pour décider comment rendre correctement un fichier. Par exemple, les éditeurs de code modernes utilisent la détection du type de fichier pour choisir le schéma de coloration syntaxique à utiliser lorsque le développeur commence à taper dans un nouveau fichier.

    La détection précise du type de fichier est un problème notoirement difficile, car chaque format de fichier a une structure différente, voire pas de structure du tout. Cela est particulièrement difficile pour les formats textuels et les langages de programmation, car ils ont des constructions très similaires. Jusqu'à présent, libmagic et la plupart des autres logiciels d'identification de type de fichier s'appuient sur un ensemble d'heuristiques et de règles personnalisées pour détecter chaque format de fichier.

    Cette approche manuelle est à la fois chronophage et sujette aux erreurs, car il est difficile pour les humains de créer des règles généralisées à la main. Pour les applications de sécurité en particulier, la création d'une détection fiable est particulièrement difficile car les attaquants tentent constamment de brouiller la détection avec des charges utiles conçues par des adversaires.

    Pour résoudre ce problème et fournir une détection rapide et précise des types de fichiers, Google a étudié et développé Magika, un nouveau détecteur de types de fichiers basé sur l'intelligence artificielle. Sous le capot, Magika utilise un modèle d'apprentissage profond personnalisé et hautement optimisé, conçu et entraîné à l'aide de Keras, qui ne pèse qu'environ 1 Mo. Au moment de l'inférence, Magika utilise Onnx comme moteur d'inférence pour s'assurer que les fichiers sont identifiés en quelques millisecondes, presque aussi rapidement qu'un outil sans IA, même sur CPU.


    Performance de Magika

    Nom : 2.png
Affichages : 43954
Taille : 88,7 Ko

    En termes de performances, Magika, grâce à son modèle d'IA et à son vaste ensemble de données d'entraînement, est capable de surpasser les autres outils existants d'environ 20 % lorsqu'il est évalué sur un benchmark de 1 million de fichiers qui englobe plus de 100 types de fichiers. En décomposant par type de fichier, comme indiqué dans le tableau ci-dessous, on constate des gains de performance encore plus importants sur les fichiers textuels, y compris les fichiers de code et les fichiers de configuration avec lesquels d'autres outils peuvent éprouver des difficultés.

    Nom : 3.png
Affichages : 44306
Taille : 361,1 Ko


    Magika chez Google

    Google décrit son utilisation de Magika comme suit :

    En interne, Magika est utilisé à grande échelle pour améliorer la sécurité des utilisateurs de Google en acheminant les fichiers Gmail, Drive et Safe Browsing vers les scanners de sécurité et de règles de contenu appropriés. L'analyse d'une moyenne hebdomadaire de centaines de milliards de fichiers révèle que Magika améliore la précision de l'identification des types de fichiers de 50 % par rapport à notre système précédent, qui reposait sur des règles élaborées à la main. En particulier, cette amélioration de la précision nous permet d'analyser 11 % de fichiers supplémentaires avec nos scanners de documents malveillants spécialisés et de réduire le nombre de fichiers non identifiés à 3 %.

    L'intégration prochaine de Magika à VirusTotal viendra compléter la fonctionnalité Code Insight de la plateforme, qui utilise l'IA générative de Google pour analyser et détecter les codes malveillants. Magika agira comme un préfiltre avant que les fichiers ne soient analysés par Code Insight, améliorant ainsi l'efficacité et la précision de la plateforme. Cette intégration, due à la nature collaborative de VirusTotal, contribue directement à l'écosystème mondial de la cybersécurité, favorisant un environnement numérique plus sûr.
    Rendre open-source Magika

    En mettant Magika en open-source, Google souhaite aider d'autres logiciels à améliorer la précision de leur identification de fichiers et offrir aux chercheurs une méthode fiable pour identifier les types de fichiers à grande échelle.

    Le code et le modèle de Magika sont disponibles gratuitement dès aujourd'hui sur Github sous la licence Apache2. Magika peut également être rapidement installé en tant qu'utilitaire autonome et bibliothèque python via le gestionnaire de paquets pypi en tapant simplement pip install magika sans GPU requis. Google a également un package npm expérimental si vous souhaitez utiliser la version TFJS.

    Vous pouvez essayer la démo web de Magika dès aujourd'hui, ou l'installer en tant que bibliothèque Python et outil de ligne de commande autonome en utilisant la ligne de commande standard pip install magika.

    Source : Google

    Et vous ?

    Quel est votre avis sur le sujet ?

    Voir aussi :

    Google lance Gemini 1.5, une semaine après Gemini Ultra 1.0. « Gemini 1.5 Pro atteint une qualité comparable à 1.0 Ultra, tout en utilisant moins de calcul », explique le PDG Sundar Pichai

    Google I/O 2023 : l'IA est désormais omniprésente dans les produits phares de Google. L'entreprise présente ses dernières innovations en matière de technologie, d'IA, de cloud computing
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  2. #2
    Membre averti
    Homme Profil pro
    autre
    Inscrit en
    Juin 2014
    Messages
    96
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : autre

    Informations forums :
    Inscription : Juin 2014
    Messages : 96
    Points : 344
    Points
    344
    Par défaut
    Gnnn ???

    Pour l'inférence, Magika utilise Onnx comme moteur, ce qui garantit que les fichiers sont identifiés rapidement, presque aussi rapidement que les outils sans IA, même sur un CPU.

  3. #3
    Membre régulier
    Profil pro
    Inscrit en
    Mai 2002
    Messages
    59
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2002
    Messages : 59
    Points : 82
    Points
    82
    Par défaut
    Citation Envoyé par _toma_ Voir le message
    Gnnn ???
    Onnx est un format de modèle IA qui permet d'être chargé avec différentes librairies de ML. Et le modèle est optimisé en taille et en algo en fonction du mode de chargement. Donc en soit, c'est pas faux de dire que ça aide grandement à être assez rapide sur un CPU. C'est juste un peu mal dit, mais ce n'est pas faux en soit.

  4. #4
    Membre averti
    Homme Profil pro
    autre
    Inscrit en
    Septembre 2015
    Messages
    185
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : autre

    Informations forums :
    Inscription : Septembre 2015
    Messages : 185
    Points : 426
    Points
    426
    Par défaut
    Tiens, il ne catégorise pas les fichiers MIDI... (et depuis Firefox, cela marche mal). De même avec un fichier DOCX (là cela tourne indéfiniment)

    Je crois que je vais garder assez longtemps la commande file qui affiche des informations supplémentaires (dimension des images par exemple).

    Ceci-dit il commence à y avoir souvent des fichiers basés sur une compression ZIP (fichiers JAR, DOCX...) qui peuvent être difficile à classer par les méthodes de l'utilitaire file.

Discussions similaires

  1. Réponses: 0
    Dernier message: 18/02/2021, 07h44
  2. Réponses: 0
    Dernier message: 11/11/2019, 10h55
  3. Réponses: 0
    Dernier message: 25/06/2014, 19h40
  4. Google publie en open source Zopfli
    Par Hinault Romaric dans le forum Algorithmes et structures de données
    Réponses: 9
    Dernier message: 06/03/2013, 12h46
  5. Réponses: 25
    Dernier message: 30/08/2012, 10h28

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo