IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Java Discussion :

Combiner regexs en automate a etats finis deterministe


Sujet :

Langage Java

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre régulier
    Inscrit en
    Juin 2008
    Messages
    8
    Détails du profil
    Informations personnelles :
    Âge : 41

    Informations forums :
    Inscription : Juin 2008
    Messages : 8
    Par défaut Combiner regexs en automate a etats finis deterministe
    Je dispose d'un algorithme qui determine la nature d'une chaine de charactere en testant une liste d'expressions regulieres specifiees par l'utilisateur.
    Pour faire simple, il s'agit de determiner la nature d'une ligne de log.
    L'utilisateur peut donc configurer plusieurs expressions regulieres pour matcher plusieurs types de log (apache, etc.).

    Il se trouve helas que c'est une goulot d'etranglement de l'algorithme, car si l'utilisateur specifie un tres grand nombre d'expressions regulieres dans son fichier de configuration, chaque expression est testee sur la chaine de characteres a juger, jusqu'a ce qu'il y ait un matching.

    Je souhaite donc faire un algorithme different, qui compilerait toutes les expressions regulieres dans un seul automate deterministe, et testerait la chaine sur cet automate pour faire le matching, ce qui au final serait tres rapide meme avec un grand nombre d'expressions specifiees dans la configuration.

    Existe t il deja des scripts, libraries ou autre bout de code qui se rapproche de ce que je cherche a effectuer ?
    Est-ce que coder "de 0" un tel algorithme parrait viable en java ? (en sachant qu'il faut au final que cela soit plus rapide que le fait de tester a la suite plusieurs expressions regulieres sur la chaine a analyser)

  2. #2
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    tu peux toujours tenter cette expression régulière là

    (expression1)|(expression2)|(expression3)

    mais je suis pas sur que ce soit plus rapide. Par contre, un point important, ce qui prend du temps avec les regexp, c'est pas leur exécution, mais leur compilation. Tu fait biens tout tes compile une fois pour toutes? Ou tu fait naivement à chaque fois "if (maStringDeLog.match(expression)) ?

  3. #3
    Membre régulier
    Inscrit en
    Juin 2008
    Messages
    8
    Détails du profil
    Informations personnelles :
    Âge : 41

    Informations forums :
    Inscription : Juin 2008
    Messages : 8
    Par défaut
    Heu, je n'ai pas le code en face de moi en fait (je ne suis pas encore au boulot), mais je pense qu'elle sont compilees comme il faut une seule fois... j'espere.

    Mais ce que je voulais dire, c'est que je cherche a effectuer une action particuliere (et donc differente) selon l'expression qui match ma chaine de caracteres.
    Ainsi, je ne cherche pas a effectuer une seule action, dans le cas ou ma chaine de caracteres est matchee par au moins une des expressions.

    J'imaginais donc creer une fonction qui compile toutes mes expressions regulieres passes par un tableau, et qui creerait un automate. Lorsque je passerais une chaine de charactere a cet automate, il me rendrait un indice numerique, qui serait celui de l'expression reguliere dans le tableau passe a la construction, qui a matche la chaine de charactere (et par exemple -1 ou autre chose lorsqu'on arrive pas dans un etat final : aucun matching).

  4. #4
    Membre chevronné

    Inscrit en
    Juillet 2008
    Messages
    232
    Détails du profil
    Informations forums :
    Inscription : Juillet 2008
    Messages : 232
    Par défaut
    Ce que tu decris ressemble a un analyseur lexical (lexical parser), voir du cote de JavaCC, Antlr ou peut-etre Tom si tu trouves une solution...

  5. #5
    Expert éminent
    Avatar de tchize_
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    25 482
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : Belgique

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 25 482
    Par défaut
    accessoirement, les expressions régulières, autant que je sache, sont déjà des automates. Si elle prenent vraiment trop de temps c'est que tu les a faites trop complexes. tu peux peut etre accélerer en faisant 2 expressions régulières, une qui fait un "survol" de la chaine et qui permet d'éliminer rapidement 90% des cas, puis tu fait l'expression en elle meme sur les chaines qui matchent.

    Pour ce qui est du goulot d'étranglement, si je puis me permettre, un utilisateur qui tente de faire matcher 200 expressions régulière en temps réel du des fichiers de logs ou y 3 lignes pas secondes qui arrive .... n'est pas très malin!

    Et meme comme çà, je vois pas pourquoi çà ne suivrais pas au niveau de java.

Discussions similaires

  1. Minimisation des automates finis deterministes
    Par questionsinfo dans le forum Langages de programmation
    Réponses: 10
    Dernier message: 25/03/2013, 21h51
  2. Minimisation des automates finis deterministes
    Par questionsinfo dans le forum Algorithmes et structures de données
    Réponses: 1
    Dernier message: 30/01/2013, 18h23
  3. automate fini deterministe
    Par toonpax dans le forum Langages de programmation
    Réponses: 1
    Dernier message: 07/07/2010, 15h15
  4. [Etat-Transition] diagramme etat transition = automate fini deterministe ou non deterministe ou les 2 ?
    Par fasfousba dans le forum Autres Diagrammes
    Réponses: 3
    Dernier message: 02/01/2008, 09h12
  5. theorie de langages : automate à etat fini
    Par Miss_Miss dans le forum Algorithmes et structures de données
    Réponses: 6
    Dernier message: 13/06/2006, 20h46

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo