IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Algorithmes et structures de données Discussion :

Algo de création de titre pour document


Sujet :

Algorithmes et structures de données

  1. #1
    Membre actif Avatar de scaleo
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    327
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2005
    Messages : 327
    Points : 219
    Points
    219
    Par défaut Algo de création de titre pour document
    Bonjour, je travaille actuellement sur un desktop search perso, mais je suis confronté a un problème certain document de mon pc non par de titre très parlant ont dira du genre 06 - 04 - 2005 c'est pas vraiment très préçis .

    Je me suis donc mis a la recherche d'un algorithme capable a partir du contenue textuel d'un document de générer un titre le plus exhaustif possible et je n'ai rien trouvé, c'est surtout que je ne sais pas quoi cherché.

    merci de votre aide parce que la je galère vraiment !!!!
    Vista powaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa ::

  2. #2
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Bonjour,

    la seule idée qui me viendrait à l'esprit, serait de chercher les mots non triviaux (donc pas des articles, des adjectifs, ... vraiment des noms) qui apparaissent le plus souvent.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  3. #3
    Membre éprouvé Avatar de zooro
    Homme Profil pro
    Développeur Java
    Inscrit en
    Avril 2006
    Messages
    921
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : France, Marne (Champagne Ardenne)

    Informations professionnelles :
    Activité : Développeur Java

    Informations forums :
    Inscription : Avril 2006
    Messages : 921
    Points : 1 260
    Points
    1 260
    Par défaut
    Citation Envoyé par ToTo13
    la seule idée qui me viendrait à l'esprit, serait de chercher les mots non triviaux (donc pas des articles, des adjectifs, ... vraiment des noms) qui apparaissent le plus souvent.
    Oui, du genre synthèse automatique sous Word.
    [alkama] quelqu'un est allé voir la guerre des mondes?
    [@Chrisman] j'espère pour spielberg
    --- bashfr.org

  4. #4
    Rédacteur
    Avatar de cladsam
    Profil pro
    Inscrit en
    Août 2003
    Messages
    1 785
    Détails du profil
    Informations personnelles :
    Âge : 44
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations forums :
    Inscription : Août 2003
    Messages : 1 785
    Points : 2 436
    Points
    2 436
    Par défaut
    Bonjour,

    ce dont tu parles la, c'est du domaine du TAL ( Traitement Automatisé des Langues). Tu peux faire des recherches sur des "plates formes d'indexation" ou "indexation". Je te conseilles des sites de linguistique, renseigne toi sur les bases de connaissance.
    Je te recommande CECI comme première piste de recherche, c'est un site issu d'un projet de recherche de l'INIST CNRS à Nancy tu devrais y trouver des pistes sérieuses.
    fait également des recherches sur les lemmatiseurs.
    Chef de Projet SAP. Certifié Prince2 Practitioner
    ---------------------------------------------------
    Anakin Skywalker turned to the Dark Side after his failed attempt to upgrade R/2-D2 to R/3-D2.

  5. #5
    Membre actif Avatar de scaleo
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    327
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2005
    Messages : 327
    Points : 219
    Points
    219
    Par défaut
    Effectivement tout cela est très intéressant et c'est exactement ce que je cherche j'ai par contre une intéragation les algorithme de " lemmatisation " sont il suffisament rapide pour permetre une génération des titres a la volé ou vaut il mieux que je " lemmentise " dès l'indexation
    Vista powaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa ::

  6. #6
    Rédacteur
    Avatar de cladsam
    Profil pro
    Inscrit en
    Août 2003
    Messages
    1 785
    Détails du profil
    Informations personnelles :
    Âge : 44
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations forums :
    Inscription : Août 2003
    Messages : 1 785
    Points : 2 436
    Points
    2 436
    Par défaut
    Une petite piste donnée par ma compagne après avoir discuté sur ton problème ( elle sait de quoi cela parle car le site que je t'ai donné a été initié en se basant sur ses travaux de recherche ( elle est linguiste)).
    Elle m'a donné des pistes simples: la plupart des documents on une structure semblable. En particulier, le titre étant sensé etre l'expression qui caractérise le mieux le document, il a toute les chances
    - d'etre repris dans le document
    - de l'être dans le debut du paragraphe d'introduction et dans le corps du paragraphe de conclusion
    - de ne pas comporter de groupe verbal conjugué.

    Par exemple tu trouveras plus "réalisation d'un site Web" que "comment vous devez faire pour réaliser un site web".

    ---> donc en éliminant les groupes verbaux conjugués tu approches de la solution

    Ensuite tu trouveras surement un truc du genre:

    La réalisation de sites web requiert une bonne connaissance du HTML qui est la base de tout page web...


    --> reprise dans l'intro du titre

    meme demarche pour la conclusion.

    Ensuite, si tu veux faire une recherche plus précise (mais plus couteuse), un étiquetage des mots par catégorie de thèmes abordés pourra te permettre d'effectuer une indexation et, via des outils statistiques, de créer un index thématique du document pour déduire ton titre.

    Quant à la lemmatisation, cela dépend de la langue, ma compagne et moi avons implémenté un début de lemmatiseur anglais à partir d'un algorithme publique connu, je peux au besoin te donner les sources.

    Ca dépend aussi du langages car cela utilise beaucoup les expressions rationnelles, donc en PERL ca va très bien, dans des langages qui implémentent les bibliothèques compatibles PERL aussi, dans les autres langages c'est moins sur...

    Il faut aussi savoir que la lemmatisation atoujours un pourcentage d'erreur aucun algo de ce type n'est parfait a 100%, il n'est pas systematique de retrouver la racine d'un mot à partir de règles sinon ce serait bien simple.

    Du coup, la solution peu consister a implementer un dictionnaire qui limite les cas d'erreur, la taille du dictionnaire en question dépendant du ratio erreur de lemmatisation/ lourdeur d'implémentation que tu peux accepter

    voila voila
    Chef de Projet SAP. Certifié Prince2 Practitioner
    ---------------------------------------------------
    Anakin Skywalker turned to the Dark Side after his failed attempt to upgrade R/2-D2 to R/3-D2.

  7. #7
    Membre actif Avatar de scaleo
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    327
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2005
    Messages : 327
    Points : 219
    Points
    219
    Par défaut
    Citation Envoyé par cladsam
    Une petite piste donnée par ma compagne après avoir discuté sur ton problème ( elle sait de quoi cela parle car le site que je t'ai donné a été initié en se basant sur ses travaux de recherche ( elle est linguiste)).
    Elle m'a donné des pistes simples: la plupart des documents on une structure semblable. En particulier, le titre étant sensé etre l'expression qui caractérise le mieux le document, il a toute les chances
    - d'etre repris dans le document
    - de l'être dans le debut du paragraphe d'introduction et dans le corps du paragraphe de conclusion
    - de ne pas comporter de groupe verbal conjugué.

    Par exemple tu trouveras plus "réalisation d'un site Web" que "comment vous devez faire pour réaliser un site web".

    ---> donc en éliminant les groupes verbaux conjugués tu approches de la solution

    Ensuite tu trouveras surement un truc du genre:

    La réalisation de sites web requiert une bonne connaissance du HTML qui est la base de tout page web...


    --> reprise dans l'intro du titre

    meme demarche pour la conclusion.

    Ensuite, si tu veux faire une recherche plus précise (mais plus couteuse), un étiquetage des mots par catégorie de thèmes abordés pourra te permettre d'effectuer une indexation et, via des outils statistiques, de créer un index thématique du document pour déduire ton titre.

    Quant à la lemmatisation, cela dépend de la langue, ma compagne et moi avons implémenté un début de lemmatiseur anglais à partir d'un algorithme publique connu, je peux au besoin te donner les sources.

    Ca dépend aussi du langages car cela utilise beaucoup les expressions rationnelles, donc en PERL ca va très bien, dans des langages qui implémentent les bibliothèques compatibles PERL aussi, dans les autres langages c'est moins sur...

    Il faut aussi savoir que la lemmatisation atoujours un pourcentage d'erreur aucun algo de ce type n'est parfait a 100%, il n'est pas systematique de retrouver la racine d'un mot à partir de règles sinon ce serait bien simple.

    Du coup, la solution peu consister a implementer un dictionnaire qui limite les cas d'erreur, la taille du dictionnaire en question dépendant du ratio erreur de lemmatisation/ lourdeur d'implémentation que tu peux accepter

    voila voila

    Les sources de cet algo m'interesse beaucoup !!
    Vista powaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa ::

  8. #8
    Expert éminent Avatar de Graffito
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    5 993
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 993
    Points : 7 903
    Points
    7 903
    Par défaut
    Bonjour,

    Juste une petite remarque :
    Les mots/expressions intéressants pour le titre doivent non seulement apparaître souvent dans le document (sans être des mots "outils"), mais également être discriminant par rapport aux autres documents, c'est à dire apparaître dans peu de documents.
    " Le croquemitaine ! Aaaaaah ! Où ça ? " ©Homer Simpson

  9. #9
    Membre actif Avatar de scaleo
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    327
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2005
    Messages : 327
    Points : 219
    Points
    219
    Par défaut
    Pour les dictionnaires je voulais utiliser ceux de http://www.freelang.com/mais ils sont dans un fichier binaire , il ne me reste plus qu'a trouver comment les lire et extraire les mots

    J'ai déjà une liste de 22 740 mots pour le français
    Vista powaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa ::

  10. #10
    Membre actif Avatar de scaleo
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    327
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2005
    Messages : 327
    Points : 219
    Points
    219
    Par défaut
    J'ai trouvé des lemmantiseurs en perl http://search.cpan.org/~creamyg/Ling...em/Snowball.pm .

    Donc en reprenant si j'ai bien tout compris je prend dans mon texte disont les 40 premier et dernié caractères, avec un lemmantiseur de recherche la base verbal de chacune des deux string puis une fois que j'ai sa , je fait quoi exactement ???

    Je doit être chiant avec mes questions

    J'ai des dicos EN/FR
    J'ai des lemmantiseurs
    Je découpe mes string
    me manque plus que la dernière étape

    En suivant grafito, cette dernière étape concisterai a filtrer les mots vide de mes string et compter combien de fois les mots survivant et ou mots proche (levensthein est mon amie ) sont utilisé dans le document, et le titre serait tout simplement la string ayant le plus grand score
    Vista powaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa ::

  11. #11
    Rédacteur
    Avatar de cladsam
    Profil pro
    Inscrit en
    Août 2003
    Messages
    1 785
    Détails du profil
    Informations personnelles :
    Âge : 44
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations forums :
    Inscription : Août 2003
    Messages : 1 785
    Points : 2 436
    Points
    2 436
    Par défaut
    Citation Envoyé par scaleo
    Je découpe mes string

    Bah il va te rester que des morceaux de ficelle alors
    Chef de Projet SAP. Certifié Prince2 Practitioner
    ---------------------------------------------------
    Anakin Skywalker turned to the Dark Side after his failed attempt to upgrade R/2-D2 to R/3-D2.

  12. #12
    Membre actif Avatar de scaleo
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    327
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2005
    Messages : 327
    Points : 219
    Points
    219
    Par défaut
    Citation Envoyé par cladsam
    Bah il va te rester que des morceaux de ficelle alors
    Non je préfère le cuir et un bon fouet ---> []
    Vista powaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa ::

  13. #13
    Membre du Club Avatar de goblin
    Profil pro
    Inscrit en
    Novembre 2005
    Messages
    62
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2005
    Messages : 62
    Points : 53
    Points
    53
    Par défaut
    Perso je ne me prendrais pas la tête avec la lemmantisation , a moins d'avoir une armée de linguiste a ta disposition c'est du suicide

    -> Extraire une chaine au début du document et a la fin du document
    -> Cherche dans qu'elle langue est rédigé le document fait toi des dico de trigramme pour sa
    -> Supprimer les mots vide du document et de ta chaine en fonction de la langue
    -> Pour chacun des mot de ta chaine chercher sont nombre d'occurence dans le document.
    -> Cherche avec la distance de levenstein tout les mots proche ayant un indice entre 1..6 par exemple : 1 = 0.512, 2 = 0.256 ... 6 = 0.16
    -> Donc tu additonne les résultats de chaque mot de chaque chaine pis bah heu c'est la chaine qui a le plus grand score qui a gagné
    Fait gaffe avec le fouet et tire pas trop sur ton string ok moi aussi ---> []

  14. #14
    Membre actif Avatar de mobscene
    Profil pro
    Inscrit en
    Avril 2005
    Messages
    331
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2005
    Messages : 331
    Points : 234
    Points
    234
    Par défaut
    Citation Envoyé par Graffito
    Bonjour,

    Juste une petite remarque :
    Les mots/expressions intéressants pour le titre doivent non seulement apparaître souvent dans le document (sans être des mots "outils"), mais également être discriminant par rapport aux autres documents, c'est à dire apparaître dans peu de documents.
    J'ai une question qui me turlupine a propos des mots dit fort !!

    Dans un document qu'elle est généralement le rapport entre les mots outils et les mots fort ????
    Everybody have in their the potential to be their own god : Marilyn Manson

  15. #15
    Expert éminent Avatar de Graffito
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    5 993
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 993
    Points : 7 903
    Points
    7 903
    Par défaut
    Bonjour,

    Dans un document qu'elle est généralement le rapport entre les mots outils et les mots fort ????
    Les mots dits "outils" sont généralement éliminés en fonction d'une liste.
    Les mots de poids faible se trouvent répartis dans beaucoup de documents.
    Les mots forts se trouvent dans peu de documents et sont d'autant plus forts qu'ils sont répétés dans les documents ou ils apparaissent.

    Par exemple dans la citation :
    les mots outils seront "Dans, un, qu', elle, est, généralement, le, entre, les, et"
    Les mots "rapport mots outils fort" seront forts ou faibles suivant le contenu des autres documents. Ils seront probablement faibles dans un corpus de documents linguistiques et plus forts dans le corpus de documents lié au dévellopement d'applications.
    " Le croquemitaine ! Aaaaaah ! Où ça ? " ©Homer Simpson

Discussions similaires

  1. Algo de création d'arbre
    Par Loceka dans le forum Algorithmes et structures de données
    Réponses: 6
    Dernier message: 24/11/2005, 23h06
  2. Algo de positionnement de aprticule pour une boule de feu .
    Par Clad3 dans le forum Algorithmes et structures de données
    Réponses: 7
    Dernier message: 02/09/2005, 15h26
  3. Création de comptes pour envoi de newsletter
    Par Skullbox dans le forum Général JavaScript
    Réponses: 5
    Dernier message: 17/08/2005, 11h30
  4. Outil pour documenter un BDD ?
    Par nanou9999 dans le forum Décisions SGBD
    Réponses: 7
    Dernier message: 02/05/2005, 15h31
  5. Réponses: 4
    Dernier message: 11/09/2003, 21h28

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo