IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Algorithmes et structures de données Discussion :

Algo de création de titre pour document


Sujet :

Algorithmes et structures de données

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre éclairé Avatar de scaleo
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    327
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2005
    Messages : 327
    Par défaut Algo de création de titre pour document
    Bonjour, je travaille actuellement sur un desktop search perso, mais je suis confronté a un problème certain document de mon pc non par de titre très parlant ont dira du genre 06 - 04 - 2005 c'est pas vraiment très préçis .

    Je me suis donc mis a la recherche d'un algorithme capable a partir du contenue textuel d'un document de générer un titre le plus exhaustif possible et je n'ai rien trouvé, c'est surtout que je ne sais pas quoi cherché.

    merci de votre aide parce que la je galère vraiment !!!!

  2. #2
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Par défaut
    Bonjour,

    la seule idée qui me viendrait à l'esprit, serait de chercher les mots non triviaux (donc pas des articles, des adjectifs, ... vraiment des noms) qui apparaissent le plus souvent.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  3. #3
    Membre Expert Avatar de zooro
    Homme Profil pro
    Développeur Java
    Inscrit en
    Avril 2006
    Messages
    921
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France, Marne (Champagne Ardenne)

    Informations professionnelles :
    Activité : Développeur Java

    Informations forums :
    Inscription : Avril 2006
    Messages : 921
    Par défaut
    Citation Envoyé par ToTo13
    la seule idée qui me viendrait à l'esprit, serait de chercher les mots non triviaux (donc pas des articles, des adjectifs, ... vraiment des noms) qui apparaissent le plus souvent.
    Oui, du genre synthèse automatique sous Word.

  4. #4
    Rédacteur
    Avatar de cladsam
    Profil pro
    Inscrit en
    Août 2003
    Messages
    1 787
    Détails du profil
    Informations personnelles :
    Âge : 45
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations forums :
    Inscription : Août 2003
    Messages : 1 787
    Par défaut
    Bonjour,

    ce dont tu parles la, c'est du domaine du TAL ( Traitement Automatisé des Langues). Tu peux faire des recherches sur des "plates formes d'indexation" ou "indexation". Je te conseilles des sites de linguistique, renseigne toi sur les bases de connaissance.
    Je te recommande CECI comme première piste de recherche, c'est un site issu d'un projet de recherche de l'INIST CNRS à Nancy tu devrais y trouver des pistes sérieuses.
    fait également des recherches sur les lemmatiseurs.

  5. #5
    Membre éclairé Avatar de scaleo
    Profil pro
    Inscrit en
    Septembre 2005
    Messages
    327
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2005
    Messages : 327
    Par défaut
    Effectivement tout cela est très intéressant et c'est exactement ce que je cherche j'ai par contre une intéragation les algorithme de " lemmatisation " sont il suffisament rapide pour permetre une génération des titres a la volé ou vaut il mieux que je " lemmentise " dès l'indexation

  6. #6
    Rédacteur
    Avatar de cladsam
    Profil pro
    Inscrit en
    Août 2003
    Messages
    1 787
    Détails du profil
    Informations personnelles :
    Âge : 45
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations forums :
    Inscription : Août 2003
    Messages : 1 787
    Par défaut
    Une petite piste donnée par ma compagne après avoir discuté sur ton problème ( elle sait de quoi cela parle car le site que je t'ai donné a été initié en se basant sur ses travaux de recherche ( elle est linguiste)).
    Elle m'a donné des pistes simples: la plupart des documents on une structure semblable. En particulier, le titre étant sensé etre l'expression qui caractérise le mieux le document, il a toute les chances
    - d'etre repris dans le document
    - de l'être dans le debut du paragraphe d'introduction et dans le corps du paragraphe de conclusion
    - de ne pas comporter de groupe verbal conjugué.

    Par exemple tu trouveras plus "réalisation d'un site Web" que "comment vous devez faire pour réaliser un site web".

    ---> donc en éliminant les groupes verbaux conjugués tu approches de la solution

    Ensuite tu trouveras surement un truc du genre:

    La réalisation de sites web requiert une bonne connaissance du HTML qui est la base de tout page web...


    --> reprise dans l'intro du titre

    meme demarche pour la conclusion.

    Ensuite, si tu veux faire une recherche plus précise (mais plus couteuse), un étiquetage des mots par catégorie de thèmes abordés pourra te permettre d'effectuer une indexation et, via des outils statistiques, de créer un index thématique du document pour déduire ton titre.

    Quant à la lemmatisation, cela dépend de la langue, ma compagne et moi avons implémenté un début de lemmatiseur anglais à partir d'un algorithme publique connu, je peux au besoin te donner les sources.

    Ca dépend aussi du langages car cela utilise beaucoup les expressions rationnelles, donc en PERL ca va très bien, dans des langages qui implémentent les bibliothèques compatibles PERL aussi, dans les autres langages c'est moins sur...

    Il faut aussi savoir que la lemmatisation atoujours un pourcentage d'erreur aucun algo de ce type n'est parfait a 100%, il n'est pas systematique de retrouver la racine d'un mot à partir de règles sinon ce serait bien simple.

    Du coup, la solution peu consister a implementer un dictionnaire qui limite les cas d'erreur, la taille du dictionnaire en question dépendant du ratio erreur de lemmatisation/ lourdeur d'implémentation que tu peux accepter

    voila voila

Discussions similaires

  1. Algo de création d'arbre
    Par Loceka dans le forum Algorithmes et structures de données
    Réponses: 6
    Dernier message: 24/11/2005, 23h06
  2. Algo de positionnement de aprticule pour une boule de feu .
    Par Clad3 dans le forum Algorithmes et structures de données
    Réponses: 7
    Dernier message: 02/09/2005, 15h26
  3. Création de comptes pour envoi de newsletter
    Par Skullbox dans le forum Général JavaScript
    Réponses: 5
    Dernier message: 17/08/2005, 11h30
  4. Outil pour documenter un BDD ?
    Par nanou9999 dans le forum Décisions SGBD
    Réponses: 7
    Dernier message: 02/05/2005, 15h31
  5. Réponses: 4
    Dernier message: 11/09/2003, 21h28

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo