IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Algorithmes et structures de données Discussion :

Detection de rupture de style


Sujet :

Algorithmes et structures de données

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre éclairé
    Homme Profil pro
    Chef de projet en SSII
    Inscrit en
    Novembre 2004
    Messages
    528
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Chef de projet en SSII

    Informations forums :
    Inscription : Novembre 2004
    Messages : 528
    Par défaut Detection de rupture de style
    bonsoir

    je recherche à savoir si il existe un algorithme permettant d'analyser un texte (un corpus) et d'en détécter des ruptures de style. Ceci dans un but de détécter si un texte provient d'un même auteur ou de plusieurs.

    MERCI

  2. #2
    Rédacteur
    Avatar de Zavonen
    Profil pro
    Inscrit en
    Novembre 2006
    Messages
    1 772
    Détails du profil
    Informations personnelles :
    Âge : 77
    Localisation : France

    Informations forums :
    Inscription : Novembre 2006
    Messages : 1 772
    Par défaut
    Je ne sais pas, mais je pense qu'il existe des programmes capables d'identifier un style avec un certain 'indice de confiance', qu'il s'agisse de littérature, de musique, etc... Il existe même des programmes qui écrivent (surtout de la musique) à la manière de...
    Il faut avant tout déterminer les composants d'un style, par exemple pour la littérature, les aspects syntaxiques (longueur et complexité de la phrase, manipulation des temps, etc..). sur le plan sémantique vocabulaire utilisé, richesse, etc...
    Cependant votre question est délicate, car dans un texte certains passages sont typés et d'autres beaucoup moins. On ne peut interdire à Hugo où à Balzac de placer dans un dialogue romanesque "passe-moi mes pantoufles !".
    Vous cherchez une 'rupture', c'est à dire un point précis à partir duquel on peut affirmer avec une quasi certitude qu'on change d'auteur. Cela pourrait se faire si on passait brutalement d'un passage très typé à un autre passage très typé, mais se sera rarement le cas, de sorte que la rupture sera loin d'être évidente.
    Cela mérite quelques coups de google US avec les mots clés 'style recognition', toutefois la plupart des pages concernent la musique plus que la littérature.
    En français vous pouvez utiliser 'reconnaissance automatique des genres'. La plupart des exemples proposés mettent en oeuvre des réseaux neuronaux, un style de programmation loin d'être évident.
    L'intelligence humaine est elle-même mise à rude épreuve:
    On n'est pas sûr que les tableaux de 'Rubens' sont de la main du maître.
    Idem pour les écrits d'A. Dumas.
    Tout cela engendre des batailles de spécialistes, donc de gens qualifiés en matière de style.
    Ce qu'on trouve est plus important que ce qu'on cherche.
    Maths de base pour les nuls (et les autres...)

  3. #3
    Expert confirmé

    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    10 610
    Détails du profil
    Informations personnelles :
    Âge : 67
    Localisation : France

    Informations forums :
    Inscription : Janvier 2007
    Messages : 10 610
    Billets dans le blog
    2
    Par défaut
    il me semble me souvenir (j'ai travaillé avec un des gars qui l'avait fait, mais je ne sais pas si c'est toujours en vente) que le logiciel Hugo faisait ça...

  4. #4
    Membre éclairé
    Homme Profil pro
    Chef de projet en SSII
    Inscrit en
    Novembre 2004
    Messages
    528
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Chef de projet en SSII

    Informations forums :
    Inscription : Novembre 2004
    Messages : 528
    Par défaut
    Merci pour vos réponses qui me paraissent tres precises.

    Je vais recherche dans ces deux pistes.

    Ceci dit, je ne cherche as forcement à reconnaitre avec certitude qu'on passe d'un auteur à un autre, mais je veux au moins avoir une probabilité qu'on change d'auteur, meme si celle-ci est une petite probabilité.

    Je suis ouvert à d'autres porpositions

  5. #5
    Expert confirmé

    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    10 610
    Détails du profil
    Informations personnelles :
    Âge : 67
    Localisation : France

    Informations forums :
    Inscription : Janvier 2007
    Messages : 10 610
    Billets dans le blog
    2
    Par défaut
    la problèmatique est EXTREMEMENT complexe.

    Il n'y a qu'à voir les correcteurs orthographiques, et leurs performances..

    1) l'orthographe peut dépendre du contexte, et du sens qu'on veut mettre
    2) l'aspect sémantique joue un rôle
    3) un écrivain peut utiliser des figures littéraires exceptionnelles dans la langue ou la construction

    Donc déjà faire une analyse propre d'un texte d'un seul écrivain est de la très haute voltige, si cela est possible et je n'en suis pas certain...

    De là à en déduire un style, c'est encore un saut dans l'inconnu.

    Et le faire 2 fois "on line" et déduire le changement, là à mon avis on nage dans l'utopie.... à moins de possèder un super calculateur, c'est pas en 5 minutes que ça se fait...

    Si je me souviens Hugo gardait en mémoire un certain nombre de phrases, et corrigeait (vérifiait plûtot) celle du milieu.... pour avoir un contexte. Pour avoir le style, non seulement il faudrait avoir fait ça, mais avoir l'ensemble du livre en mémoire.... Et Hugo analysait simultanément le contexte , l'ortographe, les phonèmes, et la grammaire. Déjà ça fait pas mal, juste pour vérifier que l'orthographe est bonne....


    Et en plus ça dépend des langues. Le chinois par exemple, où les mots représentent des concepts et non des entités, n'aura absolument pas ni la même analyse, ni la même sémantique, ni le même style...

  6. #6
    Membre éclairé
    Homme Profil pro
    Chef de projet en SSII
    Inscrit en
    Novembre 2004
    Messages
    528
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Chef de projet en SSII

    Informations forums :
    Inscription : Novembre 2004
    Messages : 528
    Par défaut
    Merci pour ces eclaircissements,

    Mais je compte me baser que sur le francais (et rien que le francais)
    Ce que je recherche, c'est un alogorithme qui puisse me donner un probable passage d'un auteur à un autre.
    Mais pas forcement quelque chose de complexe meme si cela me semble etre complexe

    J'entends par rupture par exemple, le fait d'avoir un paragraphe avec 7 phrases alors que dans l'ensemble du document, on a que en moyenne 3 phrases par paragraphes.
    Ou encore le fait d'avoir une phrase ayant 80 mots alors que le documents ne possede en moyenne que 40 mots par phrase.

    Je ne veux pas entrer en profondeur (genre l'utilisation des temps imparfait au lieu du passé composé car là je sais que ca devient trop complexe.)
    Je ne sais pas si il existe des algorithme qui peuvent faire ce que je veux.
    Hormis les mots moyens dans une phrase ou ds un paragraphe, voyez-vous un autre parametre à prendre en compte qui peut etre facilement detectable.

    Merci d'avance pour vos idées et pour vos algorithmes.
    PS: ceci dit, si vous avez en tete une facon d'analyser le texte plus proprement avec un algorithme, je suis preneur (sur les temps, l'utilisation de certtains conjonction, la syntaxe ou la grammaire,....

Discussions similaires

  1. Virus detecté au demarrage
    Par Nasky dans le forum Sécurité
    Réponses: 7
    Dernier message: 26/11/2002, 23h07
  2. [VB6] [Lecteur] Détection de disquette
    Par oazar dans le forum VB 6 et antérieur
    Réponses: 4
    Dernier message: 31/10/2002, 12h37
  3. detection de lignes
    Par the.cable.guy dans le forum Algorithmes et structures de données
    Réponses: 29
    Dernier message: 10/10/2002, 11h15
  4. Rattacher une feuille de style a un XML existant
    Par aour dans le forum XML/XSL et SOAP
    Réponses: 5
    Dernier message: 08/10/2002, 22h07
  5. Detection arret de windows
    Par philippe30 dans le forum API, COM et SDKs
    Réponses: 4
    Dernier message: 21/09/2002, 18h41

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo