bonsoir
je recherche à savoir si il existe un algorithme permettant d'analyser un texte (un corpus) et d'en détécter des ruptures de style. Ceci dans un but de détécter si un texte provient d'un même auteur ou de plusieurs.
MERCI
bonsoir
je recherche à savoir si il existe un algorithme permettant d'analyser un texte (un corpus) et d'en détécter des ruptures de style. Ceci dans un but de détécter si un texte provient d'un même auteur ou de plusieurs.
MERCI
Je ne sais pas, mais je pense qu'il existe des programmes capables d'identifier un style avec un certain 'indice de confiance', qu'il s'agisse de littérature, de musique, etc... Il existe même des programmes qui écrivent (surtout de la musique) à la manière de...
Il faut avant tout déterminer les composants d'un style, par exemple pour la littérature, les aspects syntaxiques (longueur et complexité de la phrase, manipulation des temps, etc..). sur le plan sémantique vocabulaire utilisé, richesse, etc...
Cependant votre question est délicate, car dans un texte certains passages sont typés et d'autres beaucoup moins. On ne peut interdire à Hugo où à Balzac de placer dans un dialogue romanesque "passe-moi mes pantoufles !".
Vous cherchez une 'rupture', c'est à dire un point précis à partir duquel on peut affirmer avec une quasi certitude qu'on change d'auteur. Cela pourrait se faire si on passait brutalement d'un passage très typé à un autre passage très typé, mais se sera rarement le cas, de sorte que la rupture sera loin d'être évidente.
Cela mérite quelques coups de google US avec les mots clés 'style recognition', toutefois la plupart des pages concernent la musique plus que la littérature.
En français vous pouvez utiliser 'reconnaissance automatique des genres'. La plupart des exemples proposés mettent en oeuvre des réseaux neuronaux, un style de programmation loin d'être évident.
L'intelligence humaine est elle-même mise à rude épreuve:
On n'est pas sûr que les tableaux de 'Rubens' sont de la main du maître.
Idem pour les écrits d'A. Dumas.
Tout cela engendre des batailles de spécialistes, donc de gens qualifiés en matière de style.
Ce qu'on trouve est plus important que ce qu'on cherche.
Maths de base pour les nuls (et les autres...)
il me semble me souvenir (j'ai travaillé avec un des gars qui l'avait fait, mais je ne sais pas si c'est toujours en vente) que le logiciel Hugo faisait ça...
Merci pour vos réponses qui me paraissent tres precises.
Je vais recherche dans ces deux pistes.
Ceci dit, je ne cherche as forcement à reconnaitre avec certitude qu'on passe d'un auteur à un autre, mais je veux au moins avoir une probabilité qu'on change d'auteur, meme si celle-ci est une petite probabilité.
Je suis ouvert à d'autres porpositions
la problèmatique est EXTREMEMENT complexe.
Il n'y a qu'à voir les correcteurs orthographiques, et leurs performances..
1) l'orthographe peut dépendre du contexte, et du sens qu'on veut mettre
2) l'aspect sémantique joue un rôle
3) un écrivain peut utiliser des figures littéraires exceptionnelles dans la langue ou la construction
Donc déjà faire une analyse propre d'un texte d'un seul écrivain est de la très haute voltige, si cela est possible et je n'en suis pas certain...
De là à en déduire un style, c'est encore un saut dans l'inconnu.
Et le faire 2 fois "on line" et déduire le changement, là à mon avis on nage dans l'utopie.... à moins de possèder un super calculateur, c'est pas en 5 minutes que ça se fait...
Si je me souviens Hugo gardait en mémoire un certain nombre de phrases, et corrigeait (vérifiait plûtot) celle du milieu.... pour avoir un contexte. Pour avoir le style, non seulement il faudrait avoir fait ça, mais avoir l'ensemble du livre en mémoire.... Et Hugo analysait simultanément le contexte , l'ortographe, les phonèmes, et la grammaire. Déjà ça fait pas mal, juste pour vérifier que l'orthographe est bonne....
Et en plus ça dépend des langues. Le chinois par exemple, où les mots représentent des concepts et non des entités, n'aura absolument pas ni la même analyse, ni la même sémantique, ni le même style...
Merci pour ces eclaircissements,
Mais je compte me baser que sur le francais (et rien que le francais)
Ce que je recherche, c'est un alogorithme qui puisse me donner un probable passage d'un auteur à un autre.
Mais pas forcement quelque chose de complexe meme si cela me semble etre complexe
J'entends par rupture par exemple, le fait d'avoir un paragraphe avec 7 phrases alors que dans l'ensemble du document, on a que en moyenne 3 phrases par paragraphes.
Ou encore le fait d'avoir une phrase ayant 80 mots alors que le documents ne possede en moyenne que 40 mots par phrase.
Je ne veux pas entrer en profondeur (genre l'utilisation des temps imparfait au lieu du passé composé car là je sais que ca devient trop complexe.)
Je ne sais pas si il existe des algorithme qui peuvent faire ce que je veux.
Hormis les mots moyens dans une phrase ou ds un paragraphe, voyez-vous un autre parametre à prendre en compte qui peut etre facilement detectable.
Merci d'avance pour vos idées et pour vos algorithmes.
PS: ceci dit, si vous avez en tete une facon d'analyser le texte plus proprement avec un algorithme, je suis preneur (sur les temps, l'utilisation de certtains conjonction, la syntaxe ou la grammaire,....
Partager