bonsoir à tous,
je voudrais savoir si l'on peut détecter la langue d'un fichier avec java.
c a d :
j'affiche ds un browser un url, et je veux savoir la méthode java à utiliser pr récupérer le texte affiché sans les balises de la source.
Merci bien![]()
bonsoir à tous,
je voudrais savoir si l'on peut détecter la langue d'un fichier avec java.
c a d :
j'affiche ds un browser un url, et je veux savoir la méthode java à utiliser pr récupérer le texte affiché sans les balises de la source.
Merci bien![]()
Salut,
Je n'ai pas bien compris ta question mais a ce que je comprend tu voudrais télécharger le contenu d'une page web et ensuite trouver la balise html qui correspond au langage. Si oui tu peux utiliser HttpClient pour récupérer le contenu d'une page web. Pour retrouver la balise recherchée ensuite avec une fonction style ereg ca marchera
merci pour la réponse, mais en en fait, ce que je voudrais c'est plutôt traiter des fichier .txt tout simplement, et je veux savoir si je peux utiliser une méthode qui détecte la langue d'écriture de ces fichiers??
(c'est à dire si c'est écris en arabe, en anglais, en allemand...etc)
et a l'origine ce n'est pas une page html vu que tu parlais de balises?
Si oui, il y a une balise qui définit le charset du contenu:
<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1" />
Le charset te permet de savoir en quelle langue le fichier est écrit. Sinon je ne vois pas.
Tu prends un dictionnaire de mots chaque langue ( un fichier texte ira très bien ) et tu compte pour chaque dictionnaire le nombre de mots présents également dans ton fichier source. Il y a de fortes chances que le dictionnaire ayant le plus haut score corresponde à la langue utilisée.
je pensais qu'il y avait une méthode qui le faisait, en tout cas, j'ai suivi ton conseil, j'ai cherché dans les textes une liste de "lettres" en arabe et non pas des mots, et ça a bien marchéTu prends un dictionnaire de mots chaque langue ( un fichier texte ira très bien ) et tu compte pour chaque dictionnaire le nombre de mots présents également dans ton fichier source. Il y a de fortes chances que le dictionnaire ayant le plus haut score corresponde à la langue utilisée.![]()
Merci
Partager