Bonjour,

Je suis le concepteur de mooveOn.net un projet de moteur de recherche de vidéos.

J'ai conçu un algorithme simple et efficace de détection de langue,
Imaginez une liste de stopwords (mots communs de la langue) pour le francais cela donnerait :

le
la
un
une
etc. (on part avec 100/200 mots stopwords)

De même pour une trentaine d'autres langues, on parcourt le texte en regardant le nombre d'occurrence de la langue, pour une phrase du genre :
la souris a mangé le chat,
il y a 3 points pour le francais, 0 pour les autres langues, car le, la, a sont des stopwords francais.
Ensuite on ajoute les autres mots dans la bibliothèque des mots de la langue.

Cela semble marcher très bien, mais j'ai réussi à concocter ces stopwords de base pour 6 langues : le francais, l'anglais, l'italien, l'allemand, l'espagnol, le catalan ^^

J'aimerai savoir si certains pourraient nous aider à concocter des stopwords pour les langues qui nous intéressent mais qui pose un sérieux problème :

le chinois
le japonnais
le russe
et d'autres si possible.
Merci à toute la communauté
Et n'hésitez pas à commenter, critiquer ou encore faire les louanges du projet :p

A bientôt, Adrien.