Extraire les mots d'un fichier texte

**krokmitaine** · 19/06/2007, 15h08

Salut,

Je dois réaliser un indexer de fichier texte.
C'est à dire que pour un fichier texte, je dois en extraire tous les mots et les classer dans une base de données.
Je commence à peine et déjà je coince.
Je voudrais écrire une méthode qui permette d'extraire d'un fichier texte tous les mots pour les stocker dans un tableau.

1) J'ai pensé utiliser la méthode Split mais comme la ponctuation d'un texte ne se limite pas qu'à des points ou des virgules, cette solution ne me convient pas. (je ne tiens pas à parcourir mon fichier autant de fois qu'il y a de signes de ponctuation).

2) J'ai pensé à le faire à la main (j'ai une très bonne expérience en C mais je débute en C#) mais ça me semble pas trop correspondre à la logique dotnet.

Quelqu'un aurait-il une solution élégante à proposer ?

Merci

**theMonz31** · 19/06/2007, 15h32

salut

le split me semble pourtant une solution adequate

Il te suffit de faire un truc du genre

string result = tonStream.ReadLine(); dans ton fichier

Puis ensuite, tu peux faire une fonction qui à partir d'une ligne , te sors un
tableau de chaine, et voila

The Monz, Toulouse

**guitoux1** · 19/06/2007, 15h56

tu devrais pouvoir aussi utiliser les expressions régulières pour faire ça.
A voir quel est le plus efficace (perso je penses qu'avec les expressions régulière, c'est plus performant, mais bon j'en suis pas certain non plus)

**SaumonAgile** · 19/06/2007, 16h11

Envoyé par guitoux1

tu devrais pouvoir aussi utiliser les expressions régulières pour faire ça.
A voir quel est le plus efficace (perso je penses qu'avec les expressions régulière, c'est plus performant, mais bon j'en suis pas certain non plus)

Je suis d'accord avec toi, une expression rationnelle serait plus simple et plus élégante.

**krokmitaine** · 19/06/2007, 20h09

Pour l'instant j'ai fait ça :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
StreamReader sr = new StreamReader("my_texte.txt");
string line = null;
string delimiter = " .,;:\n\t\r";
 
line = sr.ReadLine();
string[] tab = line.Split(delimiter.ToCharArray());
sr.Close();
foreach (string word in tab)
{
  Console.WriteLine(word);
}

Mon fichier "my_texte.txt" contient :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

toto. titi tata

Je devrais donc obtenir trois mots.
J'obtiens en fait 4 mots.
Il me compte ce qu'il y a entre le '.' et ' ' (donc rien) comme un mot :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
toto
 
titi
tata

Je n'ai pas trop compris la solution avec les regexp. Ce n'est pas ça que j'ai fait là ?

**SaumonAgile** · 19/06/2007, 21h13

De mémoire :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
using System.Text.RegularExpressions;
 
Regex exp = new Regex(@"\b\w+\b");
foreach(Match m in exp.Matches(taChaineATraiter))
{
     string value = m.Value; // Value contient chaque token
}

EDIT : Avec cette expression, la ponctuation n'est pas traitée, elle "disparait" des tokens. Tu peux bien sûr modifier l'expression pour prendre en compte la ponctuation.

Extraire les mots d'un fichier texte

Windows Forms

Vue hybride

Discussions similaires

Partager

Partager