Limites de la classe Scanner

Version imprimable

Salut à tous,

précédemment dans un autre post :

http://www.developpez.net/forums/sho...d.php?t=159353

je cherchais à résoudre un problème avec StringTokenizer, le problème ayant été plus compliqué que je ne le pensais, j'ai cherché une autre solution. En effet, mon besoin ne se limitait pas à un ou deux marqueur dans une même chaîne mais à un N...

La classe Scanner a donc résolu une partie de mon problème en revanche, cette classe ne prends apparement pas en compte certains caractères spéciaux. J'appuis cette conclusion par 2 exemples :

Pour tous les exemples, le code source est identique, seules les chaînes à traiter diffèrent...
Code:

1 2 3 4 5 6 7 8 9 10 11 12 String l_readLine = "<BALISE> 1324 mot1: 8 mots separes par des espaces"; System.out.println("traitement de : ["+l_readLine+"]\n\n(--> chaine entre [...])\n"); Scanner s = new Scanner(l_readLine); s.findInLine("<BALISE> (\\d+) (\\w+): (\\d+) ([\\w\\s]*)"); MatchResult result = s.match(); for (int i=1; i<=result.groupCount(); i++) System.out.println(result.group(i)+" "); s.close();
1) exemple qui fonctionne, j'extrais d'une chaine un nombre, une chaine, un mot :

Citation:

traitement de : [<BALISE> 1324 mot1: 8 mots separes par des espaces]

(--> chaine entre [...])

1324
mot1
8
mots separes par des espaces

2) même exemple avec des accents, j'extrais d'une chaine un nombre, une chaine, un mot :

Citation:

traitement de : [<BALISE> 1324 mot1: 8 mots séparés par des espaces]

(--> chaine entre [...])

1324
mot1
8
mots s

S'il n'y avait que les accents bon encore... (ennuyeux mais bon, il y a probablement un moyen de contrer ca...) en revanche ce qui est moins drôle :

3) exemple avec un caractère spécial : "+"

Citation:

traitement de : [<BALISE> 1324 mot1: 8 mots+mots]

(--> chaine entre [...])

1324
mot1
8
mots

12/07/2006, 12h11
adiGuba

Salut,

Ce comportement est normal puisque ton pattern est trop restrictifs : \w\s signifie : [a-zA-Z_0-9]|[ \t\n\x0B\f\r]

Il n'accepte donc pas les caractères accentuées ni les signes de ponctuations ou autres...

Il te faut donc utilise \p{L} qui représentent toutes les lettres, et \p{Punct} qui représente la ponctuation :

Code:

s.findInLine("<BALISE> (\\d+) (\\w+): (\\d+) ([\\p{L}\\p{Punct}\\s]*)");

Plus d'info : Pattern

Sinon tu peux carrément utilisé .* pour récupérer tout le reste de la chaine...

a++

salut à tous,

encore un petit souci avec ces @^$¤ de chaînes de caractères à traiter ... :oops:

J'essai de trancher (désolé du terme mais j'ai envi de la trancher là lol) une chaine de caractere du type :

1 "val desc1" 2 "val desc2" 3 "val desc3"
NB : le nombre de paramètres est inconnu à l'avance

problème... dès que des accents apparaissent, je pense que c'est le problème et bien ca plante en regardant l'expression régulière on voit que les accents ne sont pas gérés ... mais comment les gérer alors ??
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Matcher m = p.matcher(l_readLine); // Create Matcher String m_strTmp = null ; while (m.find()) { s = new Scanner(m.group()); s.findInLine("(\\d+) \"([\\w\\s]*)\""); result = s.match(); for (int i=1; i<=result.groupCount(); i+=2) { System.out.println("couple val-description"+i+" : "+(String)result.group(i))+",'"+result.group(i+1) ; } } s.close();

17/07/2006, 11h35
adiGuba

Citation:

Envoyé par WuKoDLaK

problème... dès que des accents apparaissent, je pense que c'est le problème et bien ca plante en regardant l'expression régulière on voit que les accents ne sont pas gérés ... mais comment les gérer alors ??

As-tu lu mon message ????

a++
17/07/2006, 17h18
WuKoDLaK

oép oép :)

entre temps j'ai trouvé la solution au problème, j'ai confirmé que ct la restriction sur le regex ;)