Bonjour,

j'aimerais tokenizer une longue chaine de caractère pouvant etre un fichier avec boost:regexp . J'aimerai recuperer en meme temps la ligne auquel débutent les tokens.

J'ai regarder la documentation de regexp. results_match contient la requete retour mais apparement j'ai pas plus d'informations sur la position du token dans le flux.

Ce qui serait une solution c'est que je lis la chaine jusqu'a une '\n' et je transmet à l'analyse lexical le morceau de chaine courant entre les deux '\n'.

De plus, j'ai une liste de tokens à reconnaître. Je devrai les concatener dans une seule regexp comme ceci selon vous (tk1|tk2|...|tkN) ou faire une boucle avec chaque token. L'ordre des tokens à reconnaître étant significatif. si "STR" et avant "[A-Z]+" il faut que ca soit "STR" qui soit reconnu en premier.

Merci d'avance pour vos réponses.