Écrire une regexp

**Bovino** · 07/02/2013, 17h13

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

'(([a-zA-Z][\-\É\é\è\'\s]+) ([0-9]+)-([0-9]+|\\?))+'

Là, tu demandes une lettre (et une seule) suivie d'un ou plusieurs caractères parmi -,É,é,è,' et espace, ce qui n'est pas ce que tu souhaites (enfin, si j'ai bien compris

).
Et pour éviter qu'un bloc soit capturant, c'est avec ":?"

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

'(:?([a-zA-Z\-\É\é\è\'\s]+) ([0-9]+)-([0-9]+|\\?))+'

**Germaris** · 07/02/2013, 17h19

Merci pour ta réponse, Bovino !

Mais avec ton code, j'obtiens :

#1139 - Got error 'invalid character range' from regexp

**Germaris** · 07/02/2013, 17h52

Bovino, effectivement, je me demande si nous nous comprenons bien.

Je vais essayer de simplifier au max.
Je veux récupérer des blocs de textes constitués ainsi :

bloc = nom + espace + groupe de dates

"nom" peut être constitué de n'importe quelles lettres et/ou des lettres accentuées et caractères spéciaux suivants : É é è ' -
il peut contenir un ou deux espaces.

"espace" est caractéristique par le fait qu'il est toujours suivi d'un chiffre.

"groupe de dates" est toujours constitué soit de deux fois quatre chiffres séparés par un tiret soit de quatre chiffres suivis d'un tiret et d'un point d'interrogation.

Mon but est d'extraire tous les "blocs" contenus dans la colonne 'notes' de la table et uniquement les "blocs".

**Germaris** · 09/02/2013, 17h52

Je me sens comme le vilain petit canard abandonné !

**ericd69** · 09/02/2013, 18h11

pourquoi tu échappes les caractères accentués?

tu dois louper les résultats lié à d'autres caractères accentués comme ê â ç qui peuvent apparaitre dans les noms

**Germaris** · 09/02/2013, 18h52

Non, pas du tout.
Je ne loupe rien car je connais par coeur les noms à trouver et je sais, par exemple, qu'ils ne contiennent pas de ê, de â, etc...
Ça a pour but de simplifier la recherche en limitant les caractères à retenir.
Et puis, j'ai remarqué que si je ne les échappe pas, ils ne sont pas pris en compte et la recherche ignore les noms qui en contiennent !

Pour revenir sur ce qu'a écrit Bovino, je n'ai pas compris pourquoi il affirme que dans ma regexp je demande "une lettre (et une seule) suivie d'un ou plusieurs caractères parmi -,É,é,è,' et espace". Ce n'est pas vrai...

Déjà que je ne suis pas un geek dans le domaine, maintenant, je suis complètement dans le doute...

Mon but d'extraire tous les "blocs" contenus dans la colonne 'notes' de la table et uniquement les "blocs" (voir mon dernier post destiné à Bovino) n'est pas atteint.

**ericd69** · 09/02/2013, 19h22

regexp est un opérateur de test de présence dans mysql pas un moyen d'extraction comme le preg_search() de php par exemple

par contre, je me permets de te rappeler la façon de réorganiser tes données que je t'avais montré pour accélérer les traitements grâce à des tables normalisées...

**Germaris** · 09/02/2013, 22h08

Merci pour ta réponse, Eric !

Pour ta première phrase, c'est une surprise.
Je ne savais pas cela. Ah ! Si je l'avais su dès le début !
Et je ne comprends toujours pas pourquoi ma requête ne me donne pas comme résultat TOUS les champs où l'on rencontre un bloc qui correspond à la regex...
Je vais donc faire des essais avec un script PHP simple et voir ce que j'obtiens...

Pour la seconde, je te signale que j'ai l'intention de suivre tes recommandations.
Toutefois, une première étape est de récupérer les données déterminées par la regex objet de la présente discussion.

Je reviendrai dans cette discussion lorsque je serai parvenu à l'extraction...

Merci aussi pour ton temps.

**ericd69** · 09/02/2013, 22h30

[blabla] = schéma pour 1 caractère, blabla ici remplace un expression qui décrit les caractères autorisés...
[blabla][blabla] = schéma pour 2 caractères consécutifs d'où sa réflexion

en php ça donnerait:

Code php :

Sélectionner tout - Visualiser dans une fenêtre à part

"#([a-zA-Z\-Ééè]+) ([0-9]+)\-([0-9]+|\?)#"

ou encore:

Code php :

Sélectionner tout - Visualiser dans une fenêtre à part

"#([a-z\-éè]+) ([0-9]+)\-([0-9]+|\?)#i"

**Germaris** · 10/02/2013, 16h42

Bonjour Eric !

Petit à petit, je progresse...
Ça fonctionne... Pas selon tous mes voeux, certes, mais je sens que je suis sur la bonne piste.

Voici, d'une part, la regex que j'utilise (explications suivent) :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

"#([0-9]+)\ \:\ ([a-zA-Z\'\ \.\-Ééèî\s]+) ([0-9]+)\-([0-9]+|\?)([a-z\<\ \/\>]+)#"

Et, d'autre part, le script PHP :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
<?php
// ici, la connexion à la base de données
$table = "_a_list";
$pattern = "#([0-9]+)\ \:\ ([a-zA-Z\'\ \.\-Ééèî\s]+) ([0-9]+)\-([0-9]+|\?)([a-z\<\ \/\>]+)#";
$subject = mysql_query("SELECT ID, notes FROM $table WHERE ID < '101' AND notes != ''") or die ( "select error " .mysql_error () );
$matches = "";
if ( mysql_num_rows( $subject ) > 0) {
	while ($row =mysql_fetch_array ($subject ) ) {  
		$flashstr .= $row ["ID" ]." : ".$row ["notes" ]."<br />";
		preg_match_all ($pattern, $flashstr, $matches, 0, 0) ; 
	}
	print_r ($matches);
}
?>

Le résultat est visible à http://www.notre-annuaire.com/strict/new_regex.php

Explications :

La regex prend en compte :
a - les ID des élèves (indispensables pour la réattribution des données)
b - les "breaks" qui se trouvent dans les textes figurant dans la colonne 'notes'
Le tout présenté dans la ligne $flashstr du code PHP

La requête, pour les besoins du test, est limitée aux cent premières ID

Résultats :

Va sur la page... Tu comprendras mieux ce qui suit.

J'aime le fait que chaque ID est sur une ligne et que ma regex est efficace pour reconnaître les textes que je veux.

Je n'aime pas que me soit retourné uniquement le premier bloc pour une ID donnée.
Ainsi, par exemple, pour l'ID 1, je devrais avoir en plus de "Saint Cyr-l'École 1956-1958" les mentions "Billom 1958-1961" et "Nîmes 1959-1960"
Comment forcer l'exploration complète de tout le champ 'notes' de chaque ID ?
Enfin, je n'aime pas tout ce qui suit la ligne : "...98 : Tulle 1953-1959)" c'est à dire : " [1] => Array ( [0] => 1 [1] => 16 [2..............[14] =>) ) "
Je n'en ai pas besoin et n'arrive pas à m'en débarrasser.

Merci d'avance, cher mentor !

**ericd69** · 10/02/2013, 17h29

chaque fois que tu mets une parenthèse ça capture...

pourquoi tu échappes les espaces?
\s je vois pas pourquoi tu le mets dans la classe... c'est soit ça soit la classe

et si tu fais ça?

Code php :

Sélectionner tout - Visualiser dans une fenêtre à part

"#([0-9]+) \: ([a-zA-Z\' \.\-Ééèî]+) ([0-9]+)\-([0-9]+|\?)([a-z\< \/\>]+)#"

**Germaris** · 10/02/2013, 17h55

J'échappe les espaces par sécurité car il est arrivé qu'ils ne soient pas pris en compte...

j'ai essayé ta regex et aucun changement.

As-tu une idée pour obtenir tous les blocs contenus dans le champ et non seulement le premier ?

Bon, je vais déjeuner... ici il est midi.

**ericd69** · 10/02/2013, 18h12

preg_match construit un tableau hiérarchique...

fais voir un exemple d'une ligne de ta requête...

bon app

**Germaris** · 10/02/2013, 19h09

Je digère...

"...fais voir un exemple d'une ligne de ta requête..." ???
Tu as toute ma requête dans mon post de 10h42...

As-tu été sur le site ?

Penses-tu que nous arriverons à extraire tous les blocs ?

**ericd69** · 10/02/2013, 19h27

je parlais une ligne en sortie de ta requête sql qui pose problème (et/ou une pas) pour voir ce que tu injectes dans la regexp pas son résultat à elle...

**Germaris** · 10/02/2013, 20h09

OK.

Voici le texte du premier champ à explorer :
"Saint Cyr-l'École 1956-1958 Dit "Maris". Billom 1958-1961 Nîmes 1959-1960 (promo 043-3) ENAC Orly 1960 BA 110, 128 et 133"

La requête crache seulement "1 : Saint Cyr-l'École 1956-1958" (voir cette ligne sur le site que je t'ai indiqué).
Elle devrait cracher : "1 : Saint Cyr-l'École 1956-1958 Billom 1958-1961 Nîmes 1959-1960".

**ericd69** · 10/02/2013, 20h30

c'est quoi la différence entre et ?

il serait bon de se constituer un tableau avec ce contenu en faisant la césure sur ou 
et d'appliquer la regexp sur les différents éléments du tableau obtenus...

**Germaris** · 10/02/2013, 21h06

D'abord, il ne s'agit pas de 
mais de (html line break) http://www.tizag.com/htmlT/htmlbr.php
En effet, il s'agit de textes pré-formattés en XHTML
Mais ce n'est pas important...

Autant pour moi, il y a une coquille dans le texte.
Le texte réel est :
"Saint Cyr-l'École 1956-1958 Dit "Maris". Billom 1958-1961 Nîmes 1959-1960 (promo 043-3) ENAC Orly 1960 BA 110, 128 et 133"
Je l'ai copié en deux fois, d'où l'erreur...

Mais ça ne change rien au fait que seul le premier bloc est retenu et pas les autres...

**ericd69** · 10/02/2013, 21h42

oui je me suis planté aussi

mais je veux te faire comprendre un truc vu que les entrées sont séparées par il est très intéressant d'appliquer le "diviser pour mieux règner"
tu découpe ta chaine pour obtenir un tableau puis tu appliques la regex à chaque entrée obtenue...
ça réduit la consommation mémoire et le temps d'exécution des regexp qui est proportionnel à la taille du texte...
et du coup pas besoin d'option de répétition (_all)... soit l'entrée est valide soit elle l'est pas c'est rapide du moment que tes entrées sont bien standardisées...

essaye... explode() devrait faire l'affaire...

**Germaris** · 10/02/2013, 22h59

Voici qui m'ouvre des horizons nouveaux !
J'essaierai ça cette nuit et te donnerai des nouvelles.

Là faut que j'arrête sinon je vais me faire trucider par ma bourgeoise !

Merci pour tout !!!

Écrire une regexp

Langage PHP

Discussions similaires

Partager

Partager