Supprimer nombres et tiret en début de chaîne

**renaud26** · 20/10/2023, 13h16

Bonjour à tous,

Je cherche à remplacer les nombres et un tiret en début de chaîne. Par exemple :

1234-abcd/abcd/abcd devient abcd/abcd/abcd
02-abcd/abcd/abcd devient abcd/abcd/abcd
567-abcd/abcd/abcd devient abcd/abcd/abcd

etc...il peut y avoir un certain nombre de chiffres suivis d'un tiret, l'ensemble doit disparaître

J'ai essayé pas mal de truc dont

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

$nonumber = preg_replace("/^[0-9-]/", "", $str);

Mais jamais le résultat obtenu ne convient, alors je veux bien de l'aide.
D'avance merci.

**Obsidian** · 20/10/2023, 13h31

Bonjour,
Essaie avec :

Code PHP :

Sélectionner tout - Visualiser dans une fenêtre à part

preg_replace("/^[0-9]*-/", "", $str);

**renaud26** · 20/10/2023, 13h35

Bonjour et merci, c'est parfait.

Cependant, afin que je me couche moins bête, peux-tu m'expliquer ?
^ signifie "commence par", c'est exact ?
[0-9] signifie "n'importe quel chiffre", OK ?

Mais pourquoi * avant le tiret ?

**Obsidian** · 20/10/2023, 16h20

Envoyé par renaud26

Bonjour et merci, c'est parfait.

Cependant, afin que je me couche moins bête, peux-tu m'expliquer ?

Certainement.

^ signifie "commence par", c'est exact ?

Plus précisément, c'est le marqueur de début d'expression (l'extrémité gauche), à condition d'être le premier caractère de l'expression. Sinon il est traité comme un caractère ordinaire.
De la même façon, « $ » est le marqueur de fin de chaîne, à condition d'être le dernier caractère de l'expression.

[0-9] signifie "n'importe quel chiffre", OK ?

Plus précisément, là encore, c'est la plage des caractères de 0 à 9, soit l'équivalent de (0|1|2|3|4|5|6|7|8|9). Les crochets servent en fait à spécifier une liste de caractères indépendants, mais si tu mets un tiret entre deux d'entre eux, on considéra que c'est une plage, sauf si, comme tu l'as fait, tu le places à la fin (probablement au début aussi mais je n'ai pas testé). Tu peux préciser plusieurs plages au sein d'une même paire de crochets, associées éventuellement à d'autres caractères indépendants. Par exemple : [A-Za-z0-9+_-].

Mais pourquoi * avant le tiret ?

Le « * » signifie « 0 fois ou plus » l'expression qui précède. Cette expression est donc soit un caractère, la plupart du temps, soit un groupe de caractères entre crochets ou une sous-expression entre parenthèses.
De la même façon, « + » signifie « 1 fois ou plus » ce qui précède, mais il est parfois nécessaire « d'échapper » le caractère en le faisant précéder d'un antislash « \ ».

Il existe également « ? » qui signifie « 0 ou 1 fois », et qui indique donc une expression facultative. Il faut parfois « l'échapper » également.

En licence d'informatique et en école d'ingénieurs, on les étudie mais en dehors de ce cadre, peu de gens savent qu'il s'agit d'un vrai formalisme mathématique et pas simplement d'un langage défini arbitrairement.

L'expression a*, par exemple, signifie en fait « A^* » (avec l'astérisque en exposant, là où il est censé se trouver en principe), soit littéralement « "a" à la puissance * » où la puissance en question est n'importe quel entier naturel, y compris 0. Soit en fait : « a⁰ ∪ a¹ ∪ a² ∪ a³ ∪ a⁴… ». Par ailleurs, lorsque l'on multiplie deux ensembles, on effectue un produit cartésien, qui consiste à associer chaque élément d'un des ensembles à tous les éléments de l'autre, tour à tour, formant ainsi tous les couples possibles (comme à la bataille navale, avec les lignes et les colonnes). Par conséquent, multiplier des singletons (des ensembles à un seul élément) revient à concaténer ces ensembles et c'est pourquoi on considère que le produit de deux lexons est une chaîne formée de ces deux lexons, d'où l'opérateur . en PHP, par exemple.

En conséquence, « aⁿ » voudrait dire « le caractère "a" multiplié n fois par lui-même » et se résoudrait en « aaaaa… ».

Pour en revenir à ta propre expression :

[0-9-] signifie donc « n'importe quel caractère de 0 à 9 ou le tiret, mais une seule fois ». Donc seul le premier caractère de ta chaîne est éliminé ;
[0-9]*- signifie « n'importe quel caractère de 0 à 9, n'importe quel nombre de fois (y compris 0), suivis d'un tiret ». Donc tous les « éventuels » chiffres sont éliminés, suivi du tiret qui les suit, à condition qu'ils soient tous détectés au départ.

Si tu ne veux éliminer que les lignes qui commencent réellement par des chiffres et pas celles qui commenceraient directement par le tiret, tu peux remplacer le « * » par « + », ou écrire [0-9][0-9]*- », ce qui revient au même.

**renaud26** · 20/10/2023, 16h26

Je te remercie beaucoup d'avoir pris le temps d'écrire cette explication très détaillée. Effectivement, le sujet est pointu et mérite une étude approfondie.
Je vais creuser car c'est intéressant.
Bon week-end

**renaud26** · 22/10/2023, 10h10

Bonjour à tous,

Je me permets de réouvrir ce post, car malgré les explications détaillées de Obsidian, je galère encore et toujours avec les regex

Dans mon exemple, les chiffres et le tirets du début sont bien supprimés, mais je m'aperçois que certaines chaînes en comportent aussi à la fin, suivis de .html :

Par exemple la chaine de base
236-abdcefg-0769503905082.html

doit devenir abcdefg
Ce qui signifie que 236- du début sautent avec le regex de Obsidian, mais j'ai besoin que -0769503905082.html de la fin de chaîne saute aussi.

Donc en gros tout ce qui est après le dernier tiret de la chaîne, y compris le tiret lui même.
Est ce possible en 1 seul passage qui supprimerait 236- et -0769503905082.html ?
J'ajoute, histoire de corser un peu la chose, que certaines chaines se terminent par abcdefg.html et dans ce cas, seul .html doit sauter.

Je précise que des chiffres peuvent se trouver dans la chaîne que je veux garder, par exemple abccde25gh....et que ceux-là ne doivent pas sauter

Merci de votre aide.

**CosmoKnacki** · 29/10/2023, 19h53

Envoyé par Obsidian

Plus précisément, c'est le marqueur de début d'expression (l'extrémité gauche), à condition d'être le premier caractère de l'expression. Sinon il est traité comme un caractère ordinaire.
De la même façon, « $ » est le marqueur de fin de chaîne, à condition d'être le dernier caractère de l'expression.

Attention! ^ marque le début de la chaîne sujet et il peut-être placé n'importe où dans la pattern. En aucun cas il est traité comme un caractère ordinaire, et ce, même s'il n'est pas placé au début. Donc pour figurer le caractère littéral ^ dans une pattern, il doit être échappé \^.

Cas particulier des classes de caractères: dans une classe de caractères, ^ est utilisé pour figurer la négation de la classe s'il est placé au début de la classe (exemple: [^0-9] tout ce qui n'est pas le rang de 0 à 9). Lorsqu'il n'est pas en première position dans une classe, alors là oui, il n'a plus de signification spéciale (exemple: [0-9^] le rang de 0 à 9 ou un accent circonflexe). Donc si on veut absolument le placer en première position dans la classe, on doit l'échapper d'un antislash, et ce, même s'il définit le début d'un rang (exemples: [^-a] tout ce qui n'est pas un tiret et la lettre minuscule "a", alors que [\^-a] le rang allant de ^ à a, soient les caractères ^, _, ` et a ).

$ marque la fin de chaîne mais il est ambiguë car ce n'est pas toujours le cas. Il marque aussi la fin de la dernière ligne de la chaîne, si celle-ci est suivie d'un saut de ligne avant la fin de la chaîne, exemple:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
echo preg_match('~abcd$~', 'abcd'); // 1    ok, rien d'étonnant
echo preg_match('~abcd$~', "abcd\n"); // 1   on est pourtant pas à la fin de la chaîne

Pour lever l'ambiguïté de $, il faut ajouter le modificateur global D qui correspond à l'option PCRE2_DOLLAR_ENDONLY. Ainsi on obtient bien le resultat escompté:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

echo preg_match('~abcd$~D', "abcd\n"); // 0

Pour ma part, je préfère utiliser le couple \A \z (A majuscule et z minuscule) pour figurer le début et la fin de chaîne, car ils n'y a pas l'ambiguïté pré-citée et leur signification ne change pas avec le modificateur m.

Sinon en partant de la pattern de départ, disons ~^[0-9]+-~, on peut ajouter des alternatives séparées pour gérer les autres cas:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
echo preg_replace('~^[0-9]+-|-[0-9]+(?:\.html)?$|\.html$~D', '', $str);
// ou encore
echo preg_replace('~\A[0-9]+-|-[0-9]+(?:\.html)?\z|\.html\z~', '', $str);

De cette manière, pas besoin de capturer, on se contente d'éliminer.

Supprimer nombres et tiret en début de chaîne

Langage PHP

Vue hybride

Discussions similaires

Partager

Partager