Chaîne de caractères

**selver057** · 19/01/2012, 09h52

Bonjour, j'ai la chaîne de caractères suivante :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

str1 = "'<123.456.789.AABBCC"

Existe-t-il une méthode qui me permet de récupérer une partie de cette chaîne de caractères dans une nouvelle variable ? Si oui, pouvez-vous me dire laquelle et m'expliquer comment elle fonctionne ?

Exemple de résultat souhaité :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

str2 = "123.456.789"

D'avance je vous remercie de votre aide.

**tyrtamos** · 19/01/2012, 11h40

Bonjour,

Il y a plusieurs méthodes, mais il faudrait mieux préciser les critères d'extraction.

Par exemple, s'il s'agit d'extraire la chaine qui se trouve entre l'indice 2 et l'indice 12 (les indices commencent à 0):

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
str1 = "'<123.456.789.AABBCC"
print str1[2:13]
123.456.789

S'il s'agit d'extraire tout ce qui se trouve entre le 1er '<' et le dernier '.':

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
i1 = str1.find('<')+1
i2 = str1.rfind('.')
print str1[i1:i2]
123.456.789

Et si on veut récupérer la chaine qui commence par un chiffre et se termine par un chiffre et qui ne contient que des chiffres et des points, c'est un petit peu plus compliqué: on passe par les expressions régulières:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
import re
x = re.search(r"([^0-9])([0-9\.]+[0-9])([^0-9])", str1)
print x.groups()[1]
123.456.789

Mais on peut toujours, bien sûr, faire une fonction d'extraction qui cherche, caractère par caractère, le 1er et le dernier nombre.

**selver057** · 19/01/2012, 19h39

Merci pour ces propositions. La dernière partie est effectivement un peu plus compliquée.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
import re
x = re.search(r"([^0-9])([0-9\.]+[0-9])([^0-9])", str1)
print x.groups()[1]

Pourriez-vous me donner un peu plus d'explications sur ce que font exactement ces lignes d'instructions ?

**tyrtamos** · 19/01/2012, 20h20

([^0-9]) => n'importe quel caractère sauf un chiffre
([0-9\.]+[0-9]) => plusieurs caractères numériques et '.', terminé par un caractère
([^0-9]) => n'importe quel caractère sauf un chiffre

Les parenthèses identifient les groupes: il y a donc 3.

Une fois le motif reconnu:
groupe 0 => '<'
groupe 1 => '123.456.789'
groupe 2 => '.'

et on retient le groupe 1 du milieu => '123.456.789'

Info complémentaires ici: http://docs.python.org/library/re.html#module-re

**selver057** · 23/01/2012, 10h00

Bonjour, je me reporte à votre dernier post :

([^0-9]) => n'importe quel caractère sauf un chiffre

Une fois le motif reconnu:
groupe 0 => '<'
groupe 1 => '123.456.789'
groupe 2 => '.'

Etant donné que str1 = "'<123.456.789.AABBCC", que se passe-t-il pour les caractères AABBCC ? Ne sont-ils jamais pris en compte lors de la constitution des groupes ?

**tyrtamos** · 23/01/2012, 10h35

Bonjour,

Non, puisque j'ai construit le motif comme ça: la sous-chaine cherchée est composée de chiffres et de points, entourée par 2 caractères "non-chiffres".

Pourquoi voudriez-vous que les autres caractères soient pris en compte?

**selver057** · 23/01/2012, 21h00

Le doute vient du fait que vous spécifiez à deux reprises avec ([^0-9]) que vous voulez n'importe quel caractère sauf un chiffre. Pour moi cela signifie que les caractères alphabétiques AABBCC (donc non numériques) doivent être prises en compte. Or celles-ci ne le sont pas. Votre dernier post m'aide à y voir un peu plus clair. Et si j'avais voulu avoir uniquement le résultat suivant : AABBCC, à quoi ressemblerait le motif ?

**fred1599** · 23/01/2012, 21h29

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
import re
x = re.search(r"([A-Z]+)", str1)
print x.groups()[0]

je suppose

**tyrtamos** · 23/01/2012, 21h54

Avant de fabriquer un motif, il faut pouvoir décrire avec des mots ce qu'on cherche. Alors, essayons:

On cherche:
- un mot composé de une ou plusieurs lettre(s) majuscules => '[A-Z]+'
- limité à gauche par un point => '.'
- limité à droite par la fin de ligne => '$'

On entoure le motif du mot par des parenthèses pour faire un groupe afin de faciliter l'extraction

Ce qui donne:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
import re
str1 = "'<123.456.789.AABBCC"
x = re.search(r".([A-Z]+)$", str1)
if x==None:
    print "Echec!"
else:
    print x.groups()[0]

Ce qui affiche:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

AABBCC

[Edit] fred1599 a raison: on peut se passer du '.' à gauche: il suffit que ce ne soit pas un A-Z. Pour la droite: sans le '$', on peut trouver le mot cherché au milieu de la chaine, qui sera aussi limité par un caractère non-A-Z.

**selver057** · 25/01/2012, 20h28

Bonjour, et merci pour toutes vos réponses.

@ Tyrtamos : J'utilise Python 3.2. Lorsque j'exécute les lignes de codes que vous avez proposées

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
import re
str1 = "'<123.456.789.AABBCC"
x = re.search(r".([A-Z]+)$", str1)
if x==None:
    print "Echec!"
else:
    print x.groups()[0]

je reçois un message d'erreur : "Invalid syntax" (mauvaise syntaxe). Pourtant j'ai scrupuleusement respecté la syntaxe. La version Python que j'utilise est-elle pour quelque chose ?

**mont29** · 25/01/2012, 20h55

Ben oui, en python3, print n’est plus un mot-clé, mais une fonction, qu’il faut donc appeler comme telle*:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
import re
str1 = "'<123.456.789.AABBCC"
x = re.search(r".([A-Z]+)$", str1)
if x==None:
    print("Echec!")
else:
    print(x.groups()[0])

**selver057** · 28/01/2012, 20h39

D'accord, bien compris pour la fonction print et effectivement ça fonctionne après essai. Pour bien cerner la question de la construction des sous chaînes de caractères à partir de motifs, je vous propose ces quelques nouveaux exemples :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
str1 = "vendredi 13 Janvier 2012 à 16:45:50 -0800 (PST)"
str2 = "De: mnat.legrand@yahoo.fr"
str3 = "A: fab.pierre@gmail.com, gg.giraud@hotmail.fr, vcas@yahoo.com
              fifi.perrec@yahoo.fr"
str4 = "Objet: Re: Invitation pour anniversaire"
str5 = "Objet: 2- Enquête/Information E-Mail 5-14- 01"

Quel(s) serait/seraient le/les motifs pour extraire:
de str1 : "13 Janvier 2012", "16:45:50"
de str2 : "mnat", "legrand", "yahoo.fr"
de str3 : IDEM que pour str2
de str4 : "Invitation pour anniversaire"
de str5 : IDEM que pour str4

D'avance je vous remercie pour votre aide.

**fred1599** · 28/01/2012, 21h22

Allez je fais le 1er

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
>>> str1 = "vendredi 13 Janvier 2012 à 16:45:50 -0800 (PST)"
>>> pattern = "(\d{2} \w+ \d{4})"
>>> x = re.search(pattern, str1)
>>> print(x.groups()[0])

**selver057** · 29/01/2012, 14h08

@ Fred : merci pour la suggestion. J'enlève le "à" de str1 ce qui me donne maintenant :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

str1 = "vendredi 13 Janvier 2012 16:45:50 -0800 (PST)"

Y-aurait-il un motif tout aussi simple que celle que vous proposez pour extraire l'heure ? J'ai tenté le motif suivant :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
str1 =  "vendredi 13 Janvier 2012 16:45:50 -0800 (PST)"
pattern1 = "(([0-9]) ([0-9 \:] + [0-9 \:] + [0-9]) (^0-9))"
x = re.search(pattern1, str1)
print(x.groups()[1])

ou encore :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
str1 =  "vendredi 13 Janvier 2012 16:45:50 -0800 (PST)"
pattern1 = "(\d{4} ([0-9 \:] + [0-9 \:] + [0-9]) (^0-9))"
x = re.search(pattern1, str1)
print(x.groups()[1])

Pour str2, j'ai essayé ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
str2 =  "De: mnat.legrand@yahoo.fr"
pattern2 = "(([A-z \:]) ([a-z]+) ([. \a-z]))"
x = re.search(pattern2, str2)
print(x.groups()[1])

Cela ne me donne pas les résultats attendus. Où se trouve(nt) l'/les erreur(s)?

**fred1599** · 31/01/2012, 20h56

pattern = "(\d\d:\d\d:\d\d)"

**selver057** · 07/02/2012, 21h00

Bonjour,

Je m'adresse de nouveau à vous car à ce jour je n'ai toujours pas trouvé l'expression régulière correcte en python qui me permette de chercher et d'extraire de la chaîne de caractères str2 les éléments suivants : "mnat", "legrand", "yahoo.fr" (c.f. post N° 12). Pourriez-vous me dépanner ? D'avance je vous remercie.

**mont29** · 07/02/2012, 21h30

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

r"(\w+)\.(\w+)@([\w.]+)"

Autrement dit, un premier groupe de caractères alphanumériques (le \w), un point, un deuxième groupe similaire, une arobase, et un dernier groupe de caractères alphanumériques ou point. Le principe d’une adresse email étant de ne pas comporter d’espaces…

Mais perso, je ferais plutôt

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

r"([\w.]+)@([\w.]+)"

Pour récupérer d’un coup tout la partie gauche de l’email, et ensuite un simple .split('.') permet de couper aux points (les regex ne sont pas adaptées pour capturer un nombre inconnus de groupes similaires).

Chaîne de caractères

Python

Discussions similaires

Partager

Partager