Regex perl (test \n)

**slockstone** · 15/01/2009, 19h27

Bonjour,

J'ai un fichier qui se compose comme cela :

Type de document Ouvrage
Thème ARCHITECTURE
Titre Symboles et décors des maisons villageoises : marques sociales, protections magiques
Auteurs FILLIPETTI Hervé
isbn 2-84038-219-9
Référence Rustica
Commentaire fgsdfgsdfggggfdgfssdfg
sdfgdsfgdsfgsd
sdfgdfgs
Numéro 121
Titre2 test

Toutes mes lignes commencent pas des "intitulés de champs", malheureusement dans le champ commentaire il y arrive qu'il y ait des retour à la ligne. J'ai un script qui interpret ses retour à la ligne comme des chagements de champs. Je voudrais donc supprimer tout les \n qui ne sont pas suivit d'un intitulé(Auteurs,isbn,Numéro...).

Je ne connais vraiment pas grand chose à Perl et je ne vois aps comment mettre en forme mon idée.

Je pensais à

récupéré les saut de lignes et le mot suivant avec un /(\n)(.*\s)/

Puis tester si $2 etait dans ma liste de champs(Auteurs,isbn,Numéro...).
Si c'est le cas je ne fais rien sinon je fais un s/$1$2//g.

Je ne sais pas si cette solution est correcte, en tout cas si elle l'est je ne vois aps comment appliquer ca en perle, quelqueu pourrait m'aideR?

Merci!

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
 
#!/usr/bin/perl
 
open(FH, 'fichiertest.txt');
my $content;
$content .= $_ while (<FH>);
close(FH);
 
my $condition = '(\n)(\p{L}*)';
my $champok = 1;
my @montableau_de_champ = ("Titre","Numéro","Auteurs");
 
while ( $content =~ /$condition/)
{
	foreach $mavar (@montableau_de_champ)
	{
		if ($2 == $mavar)
		{
			$champok=0;
		};
	}
	if ( $champok == 1 )
	{
		$content =~ s/$1$2//;
	} 
}

**iblis** · 16/01/2009, 01h50

Bonsoir.

Je ne sais pas trop ce que tu veux faire de ton fichier de bibliographie (issu de Francis ?): le convertir vers BibTeX ou EndNote, le classer ?

Dans tous les cas, tu n'as pas besoin de le modifier pour gèrer des champs multilignes. Tu peux par exemple faire une gestion d'états (pour s'avoir quand tu passes à un nouvel enregistrement et quand tu passes à un nouveau champ), ou encore alors lire engegistrement par enregistrement (en modifiant localement $/) et parser les champs avec des regex en multiligne.

En attendant si veux supprimer les \n dans les champs tu peux faire comme suit :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
 
use strict; use warnings;
use List::MoreUtils qw(any);
 
my @field_marks = qw(Type Thème Titre Auteurs isbn Référence Commentaire Numéro Titre2);
 
open my $fh, '<', 'file.txt'
	or die "$!\n";
 
while (<$fh>) {
	chomp;
	my $first = (split /\s+/)[0];
	print "\n" if not defined $first or any { $first eq $_ } @field_marks;
	print;
}
print "\n";

Le principe est d'imprimer les lignes sans le "\n" de fin et de n'imprimer celui-ci que si la ligne suivante commence par un marqueur de champ.

Commentaires :

1. Il est indispensable d'utiliser les pragmas strict et warnings pour éviter les bourdes les plus élémentaires.

2. Je te conseille de ne pas utiliser de filehandle nu mais une variable locale pour les stocker (comme dans l'exewmple).

3. Le chomp supprime le "\n" en fin de ligne lu (en fait supprime les caractères de fin ayant pour valeur $/, le séprateur d'enregistrement lus en entrée, par défaut "\n");

4. $first contient le premier mot de la ligne.

5. any est une fonction de List:MoreUtils qui retourne vrai si pour au moins un éléments de la liste le block est évéalué vrai.

**slockstone** · 16/01/2009, 19h24

Cool merci, enfaite tu prends la solution dans l'autre sens. Ce je voulais faire n'était pas possible? ou juste mauvais

?

Ce fichier est un export d'Alexandrie v5.

Enfaite je dois le faire passer a un de mes clients pour qu'il le transforme en unimarc.
Leur moulinette qui fait le passage en unimarc ne doit pas utiliser "la gestion d'état" donc ils ont eu un problème sur l'importe pour quelques notices.

Je vais tester ton script (essayer de le comprendre :-). Merci pour les commentaires.

Je te tiens au courant, j'attends de recevoir mes bouquins perl et je rentre serieusement dedans.

a+++

ps = J'avoue que j'ai un peu de mal avec toutes ces commandes genre chomp et print qui vont prendre en entrée standard les valeurs de retour du while etc.. Il faut que je m'habitue. Ca n'aide pas la lecture pour els non avertits

**slockstone** · 17/01/2009, 02h00

j'ai teste, mais cela ne marche pas car j'ai pas mal d'intitule de champs compose de plusieurs mot, j'ai tente d'adapter le script, avec un delimiter tab pour le split.

Mais cela ne semble pas marcher...

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
 
#!/usr/bin/perl
 
use strict; use warnings;
use List::MoreUtils qw(any);
 
my @field_marks = qw("Type" "Thème" "Titre" "Auteurs" "isbn" "Référence" "Commentaire" "Numéro" "Année de parution" "Nbre d'exemplaires" "Emprunt autorisé" "Nbre de jrs emprunt" "Cote" "Prix" "Date d'indexation" "Langue" "Localisation" "Descriptif du contenu" "Descripteurs" "édition");
 
open my $fh, '<', 'fichiertest.txt'
        or die "$!\n";
 
while (<$fh>) {
        chomp;
        my $first = (split /\t+/)[0];
        print "\n" if not defined $first or any { $first eq $_ } @field_marks;
        print;
}
print "\n";

j'ai mis le fichier sur lequel je fais des tests en attachement...

merci encore

ps=je comprend pas trop les types de sauts de lignes des fichier? fichiertest = windows? script = linux?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
julien@port-ber:~/script-perl$ ./saut-ligne.pl >toto
julien@port-ber:~/script-perl$ file toto 
toto: UTF-8 Unicode text, with CRLF, CR line terminators
julien@port-ber:~/script-perl$ file fichiertest.txt
fichiertest.txt: UTF-8 Unicode text, with CRLF line terminators

**iblis** · 17/01/2009, 14h57

La fonction qw(STRING) (pour quote word) retourne une liste dont chaque élément est un mot extrait de la chaîne en argument. Elle permet de définir rapidement une liste composée de mots, sans quoter chacun des mots un par un.

Pour définir une liste en toute généralité :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

my @fields = ('un champs', 'un autre champs');

Toutefois, tel quel le script que je t'ai proposé en exemple se base sur le premier mot pour déterminer si une ligne comporte un marqueur de champ, ce qui est suffisant si tes marqueurs de champs de risquent pas de correspondre à un mot dans les champs que tu nettoies. Donc il te suffit de rajouter à la liste les premiers mots de tes autres marqueurs de champs.

Je te conseille de parcourir la FAQ Perl sur ce site, elle est très bien faite et te donnera les éléments nécessaires pour débuter (et au-delà).

La conversion vers Unimarc n'est jamais très simple mais certainement bien plus plus que de parser du Unimarc non-trivial. Regarde les modules Marc sur le CPAN, en particulier Marc::Record.

**slockstone** · 18/01/2009, 01h09

merci.

Mais cela ne semble pas marcher :-(

Avant :

Type de document Jeu
Thème RECYCLAGE
Titre Le jeu des sept familles
Auteurs SICTOM
Référence SICTOM
Année de parution 2000
Descripteurs RECYCLAGE
Commentaire Un jeu pour apprendre à trier
les déchets en
s'amusant ! Des illustrations vivantes, drôles et colorées.
Nbre d'exemplaires 1
Emprunt autorisé oui

apres

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
julien@port-ber:~/script-perl$ ./sautligne.pl 

Type de document	Jeu
Thème	RECYCLAGE
Titre	Le jeu des sept familles
Auteurs	SICTOM
Référence	SICTOM
Année de parution	2000
Descripteurs	RECYCLAGE
s'amusant ! Des illustrations vivantes, drôles et colorées.
Nbre d'exemplaires	1
Emprunt autorisé	oui

Enfaite j'ai essaye d'utiliser tout le champ car sinon quand le script fait un split sur le champ espace cela risque de ne pas marcher non?

En tout cas la j'ai des lignes qui sautes(a cote de ?RECYCLAGE) je ne comprends pas pourquoi...

Regex perl (test \n)

Langage Perl

Vue hybride

Discussions similaires

Partager

Partager