Script shell : Traitement par bloc

**kurapix** · 08/07/2008, 03h37

Bonjour les développeurs!!!

Je chercherais à créer un script shell me permettant d'isoler des blocs de texte provenant d'un fichier formaté d'une certaine manière. Puis, effectuer un traitement bloc par bloc pour le reformater de manière à ce que la sortie soit exploitable.
Je veux faire un traitement bloc par bloc car certains champs n'apparaissent pas dans tous les blocs.

Exemple :
Imaginons un système de notes dépendant d'un terminal propriétaire.
Celui-ci va donner des sorties comme-ci lorsqu'on l'interroge (tout est fictif mais traduit bien mes besoins) :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
 
=BEGIN
COM=234564
GRAD=1
***TYPE=1 PARAM=0
***TYPE=2 PARAM=0
CAT=ELV
SERV=VIEW+SHOW+EDIT
=END
 
=BEGIN
COM=234565
CAT=IND
SERV=VIEW
=END

COM : compte n°
CAT : catégorie (IND = individu quelconque, ELV = eleve)
SERV : service (SHOW = Partager ses notes, EDIT = Mettre ses notes, VIEW = Voir ses notes ou les notes partagées)
TYPE : type de notes (Devoir Maison, Devoir Samedi, ...), PARAM : type de type, note obligatoire ou non, ...
GRAD : Matières

On voit bien qu'il y a plusieurs blocs et que dans chaque blocs on a pas forcément tous les champs.
J'aimerais donc isoler le premier bloc, le traiter, reformater celui-ci puis faire de même pour le second blocs et les autres.

Le format de sortie serait par exemple le suivant :
?INSERT. // commande
COM=234564, GRAD=1:TYPE=1 PARAM=0:TYPE=2 PARAM=0,CAT=ELV,SERV=VIEW+SHOW+EDIT#
COM=234565, CAT=IND, SERV=VIEW;
('#' : ligne intermédiaire, ':' : séparation pour les paramètre d'une instruction, ';' : fin de la commande)

(Dans notre cas, ça générerait une macro que le terminal pourrait utiliser en cas de crash)

Déjà je sais que pour récupérer des blocs en supprimant les autres lignes "parasites" il suffit de faire :
awk '/=BEGIN/, /=END/' fichier

Je vous remercie d'avance.

Kurapix

**KindPlayer** · 08/07/2008, 09h08

la commande que tu decris est plutot une commande sed il me semble:
sed -n /=BEGIN/,/=END/ fichier
Pour le traitement de ton fichier je ne vois rien d'autre pour l'instant que combiner des expressions reguliere avec des grep et des sed.

**KindPlayer** · 08/07/2008, 09h09

j'ai oublié le p apres /=END/ pour "printer" les lignes

**kurapix** · 08/07/2008, 10h10

Je te remercie de ta réponse.

Je ne connais pas d'autres moyens à part les grep, sed, awk, tr, cut et regexp non plus ><.
Bon je vais continuer avec mon ligne par ligne et mes conditions (asser lent, faudra que je trouve un moyen pour optimiser ... d'où mon idée de traitement par blocs et pas par fichier entier ou ligne).

En gros ça se passe comme ça pour mon script :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
 
# Fichier reçu en entré
fileParse=fichier.txt
# Fichier reformaté
file=fichierReformat.txt
 
# On cree le fichier
echo '' > $file
 
# Traitement ligne par ligne
while read line
do
    # Si vide alors on affecte la variable
    if [ `expr length "$VAR1"` -eq 0 ]; then
        VAR1=`echo $line | awk '/VAR1=[0-9]/ { print $1"," $2$3 }' | tr -d ' ' | tr -d '\r\n'`
    fi
    if [ `expr length "$VAR2"` -eq 0 ]; then
        VAR3=`echo $line | awk '/VAR2=./ { print $0 }' | tr -d ' ' | tr -d '\r\n'`
    fi
    if [ `expr length "$VAR3"` -eq 0 ]; then
        VAR3=`echo $line | awk '/VAR3=./ { print $0 }' | tr -d ' ' | tr -d '\r\n'`
    fi
    # Si on arrive à la fin du bloc
    # Alors on stocke les données et on remet à zéro les variables
    if [ `expr match "$line" "FIN BLOC"` -gt 0 ]; then
    {
        echo "$VAR1, $VAR2, $VAR3:" | sed 's@ ,@@g' | sed 's@, :@:@g' >> $file
        VAR1=''
        VAR2=''
        VAR3=''
        # ... etc ...
    }
    fi    
done < "$fileParse"
 
mv $file `date '+%d%m%Y'.txt

Il n'est pas encore vraiment au point (car on peut avoir qu'une seule variable avec pour nom TYPE par exemple).
Ce qui me gène ici c'est la lenteur du script (dû aux conditions notament mais aussi par le traitement ligne par ligne aussi je pense). Ce script va travailler sur des fichiers contenant des milliers de lignes concernant des milliers d'utilisateurs.

Merci encore à ceux qui vont lire mon post et encore plus à ceux qui vont y répondre ^^.

Kurapix

**BlaireauOne** · 08/07/2008, 13h03

Traitement avec awk donnant le résultat souhaité

http://lea-linux.org/cached/index/Dev-awk.html
http://www.shellunix.com/awk.html
http://www.delorie.com/gnu/docs/gawk/gawk_toc.html

Script :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
 
awk '
BEGIN {
	TopNbrBEGIN=0
	TopNbrTYPE=0
}
{
	if ($1 == "=BEGIN")
	{
		TopNbrBEGIN++
		while (getline > 0) {
			if ($1 == "=END") {
				TopNbrTYPE=0
				next #--- enreg =END lu, on sort de la boucle While
			}
			if ($1 ~ /^COM=/) {
				printf("%s,",$0)
				continue
			}
			if ($1 ~ /^GRAD=/) {
				printf("%s:",$0)
				continue
			}
			if ($1 ~ /^\*\*\*TYPE=/) {
				TopNbrTYPE++
				if (TopNbrTYPE > 1) {
					printf(":")
				}
				printf("%s",substr($0,4))
				continue
			}
			if ($1 ~ /^CAT=/) {
				if (TopNbrTYPE > 0) {
					printf(",")
				}
				printf("%s,",$0)
				continue
			}
			if ($1 ~ /^SERV=/) {
				printf("%s",$0)
				if (TopNbrBEGIN == 1) {
					print "#"
				} else {
					print ";"
					TopNbrBEGIN=0
				}
				continue
			}
		continue
		}
	}
	#--- Enregs hors de =BEGIN et =END ignorés
} '  test.txt > result.txt
cat result.txt

Exécution :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 
COM=234564,GRAD=1:TYPE=1 PARAM=0:TYPE=2 PARAM=0,CAT=ELV,SERV=VIEW+SHOW+EDIT#
COM=234565,CAT=IND,SERV=VIEW;

**kurapix** · 09/07/2008, 08h38

Merci beaucoup pour cette réponse qui m'a beaucoup aidé BlaireauOne.
Je ne connais pas encore très très bien l'awk mais j'avoue que c'est un outils très puissant pour ceux qui savent l'utiliser ^^. J'ai compris le script donné, et l'approche est intéressante ^^, j'ai modifié quelque parties afin de répondre au mieux à mes besoins

.
Le script prend désormais quelques secondes ... alors qu'il prenait quelques minutes auparavant ^^ .

J'ai encore quelques mises au point à faire encore avant de mettre ce topic en résolu (le fichier à traiter et le format de sortie est un peu plus complexe que l'exemple que j'ai donner

).
Je ne peux pas dévoiler ni les données brutes, ni les données reformatées, ni le script. La raison est que je travaille dans un environnement propriétaire encore en production.
Une fois le travail accompli, j'essaierais d'expliquer au mieux ce qui a été fait (ça pourrait aider des personnes dans le même cas ^^).

Par ailleurs, j'ai vu que le Perl avait été créé dans le but de traiter du texte :
- Es-t'il prévu que pour cela?
Plus puissant qu'awk, sed, bash, cut, ... réuni d'après ce que j'ai lu.
Il a l'air d'être un langage complet, souple, puissant et intéressant en tout cas ^^.

Kurapix

Script shell : Traitement par bloc

Linux

Vue hybride

Discussions similaires

Partager

Partager