Extraire le vocabulaire d'un roman : sed ou awk?

**Celano** · 19/12/2014, 16h02

Bonjour

J'ai un fichier roman.txt

Je voudrais créer un lexique à partir du vocabulaire utilisé dans le roman (lexique.txt).

Il faut donc:
1) extraire chaque mot du roman,
2) garder une seule fois un mot qui serait réutilisé plusieurs fois dans le roman,
3) en faire une liste plaçant les mots les uns au-dessus des autres,
4) dans l'ordre alphabétique dans un fichier "lexique.txt"

Qu'est-ce qu'il est préférable d'utiliser: awk, ou sed? Le fichier est très volumineux.

Je remplacerais déjà chaque espace par un saut de ligne. Pas trop compliqué avec les deux commandes.
Ensuite, je chercherais et supprimerais les doublons. Là je ne sais pas trop comment.
Enfin je mettrais dans l'ordre alphabétique. Et là plus du tout...

Je vous remercie.
Celano

**Flodelarab** · 19/12/2014, 16h26

Bonjour,

sort est l'outil pour trier. L'option -u pour supprimer les doublons.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
$ sed 's/ /\n/g' txt|sort -u
 
1)
2)
3)
4)
à
alphabétique
alphabétique.
au-dessus
autres,
avec
awk,
Bonjour
Celano
chaque
chercherais
commandes.
comment.
compliqué
créer
dans
de
déjà
des
deux
donc:
doublons.
du
d'utiliser:
en
Enfin
Ensuite,
espace
est
et
Et
extraire
faire
faut
fichier
fois
garder
Il
J'ai
je
Je
là
Là
le
Le
les
lexique
"lexique.txt"
(lexique.txt).
ligne.
liste
l'ordre
mettrais
mot
mots
ne
ou
par
partir
pas
Pas
plaçant
plus
plusieurs
préférable
Qu'est-ce
qui
qu'il
remercie.
remplacerais
réutilisé
roman
roman,
roman.txt
sais
saut
sed?
serait
seule
supprimerais
tout...
très
trop
un
une
uns
utilisé
vocabulaire
volumineux.
voudrais
vous

**jack-ft** · 19/12/2014, 16h27

Personnellement, je ferais:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
man grep
man sort

En particulier, je regarderais les options -w, -o et -i de grep, associées à du '[:alpha:]+' par exemple.
Et je regarderais aussi l'option -u de sort.

Attention toutefois à la gestion des majuscules et minuscules, et aux caractères non-ascii (caractères accentués et autres, notamment le tiret, qui peut faire partie de nombreux mots et l'apostrophe qui peut faire partie de certains noms (les noms propres notamment)) et à leur encodage (utf8, iso8859-1, cp1252?)!

**Celano** · 19/12/2014, 16h50

Vous n'imaginez pas tout ce que linux peut faire pour vous...

Je suis encore tout ébahi. Merci pour les conseils. Maintenant je vais décortiquer les manuels à partir de ces indiations.

Celano

PS: encore merci!

**Flodelarab** · 19/12/2014, 17h03

"Alphabétique" est présente deux fois à cause du point. On peut faire plus intelligent: considérer comme séparateur tout ce qui n'est pas alphanumérique ou tiret.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
$ sed 's/[^a-zA-Z0-9-]/\n/g' txt|sort -u
 
1
2
3
4
à
ai
alphabétique
au-dessus
autres
avec
awk
Bonjour
Celano
chaque
chercherais
commandes
comment
compliqué
créer
d
dans
de
déjà
des
deux
donc
doublons
du
en
Enfin
Ensuite
espace
est
est-ce
et
Et
extraire
faire
faut
fichier
fois
garder
il
Il
J
je
Je
l
là
Là
le
Le
les
lexique
ligne
liste
mettrais
mot
mots
ne
ordre
ou
par
partir
pas
Pas
plaçant
plus
plusieurs
préférable
qu
Qu
qui
remercie
remplacerais
réutilisé
roman
sais
saut
sed
serait
seule
supprimerais
tout
très
trop
txt
un
une
uns
utilisé
utiliser
vocabulaire
volumineux
voudrais
vous

Notez la présence de "au-dessus".

**disedorgue** · 19/12/2014, 21h00

Bonjour,

Comme précisée par jack-ft, attention à la locale, exemples:

Bon tri:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
$ echo -e "trét\ntreu\ntres\ntrop" | LC_COLLATE=fr_FR.utf8 sort
tres
trét
treu
trop

Mauvais tri:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
$ echo -e "trét\ntreu\ntres\ntrop" | LC_COLLATE=C sort
tres
treu
trop
trét

**Jipété** · 19/12/2014, 23h25

Envoyé par jack-ft

[...] notamment le tiret, qui peut faire partie de nombreux mots et l'apostrophe qui peut faire partie de certains noms (les noms propres notamment) [...]

Pas que dans les noms propres, et quand les deux sont combinés, je vous raconte pas

: tout s'en va à vau-l'eau !

Extraire le vocabulaire d'un roman : sed ou awk?

Shell et commandes GNU

Discussions similaires

Partager

Partager