Iconv et gros fichier

Version imprimable

Voir 40 message(s) de cette discussion en une page

Bonjour,

J'aurais des fichiers à convertir en UTF-8. Par contre certains fichiers pourraient être très gros.
Si j'ai bien compris, iconv charge le fichier en mémoire avant de le convertir. Donc cela va poser problèmes si les fichiers sont trop gros.
Comme les fichiers ne contiendront que du texte, est-il possible de les découper avant de faire la conversion et de concaténer le résultat?
Si oui, quel programme utiliser? Je pensais à head et tail, mais ce n'est sans doute pas le mieux.

Pour l'instant, voici ce que je pensais utiliser comme script :
Code:

1 2 3 4 5 6 7 8 9 # file -i fichier # Pour vérifier l'encodage liste_fichier='fichier1 fichier2' for fichier in $liste_fichier do mv ${fichier} ${fichier}.old iconv -f iso-8859-15 -t utf-8 ${fichier}.old > ${fichier} rm ${fichier}.old done
Merci d'avance

31/08/2014, 15h07
Invité

Bonjour,

Code:

info coreutils

on y trouve * Output of parts of files:: head tail split csplit

Merci split devrait me convenir ;)

Par contre j'ai un doute sur le 2ème for de mon code.
La liste sera-t-elle toujours dans l'ordre alphabétique?
Est-il possible de ne prendre que les fichiers ayant des chiffres dans leur nom ? Je ne sais pas combien il y aura de chiffre (surement un nombre variable)
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 # file -i fichier # Pour vérifier l'encodage liste_fichier='fichier1 fichier2' for fichier in $liste_fichier do split -d -l 1000 ${fichier} ${fichier}-split- mv ${fichier} ${fichier}.old > ${fichier} for fichier_iconv in ${fichier}-split-[0-9]* do iconv -f iso-8859-15 -t utf-8 ${fichier_iconv} >> ${fichier} rm ${fichier_iconv} done #rm ${fichier}.old done

01/09/2014, 08h10
Invité

Auriez-vous des réponses à mes dernières questions ?
Le sujet devrait être résolu après cela.
01/09/2014, 11h36
jack-ft

Citation:

Envoyé par ecatomb

Merci split devrait me convenir ;)

Par contre j'ai un doute sur le 2ème for de mon code.
La liste sera-t-elle toujours dans l'ordre alphabétique?

Pourquoi utiliser l'option -d ?
Sans l'option -d, les fichiers sont sûrement dans l'ordre alphabétique...
sinon le résultat est inexploitable!

Citation:

Est-il possible de ne prendre que les fichiers ayant des chiffres dans leur nom ?

Pourquoi cette question?

Il suffit d'utiliser un filtre du genre ${fichier}-split-* pour récupérer le résultat du split.

Attention! Le filtre (du for) est une expression générique! Ce n'est PAS une expression régulière!

L'expression que tu utilises ${fichier}-split-[0-9]* ramène tous les fichiers dont le nom commence par ${fichier}-split- suivi d'un chiffre, suivi de n'importe quelle chaîne de caractères (ce qui devrait quand même marcher dans ton cas!).
01/09/2014, 14h10
Invité

Pourquoi le résultat serait inexploitable avec l'option -d ?
Le nombre ajouté est 00 puis 01 etc...
Par contre je viens de voir que si le fichier est divisé en plus de 99 parties, la commande split plante. Donc il faudrait connaitre le nombre max de partie avant de faire le split...

Le filtre ${fichier}-split-* pourrait retourner des fichiers non prévus à l'origine si quelqu'un en crée un avec ce préfixe... D'où ma question.

Pour ta dernière remarque, c'est tout à fait ça. S'il y a une lettre au lieu d'un chiffre ce n'est pas pris en compte. C'est ce que j'ai prévu. Mais comme le nombre de lettre ou chiffre doivent être indiqué dans la commande split, je pourrais m'en sortir avec une expression générique.

Par contre j'ai toujours un doute sur l'ordre. Lors de mes tests cela semble bon, mais j'aimerais avoir confirmation.
Ca serait con d'avoir un fichier en utf8 avec les parties en désordre.
01/09/2014, 15h53
jack-ft

Citation:

Envoyé par jack-ft

Pourquoi utiliser l'option -d ?
Sans l'option -d, les fichiers sont sûrement dans l'ordre alphabétique...
sinon le résultat est inexploitable!

Citation:

Envoyé par ecatomb

Pourquoi le résultat serait inexploitable avec l'option -d ?

Oops! Je n'ai pas été assez clair (Ah! Le français! (ça manque vraiment de parenthèses!))

Je voulais dire que, dans l'utilisation standard (sans l'option -d), les suffixes sont xaa xab etc. et que les fichiers générés sont, à coup sûr, dans l'ordre alphabétique car sinon le résultat serait inexploitable!

Pour l'option -d, je ne sais pas dire car je ne la connaissais pas et j'imaginais qu'ils étaient peut-être dans l'ordre numérique et non alphabétique.

Je proposais de ne pas utiliser l'option -d parce que je ne la connais pas et que xaa and co ça fait 676 noms de fichiers (26*26).

Citation:

Le nombre ajouté est 00 puis 01 etc...
Par contre je viens de voir que si le fichier est divisé en plus de 99 parties, la commande split plante. Donc il faudrait connaitre le nombre max de partie avant de faire le split...

Maintenant tu dis que la commande plante si > 99.

C'est logique! Et ça répond à mon interrogation!

Si split continuait au-delà en mettant les nombres sur 3 chiffres, l'ordre alphabétique ne serait plus respecté!

Citation:

Le filtre ${fichier}-split-* pourrait retourner des fichiers non prévus à l'origine si quelqu'un en crée un avec ce préfixe... D'où ma question.

ça va pas être facile de se prémunir contre ça. On peut (presque) toujours créer un fichier qui tombe mal!

Le plus propre serait peut-être de créer un répertoire temporaire avec mktemp -d par exemple.

Citation:

Pour ta dernière remarque, c'est tout à fait ça. S'il y a une lettre au lieu d'un chiffre ce n'est pas pris en compte. C'est ce que j'ai prévu. Mais comme le nombre de lettre ou chiffre doivent être indiqué dans la commande split, je pourrais m'en sortir avec une expression générique.

Finalement, tu peux aussi utiliser split -d -a 10 (à tester) et tu devrais être tranquille!

Du coup, le filtre peut être précisé en ${fichier}-split-[0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9] !

Citation:

Par contre j'ai toujours un doute sur l'ordre. Lors de mes tests cela semble bon, mais j'aimerais avoir confirmation.
Ca serait con d'avoir un fichier en utf8 avec les parties en désordre.

Voici la confirmation:

Code:

info coreutils 'split invocation'

Citation:

The output files' names consist of PREFIX (`x' by default) followed
by a group of characters (`aa', `ab', ... by default), such that
concatenating the output files in traditional sorted order by file name
produces the original input file (except `-r'). If the output file
names are exhausted, `split' reports an error without deleting the
output files that it did create.

Voilà...
01/09/2014, 21h00
Invité

Citation:

Envoyé par jack-ft

Je proposais de ne pas utiliser l'option -d parce que je ne la connais pas et que xaa and co ça fait 676 noms de fichiers (26*26).

Effectivement, je n'y ai pensé qu'après-coup.

Citation:

Envoyé par jack-ft

Maintenant tu dis que la commande plante si > 99.

C'est logique! Et ça répond à mon interrogation!

Si split continuait au-delà en mettant les nombres sur 3 chiffres, l'ordre alphabétique ne serait plus respecté!

Tout à fait, je me disais bêtement que split calculerait le nombre de fichier à créer et adapterait le nombre de chiffre à avoir.

Citation:

Envoyé par jack-ft

Finalement, tu peux aussi utiliser split -d -a 10 (à tester) et tu devrais être tranquille!

Du coup, le filtre peut être précisé en ${fichier}-split-[0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9] !

Je ne vais pas utiliser le "-d" comme tu as recommandé.
split -a 5 devrait être suffisant avec le filtre ${fichier}-split-[a-z][a-z][a-z][a-z][a-z] :)

for fichier_iconv in ${fichier}-split-[a-z][a-z][a-z][a-z][a-z] et for fichier_iconv in `ls ${fichier}-split-[a-z][a-z][a-z][a-z][a-z]` sont-ils bien identiques ?

Si oui, il ne me restera plus qu'à avoir plus d'information sur les fichiers à convertir pour choisir le dernier paramètre de la commande split : le nombre de lignes
02/09/2014, 11h31
Flodelarab

Bonjour,

moi, je n'utiliserais pas "for", car il y a des limitations, comme la longueur de la ligne. C'est d'autant plus important quand on fait un script qui peut éventuellement lister 26*26*26*26*26 fichiers ( =11881376 noms de fichiers sur la seule ligne de for... ).

Pourquoi ne pas utiliser cat liste_fichiers_a_traiter.txt | xargs -ITT ma_commande_appliquee_a TT ?
02/09/2014, 12h15
Invité

Il faut passer la commande iconv avant.
Je ne vois pas comment la passer sur les différents fichiers sans utiliser le for...
Le split est là pour découper le fichier d'origine en plusieurs parties. Si on les rassemble avant le iconv, ça devient inutile...
02/09/2014, 12h19
Flodelarab

Citation:

Je ne vois pas comment la passer sur les différents fichiers sans utiliser le for...

Je viens de te proposer une solution avec xargs.

Citation:

Le split est là pour découper le fichier d'origine en plusieurs parties. Si on les rassemble avant le iconv, ça devient inutile...

Mon exemple ne réunit pas tes fichiers
02/09/2014, 16h27
jack-ft

Citation:

Envoyé par ecatomb

J'aurais des fichiers à convertir en UTF-8. Par contre certains fichiers pourraient être très gros.
Si j'ai bien compris, iconv charge le fichier en mémoire avant de le convertir. Donc cela va poser problèmes si les fichiers sont trop gros.

Au fait, avant d'utiliser split, as-tu vraiment testé sur le plus gros de tes fichiers que iconv n'arrive pas à le traiter?

Sur une machine linux, il est très rare qu'un process échoue par manque de mémoire.
On n'en est plus à des vieux windows avec espaces mémoires limités et rigides. :-)

Voici une possible manière de faire:
Code:

1 2 3 4 5 6 7 8 9 10 11 function my_conv_file { fichier=$1 split -d -l 1000 "${fichier}" "${fichier}-split-" mv "${fichier}" "${fichier}.old" ls "${fichier}-split-[0-9]"* | while read fichier_iconv; do iconv -f iso-8859-15 -t utf-8 "${fichier_iconv}" done > "${fichier}" rm "${fichier}.old" "${fichier}-split-[0-9]"* } for fichier in $liste_fichier ; do my_conv_file "${fichier}"
La fonction my_conv_file me paraît assez blindée contre les noms de fichiers contenant des espaces (mais pas des returns!)...
mais la boucle for reste un peu faible du fait que la liste de fichiers est "écrasée" dans une variable! :-(

02/09/2014, 17h24
Invité

keskidi ???

Citation:

la boucle for reste un peu faible du fait que la liste de fichiers est "écrasée" dans une variable! :-(

je ne comprend pas cette phrase, tu peux expliciter, s'il te plaît ?
02/09/2014, 17h26
Flodelarab

ls dans un script?

Attention, le voilà

:massacre:

Citation:

Envoyé par Flodelarab

Je viens de te proposer une solution avec xargs.

Mon exemple ne réunit pas tes fichiers

Oups j'avais mal lu ...
J'avais dans la tête "cat fic1 fic2", j'aurais du manger avant de répondre :(

Citation:

Envoyé par jack-ft

Au fait, avant d'utiliser split, as-tu vraiment testé sur le plus gros de tes fichiers que iconv n'arrive pas à le traiter?

Sur une machine linux, il est très rare qu'un process échoue par manque de mémoire.
On n'en est plus à des vieux windows avec espaces mémoires limités et rigides. :-)

Pour le moment non, vu que je n'ai pas encore les fichiers.
La taille des fichiers en entrée du traitement serait en tera (si j'ai bien compris il s'agit d'une base de donnée) ... et que la taille des fichiers en sortie (ceux qui seront à convertir en UTF-8) représentera 10% de la taille en entrée.
Pour le moment, ils sont en train de voir comment faire l'opération en plusieurs fois. Cela permettra de ne pas traiter tout d'un coup et d'exploser l'espace disque.
Mais la taille final des fichiers à convertir pourrait bien être de plusieurs giga. Donc il est préférable d'avoir tout de prêt.

Sinon, mon code est le suivant (suite à mon poste d'hier à 21h)
Il n'y aura pas d'espace dans les noms des fichiers, donc pas besoin de mettre de double quote
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 # file -i fichier # Pour vérifier l'encodage liste_fichier='fichier1 fichier2' for fichier in $liste_fichier do split -a 5 -l 1000 ${fichier} ${fichier}-split- mv ${fichier} ${fichier}.old > ${fichier} for fichier_iconv in ${fichier}-split-[a-z][a-z][a-z][a-z][a-z] do iconv -f iso-8859-15 -t utf-8 ${fichier_iconv} >> ${fichier} rm ${fichier_iconv} done rm ${fichier}.old done
Mais je me pose toujours la même question :
for fichier_iconv in ${fichier}-split-[a-z][a-z][a-z][a-z][a-z] et for fichier_iconv in `ls ${fichier}-split-[a-z][a-z][a-z][a-z][a-z]` sont-ils bien identiques ?

03/09/2014, 00h14
Invité
ce n'est pas pareil.

d'un côté, la boucle itère sur la liste des noms des fichiers (protégés par le shell, les espaces, les retours à la ligne feront partie de la variable affectée) :
Code:

1 2 3 4 $ for f in ~/fichier*; do echo ">$f<"; done >/home/n_bah/fichier avec des espaces< >/home/n_bah/fichier avec un alinea<
de l'autre, la boucle itère sur la substitution de commande, sans protection :
Code:

1 2 3 4 5 6 7 8 9 $ for f in $(ls ~/fichier*); do echo ">$f<"; done >/home/n_bah/fichier< >avec< >des< >espaces< >/home/n_bah/fichier< >avec< >un< >alinea<
03/09/2014, 01h34
Flodelarab

:roll: Moi, je demande à mon SGBD de me sortir les résultats dans le codage que j'apprécie au dernier moment. Que ce soit Iso-machin ou utf-8.

Mais si tu veux convertir des teras de chaines de caractères :calim2: ... bonne chance
03/09/2014, 08h02
Invité
Citation:
Envoyé par N_BaH

ce n'est pas pareil.

d'un côté, la boucle itère sur la liste des noms des fichiers (protégés par le shell, les espaces, les retours à la ligne feront partie de la variable affectée) :

Code:

1 2 3 4 $ for f in ~/fichier*; do echo ">$f<"; done >/home/n_bah/fichier avec des espaces< >/home/n_bah/fichier avec un alinea<

de l'autre, la boucle itère sur la substitution de commande, sans protection :

Code:

1 2 3 4 5 6 7 8 9 $ for f in $(ls ~/fichier*); do echo ">$f<"; done >/home/n_bah/fichier< >avec< >des< >espaces< >/home/n_bah/fichier< >avec< >un< >alinea<
Merci, c'est ce qu'il me semblait avoir lu sur un autre poste.
Dans mon cas ce sera bien identique, donc les iconv seront fait dans le bon ordre

Citation:

Envoyé par Flodelarab

:roll: Moi, je demande à mon SGBD de me sortir les résultats dans le codage que j'apprécie au dernier moment. Que ce soit Iso-machin ou utf-8.

Mais si tu veux convertir des teras de chaines de caractères :calim2: ... bonne chance

Ce n'est pas mon traitement qui traite les données de la bdd mais celui d'une autre équipe.
La conversion sera faite à la fin parce qu'ils n'arrivent pas à traiter de fichier en utf-8 dans leur traitement... sauf s'il n'y a pas d'accent (leur traitement n'est pas du shell). Donc ils nous imposent de le faire...

En tout cas, merci à tous pour votre aide.
03/09/2014, 09h54
jack-ft
Citation:

Envoyé par N_BaH

Citation:

la boucle for reste un peu faible du fait que la liste de fichiers est "écrasée" dans une variable! :-(

je ne comprends pas cette phrase, tu peux expliciter, s'il te plaît ?

Je veux dire ceci:
on ne sait pas d'où vient la liste des fichiers à traiter (je ne parle pas des fichiers générés par le split).
si le nom de certains fichiers comporte des espaces, le fait de regrouper la liste des noms des fichiers dans une variable "$liste_fichier" ruine les chances de pouvoir les énumérer dans une boucle "for":
Code:

1 2 for fichier in $liste_fichier ; do my_conv_file "${fichier}" # Marche pas si certains noms ont des espaces
À la rigueur, si les noms sont séparés par des return (et n'en contiennent pas), peut-on les énumérer avec quelque chose comme:
Code:

1 2 echo "$liste_fichier" | while read fichier; do my_conv_file "${fichier}"; done # Marche si les noms ont des espaces, mais sont séparés par des return
Merci de me corriger si je me trompe :oops:

Voir 40 message(s) de cette discussion en une page