IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Shell et commandes GNU Discussion :

gawk et locale


Sujet :

Shell et commandes GNU

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre éprouvé
    Homme Profil pro
    Analyste d'exploitation
    Inscrit en
    Décembre 2013
    Messages
    70
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : Analyste d'exploitation

    Informations forums :
    Inscription : Décembre 2013
    Messages : 70
    Par défaut gawk et locale
    Bonjour,

    Est-il possible de modifier les "locale" à l'intérieur d'un programme gawk ?

    Ce que je voudrais faire, c'est tester si un champ ne contient que des majuscules non accentuées.
    Alors, j'y arrive comme ça :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    $ LC_COLLATE=C gawk '/^[A-Z]$/' <<<"É"
    $ LC_CTYPE=C gawk '/^[[:upper:]]$/' <<<"É"
    $
    Mais est-il possible de le faire dans le programme gawk ? J'ai essayé ceci, mais ça ne fonctionne pas, du moins, ça ne fonctionne pas comme je voudrais :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    $ gawk 'BEGIN{ENVIRON["LC_COLLATE"]="C"} /^[A-Z]$/' <<<"É"
    É
    $ gawk 'BEGIN{LC_COLLATE="C"} /^[A-Z]$/' <<<"É"
    É
    $ gawk 'BEGIN{ENVIRON["LC_CTYPE"]="C"}/^[[:upper:]]$/' <<<"É"
    É
    $ gawk 'BEGIN{LC_CTYPE="C"}/^[[:upper:]]$/' <<<"É"
    É
    $

  2. #2
    Expert confirmé Avatar de disedorgue
    Homme Profil pro
    Ingénieur intégration
    Inscrit en
    Décembre 2012
    Messages
    4 354
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur intégration
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Décembre 2012
    Messages : 4 354
    Par défaut
    Bonjour,

    On ne peut pas, même si on redéfini les valeurs des locales dans le awk, c'est trop tard, car elles ont déjà été initialisées en interne.

    Perso, mon LC_COLLATE est en fr_FR.utf-8 et il ne pose pas de souci avec la regex '[A-Z]'...

    Sinon, tu as essayé en passant par:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    gawk '/^[\x41-\x5a]$/' <<<"É"
    Une autre alternative, c'est de ce créer un petit script qui configure les locale et lance le awk.

    Ou alors ton awk pipe ou fork (system) un autre awk avec une locale différente.

  3. #3
    Membre éprouvé
    Homme Profil pro
    Analyste d'exploitation
    Inscrit en
    Décembre 2013
    Messages
    70
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : Analyste d'exploitation

    Informations forums :
    Inscription : Décembre 2013
    Messages : 70
    Par défaut
    Bonjour,

    Merci pour ta réponse disedorgue.

    En fait, ça doit venir de la version de gawk sur le serveur ou des "locales" en elles-mêmes ??

    Sur mon PC perso, ça fonctionne comme chez toi :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    $ gawk --version | head -2
    GNU Awk 4.1.4, API: 1.1 (GNU MPFR 4.0.1, GNU MP 6.1.2)
    Copyright © 1998, 1991-2016 Free Software Foundation.
    $ LC_COLLATE="fr_FR.utf8" gawk '/^[A-Z]$/' <<<"É"
    $ LC_COLLATE="en_US.UTF-8" gawk '/^[A-Z]$/' <<<"É"
    $ LC_COLLATE="C" gawk '/^[A-Z]$/' <<<"É"
    $
    Alors que sur le serveur où mon script tourne :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    $ gawk --version | head -2
    GNU Awk 3.1.7
    Copyright (C) 1989, 1991-2009 Free Software Foundation.
    $ LC_COLLATE="fr_FR.utf8" gawk '/^[A-Z]$/' <<<"É"
    É
    $ LC_COLLATE="en_US.UTF-8" gawk '/^[A-Z]$/' <<<"É"
    É
    $ LC_COLLATE="C" gawk '/^[A-Z]$/' <<<"É"
    $
    L'utilisation de [\x41-\x5a] ne résout pas le souci sur le serveur :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    $ LC_COLLATE="fr_FR.utf8" gawk '/^[\x41-\x5a]$/' <<<"É"
    É
    $ LC_COLLATE="en_US.UTF-8" gawk '/^[\x41-\x5a]$/' <<<"É"
    É
    $ LC_COLLATE="C" gawk '/^[\x41-\x5a]$/' <<<"É"
    $
    Mais si on est en LC_COLLATE="fr_FR.utf8", le « É » devrait sortir, non ? Ou ce n'est pas LC_COLLATE qui sert pour "trier" ??

    Edit :
    Voilà l'explication de la différence de fonctionnement entre la version 3 et la version 4 de gawk :
    Regexp Ranges and Locales: A Long Sad Story

    Re-edit :
    Et du coup, j'ai rajouté un petit avertissement au début de mon script gawk comme ceci :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    #!/usr/bin/gawk -f
    BEGIN {
        if ( ENVIRON["LC_COLLATE"] != "C" ) { printf "Lancer le script comme ceci :\n\tLC_COLLATE=C ./extract.awk fichiers\n"; exit 1;}
    }

  4. #4
    Expert confirmé Avatar de disedorgue
    Homme Profil pro
    Ingénieur intégration
    Inscrit en
    Décembre 2012
    Messages
    4 354
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur intégration
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Décembre 2012
    Messages : 4 354
    Par défaut
    Je ne sais pas ce que fait la globalité de ton script awk, mais voici un petit trick qui peut s'interfacer selon le besoin...
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    $ gawk "{\"LC_CTYPE=C awk '/[[:lower:]]/' <<<\"\$0 | getline result}result" <<<"é"
    $ gawk "{\"LC_CTYPE=fr_FR.UTF-8 awk '/[[:lower:]]/' <<<\"\$0 | getline result}result" <<<"é"
    é
    Ici, je suis obligé de protéger les guillemets et le $ car je suis en ligne de commande, dans un script awk, ce n'est pas la peine.

  5. #5
    Membre éprouvé
    Homme Profil pro
    Analyste d'exploitation
    Inscrit en
    Décembre 2013
    Messages
    70
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : Analyste d'exploitation

    Informations forums :
    Inscription : Décembre 2013
    Messages : 70
    Par défaut
    Merci pour le petit trick !

    Et à propos de trick, en aurais tu un pour que je n'ai pas besoin de passer les fichiers en arguments au script awk ?

    Quand j'ai 2-3 fichiers, ça va, je fais comme ça :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    #!/usr/bin/gawk -f
    BEGIN {
        ARGV[1]="/chemin/fichier1"
        ARGV[2]="/chemin/fichier2"
        ARGC=3
    }
    Ça me permet d'appeler le script en faisant simplement ./script.awk, pas besoin de faire ./script.awk "/chemin/fichier1" "/chemin/fichier2"

    Mais si par exemple je veux traiter tous les fichiers *.txt d'un répertoire, on peut éviter ./script.awk "/chemin/"*.txt ?

  6. #6
    Expert confirmé Avatar de disedorgue
    Homme Profil pro
    Ingénieur intégration
    Inscrit en
    Décembre 2012
    Messages
    4 354
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur intégration
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Décembre 2012
    Messages : 4 354
    Par défaut
    un truc comme ça ?
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    $ gawk 'BEGIN{"echo *.txt" | getline result ; split(result,ARGV) ; ARGC=length(ARGV)+1}'

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Creer un reseau local via l adsl
    Par loki dans le forum Développement
    Réponses: 11
    Dernier message: 12/08/2002, 00h14
  2. Redimensionnement des Paquets IP sur un Réseau Local
    Par Bonoboo dans le forum Développement
    Réponses: 2
    Dernier message: 12/07/2002, 15h40
  3. variables locales ou globales ???
    Par elvivo dans le forum C
    Réponses: 13
    Dernier message: 03/07/2002, 08h22
  4. Peux t'on créer une copie locale de l'objet partagé?
    Par Anonymous dans le forum CORBA
    Réponses: 8
    Dernier message: 16/04/2002, 16h20

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo