IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

SGBD Perl Discussion :

Encodage fichier csv dans base Mysql via script perl


Sujet :

SGBD Perl

  1. #1
    Nouveau membre du Club
    Profil pro
    Bioinformaticienne
    Inscrit en
    Novembre 2009
    Messages
    49
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Industrie Pharmaceutique

    Informations forums :
    Inscription : Novembre 2009
    Messages : 49
    Points : 35
    Points
    35
    Par défaut Encodage fichier csv dans base Mysql via script perl
    Bonjour à tous!

    Je rencontre des problèmes avec les caractères spéciaux (accents, apostrophe etc) lors de l'insertion en base et donc de l'affichage. En effet ça me retourne des �. J'en déduis donc que c'est un problème d'encodage avec mes données.

    Pour résumer ma situation : je remplis une base de données Mysql avec un fichier csv par un script perl. Ensuite j'interroge la base avec des scripts PHP.
    Après avoir lu plusieurs forums, j'ai vu qu'étant donné mes données, je devais utiliser l'encadage en UTF8. Voici les opérations que j'ai réalisées :
    1. Au niveau du fichier csv
      Sous Excel, lorsque j'ai fait 'Enregistrer sous', je suis allée dans les options internet et j'ai forcé l'encodage en UTF-8.
      Pour être sûre que le fichier était bien en utf8, j'ai aussi fait cette commande Unix :
      iconv -f ISO8859-1 -t UTF-8 10-05-19-data.csv > 10-05-19-data_utf8.csv
    2. Au niveau de la base Mysql
      Lorsque je créé ma base de données, j'utilise ce code :
      CREATE DATABASE `CI_DATABASE` DEFAULT CHARACTER SET utf8 COLLATE utf8_unicode_ci;
    3. Au niveau du script perl
      my $dbh = DBI->connect($dsn, '$user', '$pwd');
      $dbh->{'mysql_enable_utf8'}=1;
      $dbh->do('SET NAMES UTF8');
      Pour insérer mes données en base, je leur applique la méthode quotemeta puis effectue ce genre de requete :
      $insertQuery = $dbh->do("INSERT INTO CI_DATABASE.Company(name,last_update,last_user,status,frequency,products) VALUES(\"$company\",\"$date\",\"$user\",\"$status\",\"$frequency\",\"$products\")");
    4. Au niveau des scripts PHP
      header('Content-type:text/html;charset=utf-8');
      Et juste après la connexion à ma base de données :
      mysql_query("SET NAMES 'utf8'");


    Résultats de tout ça :
    • Dans mon fichier de données, les accents sont pris en compte mais pas les apostrophes (touche 4).
    • Dans la base Mysql, les accents et les caractères spéciaux ne sont pas pris en compte et s'affichent comme tel : �.
    • Par conséquent, dans mon interphace en PHP, les accents et caractères spéciaux ne sont pas bien affichés et encore mieux ils sont carrément effacés!


    Je pense que le problème se trouve dans mon script perl permettant l'insertion en base mais je ne vois pas comment faire Si quelqu'un pouvait solutionner mon problème, j'en serai fort contente!

    Merci d'avance!

  2. #2
    Membre émérite
    Profil pro
    Inscrit en
    Octobre 2008
    Messages
    1 874
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Octobre 2008
    Messages : 1 874
    Points : 2 890
    Points
    2 890
    Par défaut
    Pour être sûre que le fichier était bien en utf8, j'ai aussi fait cette commande Unix :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    iconv -f ISO8859-1 -t UTF-8 10-05-19-data.csv > 10-05-19-data_utf8.csv
    C'est problématique parce que si fichier source est déjà en UTF-8, cette commande va corrompre les accents. Par exemple pour un caractère é, il va le transformer en à suivi de ©
    En fait il ne faut faire cette manip que si tu es certaine que la source est bien en iso8859-1.

  3. #3
    Nouveau membre du Club
    Profil pro
    Bioinformaticienne
    Inscrit en
    Novembre 2009
    Messages
    49
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Industrie Pharmaceutique

    Informations forums :
    Inscription : Novembre 2009
    Messages : 49
    Points : 35
    Points
    35
    Par défaut
    Dans mon fichier de départ, nommé 10-05-19-data.csv, lorsque je fais un "more" de mon fichier les accents sont sous cette forme : �.
    Alors que dans mon fichier construit à partir de la fonction iconv, nommé 10-05-19-data_utf8.csv, les accents apparaissent comme il faut.

    Toutefois, j'ai essayé d'insérer mes données en base avec les 2 fichiers :
    • Avec le fichier 10-05-19-data.csv
      Dès qu'un caractère spécial est rencontré (notamment les accents), la chaine de caractère est tronquée.
    • Avec le fichier 10-05-19-data_utf8.csv
      La chaine de caractère n'est pas tronquée... seuls les caractères spéciaux sont effacés!


    Quel que soit le fichier que j'utilise, les accents ne sont pas pris en compte... Je pense donc que ça ne vient pas de là.
    Etant donné les résultats que j'obtiens, les "moins pire" étant obtenus avec le fichier 10-05-19-data_utf8.csv, je vais considérer que celui ci est bel et bien en utf8.

    Une autre idée peut être?

  4. #4
    Membre émérite
    Profil pro
    Inscrit en
    Octobre 2008
    Messages
    1 874
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Octobre 2008
    Messages : 1 874
    Points : 2 890
    Points
    2 890
    Par défaut
    Citation Envoyé par MissElo Voir le message
    Dans mon fichier de départ, nommé 10-05-19-data.csv, lorsque je fais un "more" de mon fichier les accents sont sous cette forme : �.
    Alors que dans mon fichier construit à partir de la fonction iconv, nommé 10-05-19-data_utf8.csv, les accents apparaissent comme il faut.
    A mon avis il y a plusieurs sous-problèmes différents dans ton problème.

    Pour le fichier CSV, vu le comportement de more, le fichier 10-05-19-data.csv est probablement au format windows-1252. (mais le comportement de more dépend de la locale de l'environnement unix et pas que du fichier lui-même).
    Ca veut dire que la manip sous Excel pour enregistrer en UTF-8 ne fonctionne pas.
    Ce n'est pas grave puisque iconv peut s'en charger. Au passage il serait préférable de spécifier à iconv windows-1252 comme encodage source au lieu de ISO-8859-1.
    Cet encodage est assez voisin mais il diffère par des subtilités comme justement les apostrophes et guillemets "typographiques" qui sont utilisés par Word/Excel mais qui n'existent pas en ISO-8859-1.
    La page wikipedia sur windows-1252 montre bien ces différences.

    Ceci étant, ça ne va pas régler la question des accents. Au niveau du programme en Perl ce que tu décris est bien ce qu'il faut faire, à part pour quotemeta().
    La méthode classique avec DBI pour les INSERT serait plutôt:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
     
    my $sth = $dbh->prepare("INSERT INTO table(a,b,c) VALUES(?,?,?)");
    $sth->execute($param1, $param2, $param3);
    les paramètres étant directement les valeurs en utf8, sans aucun pré-traitement particulier.

    Pour te former au codage Perl hésite pas à voir ces cours et tutoriels pour apprendre Perl : http://perl.developpez.com/cours/

  5. #5
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    Pour avoir l'habitude de faire des applications web perl cgi php etc, je procède différemment afin de ne jamais être embêté par les problèmes d'accents. Avant toute insertion dans mes bases de données via perl ou php, je converti les accents et caractères <, <, & et ' en code HTML. En php ou en perl, il est possible d'utiliser HTMLEntities, ensuite, il peut subsister quelques cas particulier de conversion à gérer.

  6. #6
    Nouveau membre du Club
    Profil pro
    Bioinformaticienne
    Inscrit en
    Novembre 2009
    Messages
    49
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Industrie Pharmaceutique

    Informations forums :
    Inscription : Novembre 2009
    Messages : 49
    Points : 35
    Points
    35
    Par défaut
    Merci à tous pour vos réponses si rapide!

    @estofilo : je teste la conversion avec le format windows-1252 comme encodage source et je te tiens au courant.
    Quant à l'insertion en base, j'avais en effet déjà vu cette manière d'insérer en base mais pensais que ma méthode était équivalente...
    Je teste et te dis quoi.

    @djibril : pas bête du tout ta méthode! Je vais tester mais je ne suis pas sûre que de convertir tous mes caractères spéciaux en code HTML aillent avec toute mon interface. En effet, à un moment donné, je créé un fichier PDF avec les données issues de la base. Du coup, les caractères en html ne vont pas être convertis non? A moins qu'il existe une fonction inverse pour htmlentities et dans ce cas, je l'utilisera dans le cas particulier de mon PDF

    Avec vos solutions combinées, je pense y arriver! Je teste tout ça et je vous tiens au courant!

  7. #7
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    Le but principal est de faire de l'affichage web par la suite. Tu auras déjà les caractères spéciaux au format HTML ce qui est propre. Néanmoins, si tu désires générer un fichier PDF, excel ou autres avec les données de ta base, il te suffit de faire la conversion inverse.

  8. #8
    Nouveau membre du Club
    Profil pro
    Bioinformaticienne
    Inscrit en
    Novembre 2009
    Messages
    49
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Industrie Pharmaceutique

    Informations forums :
    Inscription : Novembre 2009
    Messages : 49
    Points : 35
    Points
    35
    Par défaut
    @estofilo : j'ai remplacé toutes mes requêtes d'insert avec ta syntaxe!
    Puis je l'appliquer aussi sur les reuêtes UPDATE?
    J'ai converti mon fichier CSV grâce à la commande
    iconv -f windows-1252 -t UTF-8 10-05-19-data.csv > 10-05-19-data_utf8.csv
    Et là au grand miracle mes accents passent nickel en base sans même utiliser html_entities!!!

    @djibril : j'essaie d'utiliser la méthode encore_entities de Perl suite à ton conseil pour encoder les caractères spéciaux. Or cette fonction ne me convertit pas bien les caractères suivants :
    ™ : ça me les remplace par &acirc;„&cent; au lieu de &trade;
    ® : ça me les remplace par &Acirc;&reg; au lieu de &reg;
    Serait parce que mes données proviennent d'un format windows?
    As tu déjà rencontré ce problème?

  9. #9
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    Citation Envoyé par MissElo Voir le message
    @djibril : j'essaie d'utiliser la méthode encore_entities de Perl suite à ton conseil pour encoder les caractères spéciaux. Or cette fonction ne me convertit pas bien les caractères suivants :
    ™ : ça me les remplace par &acirc;„&cent; au lieu de &trade;
    ® : ça me les remplace par &Acirc;&reg; au lieu de &reg;
    Pour ces cas particuliers, tu peux faire une expression régulière.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    $texte = encode_entities($texte);
    $texte =~ s{&Acirc;&reg;}{&reg;}gi;
    $texte =~ s{&acirc;&cent;}{&trade;}gi;

  10. #10
    Nouveau membre du Club
    Profil pro
    Bioinformaticienne
    Inscrit en
    Novembre 2009
    Messages
    49
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Industrie Pharmaceutique

    Informations forums :
    Inscription : Novembre 2009
    Messages : 49
    Points : 35
    Points
    35
    Par défaut
    Djibril le roi de la débrouille! Merci
    Oui oui je pensais faire ça si je n'avais pas d'explication du mauvais fonctionnement (ou mauvaise utilisation) de la méthode encore_entities de perl. J'ai vu qu'en php, pour la fonction htmlentities, on peut spécifier l'encodage de la chaine de départ : ne pourrait on pas le faire pour la fonction perl?

  11. #11
    Membre émérite
    Profil pro
    Inscrit en
    Octobre 2008
    Messages
    1 874
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Octobre 2008
    Messages : 1 874
    Points : 2 890
    Points
    2 890
    Par défaut
    Citation Envoyé par MissElo Voir le message
    @estofilo : j'ai remplacé toutes mes requêtes d'insert avec ta syntaxe!
    Puis je l'appliquer aussi sur les reuêtes UPDATE?
    Oui tout à fait.

    @djibril : j'essaie d'utiliser la méthode encore_entities de Perl suite à ton conseil pour encoder les caractères spéciaux. Or cette fonction ne me convertit pas bien les caractères suivants :
    ™ : ça me les remplace par &acirc;„&cent; au lieu de &trade;
    Pourtant en soi cette fonction n'a pas de problème avec cet élément html. Chez moi, cette ligne:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
      print encode_entities("\x{2122}");
    sort bien &trad; à l'écran (2122 étant le code Unicode du caractère ™)

    Peut-être que dans ton programme la chaîne qui est passée à encode_entities n'a pas été convertie correctement dans le format interne de Perl?

  12. #12
    Membre émérite
    Profil pro
    Inscrit en
    Octobre 2008
    Messages
    1 874
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Octobre 2008
    Messages : 1 874
    Points : 2 890
    Points
    2 890
    Par défaut
    Citation Envoyé par MissElo Voir le message
    J'ai vu qu'en php, pour la fonction htmlentities, on peut spécifier l'encodage de la chaine de départ : ne pourrait on pas le faire pour la fonction perl?
    Il me semble qu'en Perl ça se ferait plutôt en deux temps. Premier temps: la fonction Encode::decode() va transformer la chaîne en format interne de Perl. Deuxième temps: encode_entities() va la transformer en entités HTML.

  13. #13
    Nouveau membre du Club
    Profil pro
    Bioinformaticienne
    Inscrit en
    Novembre 2009
    Messages
    49
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Industrie Pharmaceutique

    Informations forums :
    Inscription : Novembre 2009
    Messages : 49
    Points : 35
    Points
    35
    Par défaut
    j'ai essayé de comprendre pourquoi la fonction encode_entities ne me retournait pas les bons caractères en essayant la fonction decode
    $new_string=encode_entities(decode("windows-1252", $string));
    mais ça n'a pas fonctionné!

    Pour l'instant je reste donc sur le code de débrouille comme Djibril m'avait conseillé

    Je ne mets donc pas de post résolu car je serai intéressé si quelqu'un trouve la réponse

  14. #14
    Membre émérite
    Profil pro
    Inscrit en
    Octobre 2008
    Messages
    1 874
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Octobre 2008
    Messages : 1 874
    Points : 2 890
    Points
    2 890
    Par défaut
    Citation Envoyé par MissElo Voir le message
    j'ai essayé de comprendre pourquoi la fonction encode_entities ne me retournait pas les bons caractères en essayant la fonction decode
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    $new_string=encode_entities(decode("windows-1252", $string));
    mais ça n'a pas fonctionné!
    Mais si le fichier d'entrée avait déjà été converti avec iconv (évoqué plus haut dans la discussion) de windows-1252 vers utf8, alors le programme Perl a en entrée de l'utf8 et pas du windows-1252.

  15. #15
    Nouveau membre du Club
    Profil pro
    Bioinformaticienne
    Inscrit en
    Novembre 2009
    Messages
    49
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Industrie Pharmaceutique

    Informations forums :
    Inscription : Novembre 2009
    Messages : 49
    Points : 35
    Points
    35
    Par défaut
    Me revoici après un moment d'absence!
    Pour rappel, mes données viennent d'un fichier csv que j'ai converti en utf8. Ma base mysql est en utf8. Mon script d'insertion des données en base est écrit en Perl et utilise la fonction encode_entities().

    Je viens de m'apercevoir que mon script perl malgré tous vos conseils ne traduit pas comme je le souhaiterai les caractères spéciaux....

    En effet, voici la liste des erreurs trouvées :
    • les apostrophes :

    il les remplace par &acirc;&euro;&trade; équivalent visuellement à ’
    • les ~

    il les remplace par &acirc;‚&not; équivalent visuellement à €

    Et il y a encore pas mal de caractères incompréhensibles qui trainent mais je ne sais pas ce que c'était au départ....

    Mes questions sont donc les suivantes :
    • comment corriger les erreurs déjà présentes en base? (c'est actuellement en PROD ...)
    • comment enregistrer mes données en base d'une page html par un script PHP?


    Je ne sais pas si j'ai été très claire car moi même je suis un peu perdue!

    Je vous remercie déjà de votre aide si précieuse!

    A très vite

  16. #16
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    Quand tu enregistres des données en php depuis une page web, utilise la fonction htmlentities pour convertir tous les accents et autres caractères en code HTML. Ensuite pour la lecture de la base, avec php ou perl, tu fais la conversion inverse en gérant des exceptions de caractères peut être mal convertit.

  17. #17
    Nouveau membre du Club
    Profil pro
    Bioinformaticienne
    Inscrit en
    Novembre 2009
    Messages
    49
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Industrie Pharmaceutique

    Informations forums :
    Inscription : Novembre 2009
    Messages : 49
    Points : 35
    Points
    35
    Par défaut
    Quelle réactivité! Merci

    Oui j'utilisais htmlentities en php mais je viens juste de me rendre compte qu'il faut préciser quel charset on souhaite utiliser car c'est iso par défaut (or je veux utf8!!!). J'ai donc déjà trouvé une première erreur.

    Ensuite Djibril, tu dis faire le chemin inverse pour la lecture de la base : existe t il une fonction inverse de htmlentities? En cherchant un peu, je n'en ai pas trouvé hormis quelques scripts faits maison.

    Sais tu comment je peux remplacer dans ma base les erreurs qui s'y sont glissées?

  18. #18
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    en php : html_entity_decode
    en perl : module HTML::Entities - méthode decode_entities

  19. #19
    Nouveau membre du Club
    Profil pro
    Bioinformaticienne
    Inscrit en
    Novembre 2009
    Messages
    49
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Industrie Pharmaceutique

    Informations forums :
    Inscription : Novembre 2009
    Messages : 49
    Points : 35
    Points
    35
    Par défaut
    Super tout fonctionne!

    Pour bien résumer voici ce que j'ai utilisé en PHP (un peu hors sujet par rapport au sujet du post je l'accorde mais ça peut quand même servir à quelqu'un non?!):



    En tout cas, merci Djibril pour ton aide!

    J'hésite à noter le post en résolu car il y a tout de même une question en perl qui n'a pas été résolue : pourquoi mes accents n'ont pas été traduits comme il le fallait?

  20. #20
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    Citation Envoyé par MissElo Voir le message
    J'hésite à noter le post en résolu car il y a tout de même une question en perl qui n'a pas été résolue : pourquoi mes accents n'ont pas été traduits comme il le fallait?
    Quels accents ?

+ Répondre à la discussion
Cette discussion est résolue.
Page 1 sur 2 12 DernièreDernière

Discussions similaires

  1. [MySQL-5.5] Importer contenu de fichier csv dans base de données MySQL
    Par sydko dans le forum Administration
    Réponses: 2
    Dernier message: 16/10/2013, 14h13
  2. Importation fichiers TXT dans base MYSQL
    Par moimoi78 dans le forum Administration
    Réponses: 2
    Dernier message: 02/05/2011, 23h11
  3. Repertoire (fichier ".csv") dans base Access ".mdb"
    Par Tone31 dans le forum VB.NET
    Réponses: 7
    Dernier message: 02/02/2011, 15h04
  4. Réponses: 1
    Dernier message: 25/01/2010, 23h06
  5. Inserer données fichier excel dans base Mysql
    Par sternan dans le forum Documents
    Réponses: 7
    Dernier message: 12/08/2009, 16h28

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo