IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Extraire les données d'un fichier


Sujet :

Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre confirmé
    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    57
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2007
    Messages : 57
    Par défaut Extraire les données d'un fichier
    Bonjour,

    Je souhaite analyser un fichier texte téléchargé et extraire les infos pour les insérer dans une bdd.

    Pour le moment, je sais lire le fichier télécharger avec handle_uploaded_file et readline ou readlines

    Mais je rame pour extraire les infos.

    Le fichier en question se présente que ceci (en gros)

    DEVIS NS.456 /SOCIETE/46/789 EN 18/02/2022
    POUR ENTREPRISE 2

    A

    ...

    A

    Je souhaite analyser ligne par ligne et extraire, j'ai essayé les regex, split, pas trop de réussite ...

    De "DEVIS NS.456 /SOCIETE/46/789 EN 18/02/2022", il faut extraire DEVIS, 456, SOCIETE, 46/789 et la date

    De la seconde ligne, il faut extraire ENTREPRISE

    Des autres lignes, il faut extraire le bloc entre "A"

    Cdt

  2. #2
    Modérateur

    Avatar de Bktero
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Juin 2009
    Messages
    4 493
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 37
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels

    Informations forums :
    Inscription : Juin 2009
    Messages : 4 493
    Billets dans le blog
    1
    Par défaut
    Le module parse est assez simple à prendre en main et plutôt efficace pour ce genre d'opérations :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    >>> import parse
    >>> parse.parse("{} NS.{} /{}/{} EN {}", "DEVIS NS.456 /SOCIETE/46/789 EN 18/02/2022")
    <Result ('DEVIS', '456', 'SOCIETE', '46/789', '18/02/2022') {}>

  3. #3
    Membre Expert
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Février 2003
    Messages
    1 603
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : Industrie

    Informations forums :
    Inscription : Février 2003
    Messages : 1 603
    Par défaut
    Bonjour,

    montrez le code que vous avez déjà testé svp.

    Les expressions régulières peuvent facilement se tester/peaufiner/construire via le site web https://regex101.com/.

  4. #4
    Membre confirmé
    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    57
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2007
    Messages : 57
    Par défaut
    Bonjour,

    Merci pour vos réponses.

    J'ai utilisé le module parse qui fonctionne super bien pour ce que je souhaite faire.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
     
    with file as fichier:
        ligne=fichier.readlines()
        ligne0 = parse.parse("{} NS.{} /{}/{} EN {}", ligne[0])
        ligne1 = parse.parse("POUR {}", ligne[1]
        ligne_grp = ligne[len('A\n\r'):-len('A')] # Permet de récupérer le contenu entre les balises 'A'
    Cependant, il arrive que la ligne "POUR ...", se trouve à la 3ème ou 4ème ligne ou plus, donc comment faire pour récupérer le contenu alors que sont emplacement est variable ? Avec une regex pour le coup, un peu dans ce style:

    Merci

    Pour récupéré le contenu

  5. #5
    Modérateur

    Avatar de Bktero
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Juin 2009
    Messages
    4 493
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 37
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels

    Informations forums :
    Inscription : Juin 2009
    Messages : 4 493
    Billets dans le blog
    1
    Par défaut
    se trouve à la 3ème ou 4ème ligne ou plus
    Il y a quoi dans les lignes 2, 3 ou plus, dans un tel cas ?

    Il faut bien avoir conscience que si les formats des fichiers sont nombreux, variés et non prédictibles, écrire un soft robuste pour les livres peut devenir une tâche ardue.

    On peut ruser avec parse :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    import parse
     
    content = """DEVIS NS.456 /SOCIETE/46/789 EN 18/02/2022
     
    POUR ENTREPRISE 2
     
    A
     
    ...bla
     
    blabla...
     
    A
    """
     
    print(parse.parse("{} NS.{} /{}/{} EN {}\n{}", content))
    print(parse.parse("{}\nPOUR {}\n{}", content))
    print(parse.parse("{}\nA\n{}A\n", content))
    On peut condenser ça en une ligne, et utiliser la capacité de parse à nommer certains champs trouvés. Cela permet de facilement ignorer les champs permettant de parser mais qui ne contiennent pas de données utiles :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    r = parse.parse("{devis} NS.{ns} /{societe}/{code} EN {date}\n{}POUR {pour}\n{}A\n{aa}A\n", content)
     
    print('Named results = ', r.named)
    print('Entre AA = ', r.named['aa'])
    print('POUR = ', r.named['pour'])
    Ca affiche :

    Named results = {'devis': 'DEVIS', 'ns': '456', 'societe': 'SOCIETE', 'code': '46/789', 'date': '18/02/2022', 'pour': 'ENTREPRISE 2', 'aa': '\n...bla\n\nblabla...\n\n'}
    Entre AA =
    ...bla

    blabla...


    POUR = ENTREPRISE 2

  6. #6
    Membre confirmé
    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    57
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2007
    Messages : 57
    Par défaut
    Citation Envoyé par Bktero Voir le message
    Il y a quoi dans les lignes 2, 3 ou plus, dans un tel cas ?
    Dans un tel cas, il y a du texte. Pas de champ vide.

    Je teste cela demain

    Merci

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. extraire les données d'un fichier texte
    Par klue_ dans le forum VBScript
    Réponses: 7
    Dernier message: 23/11/2008, 13h59
  2. extraire les données d'un fichier text vers une table access
    Par djatto dans le forum VB 6 et antérieur
    Réponses: 2
    Dernier message: 17/09/2008, 17h51
  3. Extraire les données d'un fichier LOG
    Par sql92 dans le forum JDBC
    Réponses: 1
    Dernier message: 10/03/2008, 10h22
  4. Extraire les données d'un fichier ppm.
    Par AdrienMatlab dans le forum C++
    Réponses: 3
    Dernier message: 09/03/2008, 18h16
  5. Pour extraire les données d'un fichier texte
    Par Floch dans le forum Access
    Réponses: 2
    Dernier message: 02/05/2006, 15h01

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo