IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Scilab Discussion :

Chercher une chaîne dans un gros fichier texte ou charger un énorme fichier texte


Sujet :

Scilab

  1. #1
    Nouveau Candidat au Club
    Homme Profil pro
    MAKER
    Inscrit en
    Décembre 2018
    Messages
    1
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 50
    Localisation : France, Vaucluse (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : MAKER
    Secteur : Arts - Culture

    Informations forums :
    Inscription : Décembre 2018
    Messages : 1
    Points : 1
    Points
    1
    Par défaut Chercher une chaîne dans un gros fichier texte ou charger un énorme fichier texte
    Bonjour à tous

    J'ai calculé les 500 millions de décimales de pi et je cherche une chaine de caractère dedans !
    Seulement voilà
    Comment charger un fichier texte de 500 Mo dans une matrice ou une variable et chercher cherche le ligne de caractère en question sans que ça plante ?

    Est ce qu'il vaut mieux lire dans le fichier texte pour chercher cette chaine sans charger le fichier, et dans ce cas comment faire ?

    Merci !
    Pierre

  2. #2
    Membre actif

    Homme Profil pro
    Étudiant
    Inscrit en
    Juin 2014
    Messages
    75
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Marne (Champagne Ardenne)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Juin 2014
    Messages : 75
    Points : 289
    Points
    289
    Par défaut
    Bonjour !

    Je pense qu'effectivement il serait préférable de lire directement dans le fichier.

    Pour cela, vous aurez sûrement besoin de ces fonctions :

    • mopen
    • mseek
    • mtell
    • mget
    • mfscanf
    • ...
    • mclose


    La documentation de Scilab est assez bien faite, vous devriez trouver toutes les infos concernant ces fonctions dedans .

  3. #3
    Rédacteur/Modérateur

    Avatar de Jerome Briot
    Homme Profil pro
    Freelance mécatronique - Conseil, conception et formation
    Inscrit en
    Novembre 2006
    Messages
    20 302
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Freelance mécatronique - Conseil, conception et formation

    Informations forums :
    Inscription : Novembre 2006
    Messages : 20 302
    Points : 53 165
    Points
    53 165
    Par défaut
    Le choix de l'une ou l'autre des méthodes est fonction de la puissance de la machine et de la quantité de mémoire RAM disponible.

    Prenons l'exemple d'un fichier test.txt qui contient :
    apizeaumontrtyuiop^poipieruytrdesqpierrewsdfghjkl:;,nbvcxcvbn,;pierre.aumontazertyuiqwdAQ<ertyhuhgfwsdfdsazerth
    Recherche de la chaine de caractères directement dans le fichier :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    clear
     
    string_to_find = "pierre.aumont"
    num_char = 1
     
    fd = mopen('test.txt','rb')
     
    while ~meof(fd) do
     
        M = mgetstr(1, fd)
     
        if M == part(string_to_find,num_char) then
     
            if num_char == length(string_to_find) then
                idx_string_to_find = mtell(fd) - length(string_to_find) + 1
                break
            else
                num_char = num_char + 1
            end
     
        else
            num_char = 1
        end
     
    end
     
    mclose(fd)
     
    if num_char == length(string_to_find) then
        str = "apizeaumontrtyuiop^poipieruytrdesqpierrewsdfghjkl:;,nbvcxcvbn,;pierre.aumontazertyuiqwdAQ<ertyhuhgfwsdfdsazerth"
        disp(part(str, idx_string_to_find:idx_string_to_find+length(string_to_find)-1))
    else
        disp("String not found")
    end
    Chargement du fichier en mémoire avant recherche de la chaine de caractères :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    clear
     
    string_to_find = "pierre.aumont"
     
    x = fileinfo('test.txt')
     
    fd = mopen('test.txt','rb')
     
    M = mgetstr(x(1), fd)
     
    mclose(fd)
     
    idx_string_to_find = strindex(M, string_to_find)
     
    if isempty(idx_string_to_find) then
        disp("String not found")
    else
        str = "apizeaumontrtyuiop^poipieruytrdesqpierrewsdfghjkl:;,nbvcxcvbn,;pierre.aumontazertyuiqwdAQ<ertyhuhgfwsdfdsazerth"
        disp(part(str, idx_string_to_find:idx_string_to_find+length(string_to_find)-1))
    end
    La première méthode est relativement naïve. On peut l'optimiser en lisant plusieurs caractères à la fois, plutôt que caractère par caractère.
    Il faut juste gérer le cas où la chaine recherchée est commune à plusieurs blocs lus.

    Je pense que mgetstr est équivalent à mgeti en terme de mémoire consommée. Mais je ne peux pas le prouver car la fonction whos ne me renvoi pas la taille des variables sur ma machine

    Sinon, on peut remplacer les codes comme ceci :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    clear
     
    string_to_find = "pierre.aumont"
    string_to_find_ascii = ascii(string_to_find)
    num_char = 1
     
    fd = mopen('test.txt','rb')
     
    while ~meof(fd) do
     
        M = mgeti(1, "c", fd)
     
        if M == string_to_find_ascii(num_char) then
     
            if num_char == length(string_to_find) then
                idx_string_to_find = mtell(fd) - length(string_to_find) + 1
                break
            else
                num_char = num_char + 1
            end
     
        else
            num_char = 1
        end
     
    end
     
    mclose(fd)
     
    if num_char == length(string_to_find) then
        str = "apizeaumontrtyuiop^poipieruytrdesqpierrewsdfghjkl:;,nbvcxcvbn,;pierre.aumontazertyuiqwdAQ<ertyhuhgfwsdfdsazerth"
        disp(part(str, idx_string_to_find:idx_string_to_find+length(string_to_find)-1))
    else
        disp("String not found")
    end
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    clear
     
    string_to_find = "pierre.aumont"
     
    x = fileinfo('test.txt')
     
    fd = mopen('test.txt','rb')
     
    M = mgeti(x(1), "c", fd)
     
    mclose(fd)
     
    idx_string_to_find = strindex(char(M), string_to_find)
     
    if isempty(idx_string_to_find) then
        disp("String not found")
    else
        str = "apizeaumontrtyuiop^poipieruytrdesqpierrewsdfghjkl:;,nbvcxcvbn,;pierre.aumontazertyuiqwdAQ<ertyhuhgfwsdfdsazerth"
        disp(part(str, idx_string_to_find:idx_string_to_find+length(string_to_find)-1))
    end
    Ingénieur indépendant en mécatronique - Conseil, conception et formation
    • Conception mécanique (Autodesk Fusion 360)
    • Impression 3D (Ultimaker)
    • Développement informatique (Python, MATLAB, C)
    • Programmation de microcontrôleur (Microchip PIC, ESP32, Raspberry Pi, Arduino…)

    « J'étais le meilleur ami que le vieux Jim avait au monde. Il fallait choisir. J'ai réfléchi un moment, puis je me suis dit : "Tant pis ! J'irai en enfer" » (Saint Huck)

  4. #4
    Membre actif

    Homme Profil pro
    Étudiant
    Inscrit en
    Juin 2014
    Messages
    75
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Marne (Champagne Ardenne)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Juin 2014
    Messages : 75
    Points : 289
    Points
    289
    Par défaut
    Je ne comprends pas la ligne n°30 du premier code (et son équivalent dans les autres méthodes) :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    str = "apizeaumontrtyuiop^poipieruytrdesqpierrewsdfghjkl:;,nbvcxcvbn,;pierre.aumontazertyuiqwdAQ<ertyhuhgfwsdfdsazerth"
    Si cette chaîne est le contenu du fichier texte, pourquoi l'avoir en dur dans le code ?

  5. #5
    Rédacteur/Modérateur

    Avatar de Jerome Briot
    Homme Profil pro
    Freelance mécatronique - Conseil, conception et formation
    Inscrit en
    Novembre 2006
    Messages
    20 302
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Freelance mécatronique - Conseil, conception et formation

    Informations forums :
    Inscription : Novembre 2006
    Messages : 20 302
    Points : 53 165
    Points
    53 165
    Par défaut
    Citation Envoyé par Cosinus(x) Voir le message
    Si cette chaîne est le contenu du fichier texte, pourquoi l'avoir en dur dans le code ?
    Le bloc à la fin du code ne sert à rien, si ce n'est juste à montrer que l'exemple du code fonctionne. Rien de plus.

    Dans un code plus fonctionnel, il faudrait créer une fonction qui renvoi par exemple le résultat de :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    num_char == length(string_to_find)
    Ingénieur indépendant en mécatronique - Conseil, conception et formation
    • Conception mécanique (Autodesk Fusion 360)
    • Impression 3D (Ultimaker)
    • Développement informatique (Python, MATLAB, C)
    • Programmation de microcontrôleur (Microchip PIC, ESP32, Raspberry Pi, Arduino…)

    « J'étais le meilleur ami que le vieux Jim avait au monde. Il fallait choisir. J'ai réfléchi un moment, puis je me suis dit : "Tant pis ! J'irai en enfer" » (Saint Huck)

Discussions similaires

  1. [TPW] Vérifier l'existence d'une chaîne dans un fichier texte
    Par far3as dans le forum Turbo Pascal
    Réponses: 2
    Dernier message: 17/12/2010, 12h33
  2. Modifier ou supprimer une chaîne dans un fichier texte
    Par Roud9 dans le forum Entrée/Sortie
    Réponses: 4
    Dernier message: 05/12/2010, 00h26
  3. Réponses: 2
    Dernier message: 29/12/2009, 11h57
  4. Comment chercher une valeur dans un fichier text?
    Par lili81 dans le forum C++Builder
    Réponses: 3
    Dernier message: 16/06/2008, 16h18
  5. chercher une chaîne dans un Tableau
    Par turbo_chess dans le forum C
    Réponses: 4
    Dernier message: 29/03/2007, 12h36

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo