Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

  1. #1
    Nouveau Candidat au Club
    Homme Profil pro
    MAKER
    Inscrit en
    décembre 2018
    Messages
    1
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : France, Vaucluse (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : MAKER
    Secteur : Arts - Culture

    Informations forums :
    Inscription : décembre 2018
    Messages : 1
    Points : 1
    Points
    1

    Par défaut Chercher une chaîne dans un gros fichier texte ou charger un énorme fichier texte

    Bonjour à tous

    J'ai calculé les 500 millions de décimales de pi et je cherche une chaine de caractère dedans !
    Seulement voilà
    Comment charger un fichier texte de 500 Mo dans une matrice ou une variable et chercher cherche le ligne de caractère en question sans que ça plante ?

    Est ce qu'il vaut mieux lire dans le fichier texte pour chercher cette chaine sans charger le fichier, et dans ce cas comment faire ?

    Merci !
    Pierre

  2. #2
    Membre actif

    Homme Profil pro
    Étudiant
    Inscrit en
    juin 2014
    Messages
    58
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Marne (Champagne Ardenne)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : juin 2014
    Messages : 58
    Points : 245
    Points
    245

    Par défaut

    Bonjour !

    Je pense qu'effectivement il serait préférable de lire directement dans le fichier.

    Pour cela, vous aurez sûrement besoin de ces fonctions :

    • mopen
    • mseek
    • mtell
    • mget
    • mfscanf
    • ...
    • mclose


    La documentation de Scilab est assez bien faite, vous devriez trouver toutes les infos concernant ces fonctions dedans .

  3. #3
    Rédacteur/Modérateur

    Avatar de Jerome Briot
    Homme Profil pro
    Ingénieur R&D freelance
    Inscrit en
    novembre 2006
    Messages
    19 744
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Ingénieur R&D freelance

    Informations forums :
    Inscription : novembre 2006
    Messages : 19 744
    Points : 53 401
    Points
    53 401

    Par défaut

    Le choix de l'une ou l'autre des méthodes est fonction de la puissance de la machine et de la quantité de mémoire RAM disponible.

    Prenons l'exemple d'un fichier test.txt qui contient :
    apizeaumontrtyuiop^poipieruytrdesqpierrewsdfghjkl:;,nbvcxcvbn,;pierre.aumontazertyuiqwdAQ<ertyhuhgfwsdfdsazerth
    Recherche de la chaine de caractères directement dans le fichier :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    clear
     
    string_to_find = "pierre.aumont"
    num_char = 1
     
    fd = mopen('test.txt','rb')
     
    while ~meof(fd) do
     
        M = mgetstr(1, fd)
     
        if M == part(string_to_find,num_char) then
     
            if num_char == length(string_to_find) then
                idx_string_to_find = mtell(fd) - length(string_to_find) + 1
                break
            else
                num_char = num_char + 1
            end
     
        else
            num_char = 1
        end
     
    end
     
    mclose(fd)
     
    if num_char == length(string_to_find) then
        str = "apizeaumontrtyuiop^poipieruytrdesqpierrewsdfghjkl:;,nbvcxcvbn,;pierre.aumontazertyuiqwdAQ<ertyhuhgfwsdfdsazerth"
        disp(part(str, idx_string_to_find:idx_string_to_find+length(string_to_find)-1))
    else
        disp("String not found")
    end
    Chargement du fichier en mémoire avant recherche de la chaine de caractères :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    clear
     
    string_to_find = "pierre.aumont"
     
    x = fileinfo('test.txt')
     
    fd = mopen('test.txt','rb')
     
    M = mgetstr(x(1), fd)
     
    mclose(fd)
     
    idx_string_to_find = strindex(M, string_to_find)
     
    if isempty(idx_string_to_find) then
        disp("String not found")
    else
        str = "apizeaumontrtyuiop^poipieruytrdesqpierrewsdfghjkl:;,nbvcxcvbn,;pierre.aumontazertyuiqwdAQ<ertyhuhgfwsdfdsazerth"
        disp(part(str, idx_string_to_find:idx_string_to_find+length(string_to_find)-1))
    end
    La première méthode est relativement naïve. On peut l'optimiser en lisant plusieurs caractères à la fois, plutôt que caractère par caractère.
    Il faut juste gérer le cas où la chaine recherchée est commune à plusieurs blocs lus.

    Je pense que mgetstr est équivalent à mgeti en terme de mémoire consommée. Mais je ne peux pas le prouver car la fonction whos ne me renvoi pas la taille des variables sur ma machine

    Sinon, on peut remplacer les codes comme ceci :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    clear
     
    string_to_find = "pierre.aumont"
    string_to_find_ascii = ascii(string_to_find)
    num_char = 1
     
    fd = mopen('test.txt','rb')
     
    while ~meof(fd) do
     
        M = mgeti(1, "c", fd)
     
        if M == string_to_find_ascii(num_char) then
     
            if num_char == length(string_to_find) then
                idx_string_to_find = mtell(fd) - length(string_to_find) + 1
                break
            else
                num_char = num_char + 1
            end
     
        else
            num_char = 1
        end
     
    end
     
    mclose(fd)
     
    if num_char == length(string_to_find) then
        str = "apizeaumontrtyuiop^poipieruytrdesqpierrewsdfghjkl:;,nbvcxcvbn,;pierre.aumontazertyuiqwdAQ<ertyhuhgfwsdfdsazerth"
        disp(part(str, idx_string_to_find:idx_string_to_find+length(string_to_find)-1))
    else
        disp("String not found")
    end
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    clear
     
    string_to_find = "pierre.aumont"
     
    x = fileinfo('test.txt')
     
    fd = mopen('test.txt','rb')
     
    M = mgeti(x(1), "c", fd)
     
    mclose(fd)
     
    idx_string_to_find = strindex(char(M), string_to_find)
     
    if isempty(idx_string_to_find) then
        disp("String not found")
    else
        str = "apizeaumontrtyuiop^poipieruytrdesqpierrewsdfghjkl:;,nbvcxcvbn,;pierre.aumontazertyuiqwdAQ<ertyhuhgfwsdfdsazerth"
        disp(part(str, idx_string_to_find:idx_string_to_find+length(string_to_find)-1))
    end
    Mes compétences :
    • conception mécanique 3D (Autodesk Fusion 360)
    • développement informatique (MATLAB, Python, C, VBA)
    • impression 3D (Ultimaker)
    • programmation de microcontrôleur (Microchip PIC et Arduino)

    « J'étais le meilleur ami que le vieux Jim avait au monde. Il fallait choisir. J'ai réfléchi un moment, puis je me suis dit : "Tant pis ! J'irai en enfer" » (Saint Huck)

  4. #4
    Membre actif

    Homme Profil pro
    Étudiant
    Inscrit en
    juin 2014
    Messages
    58
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Marne (Champagne Ardenne)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : juin 2014
    Messages : 58
    Points : 245
    Points
    245

    Par défaut

    Je ne comprends pas la ligne n°30 du premier code (et son équivalent dans les autres méthodes) :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    str = "apizeaumontrtyuiop^poipieruytrdesqpierrewsdfghjkl:;,nbvcxcvbn,;pierre.aumontazertyuiqwdAQ<ertyhuhgfwsdfdsazerth"
    Si cette chaîne est le contenu du fichier texte, pourquoi l'avoir en dur dans le code ?

  5. #5
    Rédacteur/Modérateur

    Avatar de Jerome Briot
    Homme Profil pro
    Ingénieur R&D freelance
    Inscrit en
    novembre 2006
    Messages
    19 744
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Ingénieur R&D freelance

    Informations forums :
    Inscription : novembre 2006
    Messages : 19 744
    Points : 53 401
    Points
    53 401

    Par défaut

    Citation Envoyé par Cosinus(x) Voir le message
    Si cette chaîne est le contenu du fichier texte, pourquoi l'avoir en dur dans le code ?
    Le bloc à la fin du code ne sert à rien, si ce n'est juste à montrer que l'exemple du code fonctionne. Rien de plus.

    Dans un code plus fonctionnel, il faudrait créer une fonction qui renvoi par exemple le résultat de :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    num_char == length(string_to_find)
    Mes compétences :
    • conception mécanique 3D (Autodesk Fusion 360)
    • développement informatique (MATLAB, Python, C, VBA)
    • impression 3D (Ultimaker)
    • programmation de microcontrôleur (Microchip PIC et Arduino)

    « J'étais le meilleur ami que le vieux Jim avait au monde. Il fallait choisir. J'ai réfléchi un moment, puis je me suis dit : "Tant pis ! J'irai en enfer" » (Saint Huck)

Discussions similaires

  1. [TPW] Vérifier l'existence d'une chaîne dans un fichier texte
    Par far3as dans le forum Turbo Pascal
    Réponses: 2
    Dernier message: 17/12/2010, 13h33
  2. Réponses: 4
    Dernier message: 05/12/2010, 01h26
  3. Réponses: 2
    Dernier message: 29/12/2009, 12h57
  4. Comment chercher une valeur dans un fichier text?
    Par lili81 dans le forum C++Builder
    Réponses: 3
    Dernier message: 16/06/2008, 17h18
  5. chercher une chaîne dans un Tableau
    Par turbo_chess dans le forum C
    Réponses: 4
    Dernier message: 29/03/2007, 13h36

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo