Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Statistiques et Data Mining Discussion :

Statistiques dans une liste de fichiers


Sujet :

Statistiques et Data Mining

  1. #1
    Candidat au Club
    Statistiques dans une liste de fichiers
    Bonjour,

    J'aimerais trouver un algorithme, programmer ou trouver un utilitaire qui puisse m'aider à créer des statistiques à partir d'une liste de fichiers.

    Pour exemple, je peux disposer de plusieurs milliers de fichiers dans un dossier sous l'explorateur Windows - des noms de fichiers longs et précis: des listes bibliographiques. Je souhaiterais identifier les mots clés de cette liste et d'en dresser des statistiques ; au moins pour les plus redondants. Si possible, pour des raisons pratiques et selon la faisabilité bien sûr, exclure certains mots, à partir d'une liste d'exclusion à définir, ou plus simplement/généralement ignorer chiffres et mots inférieurs à x caractère.

    Je ne suis pas un programmeur et je n'ai pas vraiment d'expérience dans la résolution de ce genre de problème. Je connais quelques langages mais qui ne me seront probablement pas utiles pour ce projet (HTML/CSS/R/Markdown...).

    Mes questions peuvent être les suivantes: vers quel langage devrais-je me tourner pour esquisser des solutions ? Existe t-il déjà à votre connaissance des solutions concrètes ?

    En espérant écrire dans la bonne sous-section du forum et vous remerciant par avance pour le temps que vous pourrez bien m'accorder.

    Cordialement,
    Nœud Gordien.

  2. #2
    Candidat au Club
    Bonjour,

    Je ne m'attendais pas à autant d'inertie sur le forum.

    J'avais mis de côté l'idée pendant un temps, puis j'ai en partie résolu le problème avec deux petits Batch qui me permettent d'y voir beaucoup plus clair.

    Deux répertoires de travail sont nécessaires ici.

    Dans le premier, se trouve le premier bat qui récupère la liste des fichiers vers un .txt envoyé dans un second répertoire de travail.

    Voici le code du premier bat qui liste:

    Code :Sélectionner tout -Visualiser dans une fenêtre à part
    dir C:\Users\blabla\Desktop\Test /A /B /O:GEN > C:\Users\blabla\Desktop\Test\recup\recup.txt



    Dans le second répertoire nommé "recup", se trouve, le second bat suivant (version allégée):

    Code qui trouve les occurrences pour un mot donné:

    Code :Sélectionner tout -Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    [cpp]@echo off
     
    for /F "tokens=1,2* delims=: " %%A in ('find /C "occurrence_a_trouver" *.txt') DO (
    if %%C GTR 0 (
    echo Fichier: %%B
    echo Nombre d'occurrences: %%C
    )
    )
    [/cpp]
     
    pause


    J'ai dégraissé et adapté la requête pour plusieurs mots à trouver d'un coup: ils sont sélectionnés intuitivement dans ma liste.
    J'ai travaillé pour 10 mots et cela me donne une très bonne idée de départ, une sorte de champ lexical.

    A présent, je vais essayer de déterminer une nouvelle liste des mots dont il faudra déterminer les occurrences par le même principe - 30 à 50 mots définis à partir du champ lexical du fichier "recup.txt" précédemment déterminé.

    Dernière étape: balancer les occurrences sous R