IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Statistiques, Data Mining et Data Science Discussion :

Statistiques dans une liste de fichiers


Sujet :

Statistiques, Data Mining et Data Science

  1. #1
    Candidat au Club
    Homme Profil pro
    Chercheur
    Inscrit en
    mai 2020
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Chercheur

    Informations forums :
    Inscription : mai 2020
    Messages : 2
    Points : 2
    Points
    2
    Par défaut Statistiques dans une liste de fichiers
    Bonjour,

    J'aimerais trouver un algorithme, programmer ou trouver un utilitaire qui puisse m'aider à créer des statistiques à partir d'une liste de fichiers.

    Pour exemple, je peux disposer de plusieurs milliers de fichiers dans un dossier sous l'explorateur Windows - des noms de fichiers longs et précis: des listes bibliographiques. Je souhaiterais identifier les mots clés de cette liste et d'en dresser des statistiques ; au moins pour les plus redondants. Si possible, pour des raisons pratiques et selon la faisabilité bien sûr, exclure certains mots, à partir d'une liste d'exclusion à définir, ou plus simplement/généralement ignorer chiffres et mots inférieurs à x caractère.

    Je ne suis pas un programmeur et je n'ai pas vraiment d'expérience dans la résolution de ce genre de problème. Je connais quelques langages mais qui ne me seront probablement pas utiles pour ce projet (HTML/CSS/R/Markdown...).

    Mes questions peuvent être les suivantes: vers quel langage devrais-je me tourner pour esquisser des solutions ? Existe t-il déjà à votre connaissance des solutions concrètes ?

    En espérant écrire dans la bonne sous-section du forum et vous remerciant par avance pour le temps que vous pourrez bien m'accorder.

    Cordialement,
    Nœud Gordien.

  2. #2
    Candidat au Club
    Homme Profil pro
    Chercheur
    Inscrit en
    mai 2020
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Chercheur

    Informations forums :
    Inscription : mai 2020
    Messages : 2
    Points : 2
    Points
    2
    Par défaut
    Bonjour,

    Je ne m'attendais pas à autant d'inertie sur le forum.

    J'avais mis de côté l'idée pendant un temps, puis j'ai en partie résolu le problème avec deux petits Batch qui me permettent d'y voir beaucoup plus clair.

    Deux répertoires de travail sont nécessaires ici.

    Dans le premier, se trouve le premier bat qui récupère la liste des fichiers vers un .txt envoyé dans un second répertoire de travail.

    Voici le code du premier bat qui liste:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    dir C:\Users\blabla\Desktop\Test /A /B /O:GEN > C:\Users\blabla\Desktop\Test\recup\recup.txt

    Dans le second répertoire nommé "recup", se trouve, le second bat suivant (version allégée):

    Code qui trouve les occurrences pour un mot donné:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    [cpp]@echo off
     
    for /F "tokens=1,2* delims=: " %%A in ('find /C "occurrence_a_trouver" *.txt') DO (
    if %%C GTR 0 (
    echo Fichier: %%B
    echo Nombre d'occurrences: %%C
    )
    )
    [/cpp]
     
    pause
    J'ai dégraissé et adapté la requête pour plusieurs mots à trouver d'un coup: ils sont sélectionnés intuitivement dans ma liste.
    J'ai travaillé pour 10 mots et cela me donne une très bonne idée de départ, une sorte de champ lexical.

    A présent, je vais essayer de déterminer une nouvelle liste des mots dont il faudra déterminer les occurrences par le même principe - 30 à 50 mots définis à partir du champ lexical du fichier "recup.txt" précédemment déterminé.

    Dernière étape: balancer les occurrences sous R

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 2
    Dernier message: 29/02/2012, 15h20
  2. Réponses: 4
    Dernier message: 01/03/2010, 21h00
  3. [Toutes versions] Extraire des données dans une liste de fichiers
    Par PATMA dans le forum Excel
    Réponses: 1
    Dernier message: 13/10/2009, 22h52
  4. Réponses: 2
    Dernier message: 16/11/2007, 11h44
  5. Réponses: 4
    Dernier message: 08/09/2006, 13h17

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo