IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Statistiques, Data Mining et Data Science Discussion :

Besoin de conseils : datamining automatisé pour les articles de presse


Sujet :

Statistiques, Data Mining et Data Science

  1. #1
    Nouveau candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mai 2024
    Messages
    1
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 24
    Localisation : France, Ariège (Midi Pyrénées)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Enseignement

    Informations forums :
    Inscription : Mai 2024
    Messages : 1
    Par défaut Besoin de conseils : datamining automatisé pour les articles de presse
    Salutations à la communauté!

    Je m'appelle Maël, étudiant en sciences politiques, et stagiaire pour un projet de recherche en analyse des médias. J'ai pour mission d'extraire les informations de plus de 6000 articles de presse regroupés dans quelque 120 fichiers pdf.

    Cela m'oblige à copier-coller toutes les informations nécessaires : titre de l'article, auteur, date, texte principal. Cela prendrait beaucoup de temps de le faire manuellement, environ 100 à 150 heures.

    On m'a dit que l'extraction automatisée de données nécessite des points de référence pour indiquer où trouver l'information. En regardant les fichiers, je pense qu'il pourrait être difficile de le coder. Comme je suis un débutant absolu en matière de codage, j'ai besoin de conseils pour savoir si le codage d'une extraction automatisée serait possible et comment le faire.

    Voici à quoi ressemble la matière première avec laquelle je travaille :
    Nom : Example of press article.png
Affichages : 110
Taille : 113,9 Ko

    Merci de m'avoir lu ! Toute aide sera bienvenue

  2. #2
    Responsable Qt & Livres


    Avatar de dourouc05
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Août 2008
    Messages
    26 752
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Août 2008
    Messages : 26 752
    Par défaut


    Tu as des outils pour extraire automatiquement tout le texte d'un fichier PDF, comme https://pypdf.readthedocs.io/en/stable/. Plus les articles seront rédigés de la même manière, plus ça sera facile de trouver les informations que tu cherches de manière fiable (par exemple : l'auteur signe toujours à la fin ; la date est après les métadonnées, puis vient le titre). Maintenant, ça va prendre beaucoup d'essais et d'erreurs pour y arriver de manière assez fiable — peut-être plus que les 100 à 150 heures que tu estimes pour le faire à la main, si tu n'y connais rien en programmation.
    Vous souhaitez participer aux rubriques Qt (tutoriels, FAQ, traductions) ou HPC ? Contactez-moi par MP.

    Créer des applications graphiques en Python avec PyQt5
    Créer des applications avec Qt 5.

    Pas de question d'ordre technique par MP !

Discussions similaires

  1. [JpGraph] Besoin de conseil/Tuto/aide pour les canevas Jpgraph
    Par titou_777 dans le forum Bibliothèques et frameworks
    Réponses: 0
    Dernier message: 23/03/2009, 13h48
  2. Conseil clé primaire pour les meilleurs performances ?
    Par ites dans le forum Optimisations
    Réponses: 23
    Dernier message: 04/07/2008, 10h36
  3. [remarque] bravo pour les articles courts
    Par balmeyer dans le forum Contribuez
    Réponses: 3
    Dernier message: 18/09/2006, 11h44

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo