Salutations à la communauté!
Je m'appelle Maël, étudiant en sciences politiques, et stagiaire pour un projet de recherche en analyse des médias. J'ai pour mission d'extraire les informations de plus de 6000 articles de presse regroupés dans quelque 120 fichiers pdf.
Cela m'oblige à copier-coller toutes les informations nécessaires : titre de l'article, auteur, date, texte principal. Cela prendrait beaucoup de temps de le faire manuellement, environ 100 à 150 heures.
On m'a dit que l'extraction automatisée de données nécessite des points de référence pour indiquer où trouver l'information. En regardant les fichiers, je pense qu'il pourrait être difficile de le coder. Comme je suis un débutant absolu en matière de codage, j'ai besoin de conseils pour savoir si le codage d'une extraction automatisée serait possible et comment le faire.
Voici à quoi ressemble la matière première avec laquelle je travaille :
Merci de m'avoir lu ! Toute aide sera bienvenue![]()
Partager