Bonjour à tous,
je me permets de vous demander de l'aide car cela fait depuis plusieurs jours que je cherche une solution, mais sans y arriver.
Donc voilà, je bosse en ce moment sur un projet qui consiste à extraire les métadonnées de PDF pour les intégrer dans une base de données.
Les métadonnées sont présents en XML qui ait lui même intégrer dans les fichiers PDF.
Le problème étant qu'Adobe n'a pas fait les choses simples et les XML contenues dans les PDF sont une vraie plaie.
Enfin voici un exemple d'XML que j'ai extrais:
Donc je voudrais récupérer les données contenues dans les balises suivantes:
Code : Sélectionner tout - Visualiser dans une fenêtre à part 
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
- "RAPPORT0001" qui se trouve dans la balise = dc:identifier
- "56" qui se trouve dans = dc:source
- "Trédion" qui se trouve dans = dc:coverage
- "Ceci est le nom de mon rapport" qui se trouve dans = dc:title et dans le sous-élément rdf:Alt
- "2011" qui se trouve dans = dc:date et dans le sous-élément rdf:Seq et rdf:li
- "Dupont Luc" = dc:creator et dans le sous-élément rdf:Seq et rdf:li
- "Publiable" = dc:rights et dans le sous-élément rdf:Alt et rdf;li
- et enfin "Type d'opération" qui se trouve dans dc:description et rdf:Alt

 

 
		
		 
         
 

 
			
			
 
   
 


 Extraire métadonnées (intégrées dans un XML) d'un fichier PDF
 Extraire métadonnées (intégrées dans un XML) d'un fichier PDF
				 Répondre avec citation
  Répondre avec citation 
						


 
				
 merci pour ton aide et tes explications claires.
 merci pour ton aide et tes explications claires. Je mets le sujet en résolu.
 Je mets le sujet en résolu.
						
Partager