reconnaissance caractères dans fichiers pdf, dvi
Bonjour,
Je suis toujours débutant...
Pour rechercher des fichiers par leur contenu, j'ai écrit un bout de code suivant :
Code:
1 2 3 4 5 6 7
|
fichiertest="c:\gabriel\essai1.txt"
# fichiertest="c:\gabriel\essai1.pdf"
# fichiertest="c:\gabriel\essai1.dvi"
f=open(fichiertest,"r")
t=f.read()
f.close() |
code qui fonctionne bien sur les fichiers du type *.tex, *.txt mais qui ne marche pas du tout avec les fichiers .pdf ou encore .dvi
Y-a-t-il possibilité de stocker dans une chaine ou dans une liste les textes écrits dans les fichiers pdf et dvi?
Merci pour vos réponses.
Gabriel
Pb d'installation des modules
Bonsoir,
Je suis sous windows XP
J'ai essayé d'installer pyPdf.
J'ai téléchargé le package. Je l'ai décompressé sous la racine:
c:\python31\lib\site-packages
Puis avec cmd, j'ai fait:
setup --build
setup --install
J'ai copié l'exemple proposé (dans readme) je l'ai mis dans mon code
Code:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37
|
import glob
import os
from pyPdf import PdfFileWriter, PdfFileReader
output = PdfFileWriter()
input1 = PdfFileReader(file("c:\gabriel\prepa\hec10\devoir2010\DL01.pdf", "rb"))
# add page 1 from input1 to output document, unchanged
output.addPage(input1.getPage(0))
# add page 2 from input1, but rotated clockwise 90 degrees
output.addPage(input1.getPage(1).rotateClockwise(90))
# add page 3 from input1, rotated the other way:
output.addPage(input1.getPage(2).rotateCounterClockwise(90))
# alt: output.addPage(input1.getPage(2).rotateClockwise(270))
# add page 4 from input1, but first add a watermark from another pdf:
page4 = input1.getPage(3)
watermark = PdfFileReader(file("watermark.pdf", "rb"))
page4.mergePage(watermark.getPage(0))
# add page 5 from input1, but crop it to half size:
page5 = input1.getPage(4)
page5.mediaBox.upperRight = (
page5.mediaBox.getUpperRight_x() / 2,
page5.mediaBox.getUpperRight_y() / 2
)
output.addPage(page5)
# print how many pages input1 has:
#print ("document1.pdf has %s pages.") % input1.getNumPages())
# finally, write "output" to document-output.pdf
outputStream = file("document-output.pdf", "wb")
output.write(outputStream) |
et il bloque tout de suite... en m'écrivant le message:
Citation:
Traceback (most recent call last):
File "C:\Gabriel\temporaire\essai02.py", line 3, in <module>
from pyPdf import PdfFileWriter, PdfFileReader
File "C:\Python31\lib\site-packages\pyPdf\__init__.py", line 1, in <module>
from pdf import PdfFileReader, PdfFileWriter
ImportError: No module named pdf
J'ai essayé d'autres manip sans succès.
Peut être que j'implante mal le module?
ou alors pyPdf n'est pas compatible avec python31?
Merci pour vos réponses
Gabriel