Parser un texte contenant des images (nltk)

**HugoTrn** · 05/06/2019, 12h17

Bonjour, actuellement étudiant en stage, j'ai pour mission de faire un programme qui prend en donnée un document contenant du texte ET des images, et qui renvoie une liste contenant toutes les phrases et images du document. Par exemple le programme doit renvoyer : [ Phrase 1, Phrase 2, Image 1, Phrase 3 … ] (dans la liste renvoyée, les images sont représentés sous forme de caractère par exemple).
Mais voici mon problème : en utilisant la bibliothèque nltk, j'arrive à segmenter un texte en phrase mais je ne sais pas comment procéder concernant les images. Je pense que nltk ne prend donc pas en compte les images donc je voudrais avoir quelques indications sur d'autres méthodes éventuellement.

Voici mon code :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
import nltk
file_content = open("texte2.rtf").read()
tokens = nltk.sent_tokenize(file_content)
print (tokens)

Qui renvoie par exemple : ['Phrase 1.', 'Phrase 2.', 'Phrase 3.'].

Je vous remercie de votre temps et de votre aide.

**wiztricks** · 05/06/2019, 20h02

Salut,

Un fichier RTF n'est pas un fichier "texte": il serait plus raisonnable de le lire avec une bibliothèque qui sait lire ce format pour récupérer le texte et les images. Ce qui pourrait produire une liste de bout de texte et d'images. Puis soumettre les bouts de texte (ou le texte complet) à NLTK.

- W

**HugoTrn** · 05/06/2019, 23h38

D'accord, merci pour votre réponse. Donc si je comprend bien, il faut que je commence par utiliser une autre bibliothèque (est ce que vous auriez un exemple de bibliothèque s'il vous plaît ?) pour pouvoir lire un document contenant du texte et des images et ensuite utiliser NLTK pour découper le document en phrase en image. Mais en faisant cela, est ce qu'on aura bien à la fin une liste contenant les phrases et les images aussi ? Car mon professeur m'avait dit que NLTK ne récupérait que du texte et non les images.

Merci.

**wiztricks** · 05/06/2019, 23h56

Envoyé par HugoTrn

Car mon professeur m'avait dit que NLTK ne récupérait que du texte et non les images.

Ayez la curiosité d'ouvrir votre fichier RTF avec un éditeur "normal" histoire de voir ce qu'il contient (et à quoi ressemblent du texte et une image là dedans).
Puis vous regardez ce qu'en fait nltk.sent_tokenize...

Envoyé par HugoTrn

est ce que vous auriez un exemple de bibliothèque s'il vous plaît ?

Un peu de recherche sur Internet devrait vous donner plein d'exemples: après il faut "tester" pour voir si çà sait faire ce que vous voulez.

- W

**HugoTrn** · 07/06/2019, 15h36

Merci wiztricks pour ta réponse.

En faite je souhaite étudier seulement les fichiers .docx pour l'instant. Donc dans mon code, je commence par lire le fichier .docx à l'aide de la library docx puis j'applique NLTK pour faire le split. Cependant mon code affiche un long message d'erreur que je ne comprend pas du tout.

Code :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
import nltk
from docx import Document
 
file = open('text.docx', 'rb')
document = Document(file)
 
sentence = nltk.sent_tokenize(document)
print(sentence)

Après de nombreuses recherches j'ai peut-être une piste mais je sais pas si c'est bon ou non : Comme mon fichier .docx comporte des images, c'est donc un fichier binaire qui est formé de suite d'octet. Donc je me dis qu'il faudrait peut-être utiliser la fonction .split(".") mais en remplaçant le point par le code binaire du point ?

Merci pour votre réponse et je suis désolé si je dis des choses absurdes car cette partie sur python est encore nouvelle pour moi et j'apprend sur le tas.

**wiztricks** · 07/06/2019, 18h36

Envoyé par HugoTrn

Comme mon fichier .docx comporte des images, c'est donc un fichier binaire qui est formé de suite d'octet. Donc je me dis qu'il faudrait peut-être utiliser la fonction .split(".") mais en remplaçant le point par le code binaire du point ?

Un peu de recherche sur Internet vous permettrait de constater qu'un fichier docx est un fichier compressé au format ZIP qui contient un ensemble de fichiers XML et des images...
Et il va déjà falloir en extraire le texte (*), puis les images, puis une information qui permette de savoir où sont placées les images dans le texte.
(*) et je ne parle pas des en-têtes et autres bas de pages.
Autrement dit, vous avez le même boulot à faire que pour le format RTF...

- W

Parser un texte contenant des images (nltk) [Python 3.X]

Python

Vue hybride

Discussions similaires

Partager

Partager