Bonjour, actuellement étudiant en stage, j'ai pour mission de faire un programme qui prend en donnée un document contenant du texte ET des images, et qui renvoie une liste contenant toutes les phrases et images du document. Par exemple le programme doit renvoyer : [ Phrase 1, Phrase 2, Image 1, Phrase 3 … ] (dans la liste renvoyée, les images sont représentés sous forme de caractère par exemple).
Mais voici mon problème : en utilisant la bibliothèque nltk, j'arrive à segmenter un texte en phrase mais je ne sais pas comment procéder concernant les images. Je pense que nltk ne prend donc pas en compte les images donc je voudrais avoir quelques indications sur d'autres méthodes éventuellement.
Voici mon code :
Qui renvoie par exemple : ['Phrase 1.', 'Phrase 2.', 'Phrase 3.'].
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4 import nltk file_content = open("texte2.rtf").read() tokens = nltk.sent_tokenize(file_content) print (tokens)
Je vous remercie de votre temps et de votre aide.
Partager