Recherche de mots clés dans un ensemble de fichiers avec retour des noms de fichiers ? (rien que ça. . .)

**tichodrome** · 10/05/2020, 00h08

Bonjour à tous,
Je cherche à faire un programme qui va peut-être vous laisser dubitatifs... car il concerne les meta "keywords" dans les pages html qui ne sont plus du tout utilisée aujourd'hui, mais j'en aurais quand même besoin pour un projet... Voilà le topo :
Pour des pages html enregistrées EN LOCAL, je voudrai faire une sorte de petit moteur de recherche qui analyse les mots clés "keywords" et les titres <title> des pages contenus dans des fichiers html et qui renvoie les noms des fichiers qui contiennent ces mots clés ou ces titres...

Dans un ensemble de pages html contenu dans un dossier sur le PC, je souhaite mettre des mots clés dans des balises meta :

Par exemple, une page html traitant du WWW contiendrait : <meta name="keywords" content="www, toile, hyperlien" /> et <title>www</title>)

Une autre page traitant des hytperliens contiendrait : <meta name="keywords" content="hyperlien, hypertexte, Ted Nelson " /> et <title>hyperliens</title>)

Etc...

Je voudrais donc faire un petit programme python qui soit capable de rechercher dans l'ensemble des fichiers de mon dossier "site" un mot clé passé en paramètre et qui renvoi en premier les pages dont c'est le titre puis les pages qui possèdent ce mot dans ses "keywords"...

Je précise que je suis débutant en python (mais je connais bien les principes des langages de programmation quand même...).

En cherchant un peu sur le Net, j'ai trouvé déjà cela : et ça fonctionne avec les fichier .html comme si c'était des fichier .txt, et c'est déjà ça...

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
chaine = "keywords" # Texte à rechercher
fichier = open("www.html","r")
for ligne in fichier:
    if chaine in ligne:
        print (ligne)
fichier.close()

J'obtiens donc la ligne voulue avec les keywords...
Il faudrait alors que je récupère les mots et les compare... là, c'est plus difficile pour moi... J'imagine qu'il va falloir que je passe par des listes...

J'ai vu aussi que Python pouvais lire en ensemble de fichiers d'un répertoire sur ce vieux post d'il y a 13 ans...
https://www.developpez.net/forums/d3...aine-fichiers/

Voilà, si vous avez des pistes à me donner pour commencer... je pars de zéro...
Merci d'avance pour votre aide !

Recherche de mots clés dans un ensemble de fichiers avec retour des noms de fichiers ? (rien que ça. . .)

Python

Mode arborescent

Discussions similaires

Partager

Partager