Bonjour à tous,
J'essai de scripter un petit utilitaire pour me récupérer les infos qui m'intéresse sur l'intranet de mon entreprise et me les envoyer par mail (nous n'avons pas de newsletter).
J'utilise Curl pour récupérer la page en question dans une variable. Jusque là, tout fonctionne.
Je cherche maintenant comment faire pour récupérer les infos comprises entre les balises. Dans l'idée, je souhaiterais filtrer les données et ne récupérer que ce qui m'intéresse. Je n'ai pas récupéré toute la page HTML mais dans l'idée voici comment ce compose la page :
Code HTML : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7 ...Plein de code HTML qui ne m'intéresse pas... <span class="subheading-category">Actualités du service Ressources Humaines</span> ...Plein de code HTML qui ne m'intéresse pas... partie2 <h2 itemprop="name">ARTICLE NUMERO 1</h2> ...Plein de code HTML qui ne m'intéresse pas... partie3 <h2 itemprop="name">ARTICLE NUMERO 2</h2> ...Plein de code HTML qui ne m'intéresse pas... partie4
L'idée que j'avais c'est de faire débuter le script à partir du moment où il détecte la balise <span class="subheading-category">Actualités du service Ressources Humaines</span>, ensuite, je souhaiterais récupérer le titre de cette balise (Actu etc....)
Dans la continuité, dès qu'il détecte une balise h2, récupérer le titre de l'article, etc... Pour au final me générer une newsletter qui me corresponde...
Je pensais utiliser les régex mais j'ai énormément de mal avec ça et je ne maîtrise pas assez Powershell pour développer correctement la chose.
Mes questions...
Comment faire débuter mon script pour qu'il commence sa routine de récupération de donnée à partir de la détection de la balise ACTU ?
Comment lui faire détecter les balises "ARTICLE NUMERO" et en récupérer les infos ?
Merci d'avance pour votre aide.
Partager