IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Parse le lien des balises html avec Python


Sujet :

Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Femme Profil pro
    Chercheur en informatique
    Inscrit en
    Mai 2021
    Messages
    24
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Roumanie

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Enseignement

    Informations forums :
    Inscription : Mai 2021
    Messages : 24
    Par défaut Parse le lien des balises html avec Python
    Salut. Je dois copier le lien de la balise html canonique vers les autres balises ci-dessous. J'ai beaucoup de fichiers html avec ces lignes, je dois donc changer dans tout le dossier.

    Code HTML : Sélectionner tout - Visualiser dans une fenêtre à part
    <link rel="canonical" href="https://website.com/en/dono.html" />

    et

    Code HTML : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    <div class="somers"><a href="https://website/amadonperrish.html" class="flags bg" hreflang="bg" title="bk"></a>
        <a href="https://website.com/test-lofet.html" class="flags sk" hreflang="sk" title="sk"></a>
        <a href="https://website.com/mercy.html" class="flags uk" hreflang="uk" title="uk"></a>

    La sortie doit être

    Code HTML : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    <div class="somers"><a href="https://website.com/en/dono.html" class="flags bg" hreflang="bg" title="bk"></a>
        <a href="https://website.com/en/dono.html" class="flags sk" hreflang="sk" title="sk"></a>
        <a href="https://website.com/en/dono.html" class="flags uk" hreflang="uk" title="uk"></a>

    Est-ce que quelqu'un connaît une solution en Python pour ce problème ?

  2. #2
    Membre prolifique
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 835
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 835
    Billets dans le blog
    1
    Par défaut
    Bonjour
    Citation Envoyé par Melcus Voir le message
    Est-ce que quelqu'un connaît une solution en Python pour ce problème ?
    Si c'est juste une fois, pour 1 (ou plusieurs) fichiers mais ensuite c'est bon, alors l'éditeur linux "gvim" ainsi que l'éditeur linux/windows "notepad++" peuvent le faire avec les regex

    Si c'est pour automatiser un traitement répétitif, alors oui en Python on peut le faire là aussi avec une regex. Si "data" contient ton html alors re.sub(r'a href=".{1,}" ', r'a href="https://website.com/en/dono.html"', data) devrait le faire.
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  3. #3
    Expert confirmé
    Avatar de jurassic pork
    Homme Profil pro
    Bidouilleur
    Inscrit en
    Décembre 2008
    Messages
    4 220
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Bidouilleur
    Secteur : Industrie

    Informations forums :
    Inscription : Décembre 2008
    Messages : 4 220
    Par défaut
    hello,
    Melcus il faudra que tu te décides un jour à utiliser BeautifulSoup

    Avec ce code :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    # coding: utf-8
    import re
    from bs4 import BeautifulSoup
    html_doc = """
    <html> 
     <div class="somers">
        <a href="https://website/amadonperrish.html" class="flags bg" hreflang="bg" title="bk"></a>
        <a href="https://website.com/test-lofet.html" class="flags sk" hreflang="sk" title="sk"></a>
        <a href="https://website.com/mercy.html" class="flags uk" hreflang="uk" title="uk"></a>
     </div>
    </html>
    """
    soup = BeautifulSoup(html_doc)
    for a in soup.findAll('a'):
        a['href'] =   "https://website.com/en/dono.html"
    result = str(soup)
    print(result)
    Voici ce que j'obtiens :
    <html>
    <body><div class="somers">
    <a class="flags bg" href="https://website.com/en/dono.html" hreflang="bg" title="bk"></a>
    <a class="flags sk" href="https://website.com/en/dono.html" hreflang="sk" title="sk"></a>
    <a class="flags uk" href="https://website.com/en/dono.html" hreflang="uk" title="uk"></a>
    </div>
    </body></html>

    Ami calmant, J.P

  4. #4
    Membre prolifique
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 835
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 835
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par jurassic pork Voir le message
    Melcus il faudra que tu te décides un jour à utiliser BeautifulSoup
    Et moi aussi
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  5. #5
    Membre averti
    Femme Profil pro
    Chercheur en informatique
    Inscrit en
    Mai 2021
    Messages
    24
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Roumanie

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Enseignement

    Informations forums :
    Inscription : Mai 2021
    Messages : 24
    Par défaut
    Merci beaucoup les amis



    J'ai trouvé une solution qui fonctionne avec PowerShell, qui remplacera toutes les lignes par la balise de lien canonique*:

    Code PowerShell : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    $sourcedir = "C:\Folder1\"
    $resultsdir = "C:\Folder1\"
     
    Get-ChildItem -Path $sourcedir -Filter *.html | ForEach-Object {
        $content = Get-Content -Path $_.FullName -Raw
        $replaceValue = (Select-String -InputObject $content -Pattern '(?<=<link rel="canonical" href=").+(?=" />)').Matches.Value
        $content = $content -replace '(?<=<a href=").+(?=</a>)',$replaceValue
        Set-Content -Path $resultsdir\$($_.name) $content
    }

  6. #6
    Membre averti
    Femme Profil pro
    Chercheur en informatique
    Inscrit en
    Mai 2021
    Messages
    24
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Roumanie

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Enseignement

    Informations forums :
    Inscription : Mai 2021
    Messages : 24
    Par défaut
    Citation Envoyé par jurassic pork Voir le message
    hello,
    Melcus il faudra que tu te décides un jour à utiliser BeautifulSoup

    Avec ce code :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    # coding: utf-8
    import re
    from bs4 import BeautifulSoup
    html_doc = """
    <html> 
     <div class="somers">
        <a href="https://website/amadonperrish.html" class="flags bg" hreflang="bg" title="bk"></a>
        <a href="https://website.com/test-lofet.html" class="flags sk" hreflang="sk" title="sk"></a>
        <a href="https://website.com/mercy.html" class="flags uk" hreflang="uk" title="uk"></a>
     </div>
    </html>
    """
    soup = BeautifulSoup(html_doc)
    for a in soup.findAll('a'):
        a['href'] =   "https://website.com/en/dono.html"
    result = str(soup)
    print(result)
    Ami calmant, J.P
    J'ai mis à jour votre code, j'ai sélectionné tous les fichiers html dans lesquels je souhaite apporter la modification et j'ai enregistré la modification dans les mêmes fichiers.

    mais quelque chose ne va pas. Est-ce que quelqu'un peut m'aider?


    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    import sys
    import re
    from bs4 import BeautifulSoup
     
    import os
    path = r"c:\Folder1"
     
    for filename in os.listdir(path):
        if filename.endswith(".html"):
            fullpath = os.path.join(path, filename)
     
            # Get Page, Make Soup
            soup = BeautifulSoup(open(fullpath), 'lxml')
     
    #soup = BeautifulSoup(html_doc)
    for a in soup.findAll('a'):
        a['href'] =   "https://website.com/en/dono.html"
    result = str(soup)
    print(result)
     
     
    def find_and_replace(file, word, replacement):
      with open(file, 'r+') as f:
        text = f.read()
        f.write(text.replace(word, replacement))

  7. #7
    Expert confirmé
    Avatar de jurassic pork
    Homme Profil pro
    Bidouilleur
    Inscrit en
    Décembre 2008
    Messages
    4 220
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Bidouilleur
    Secteur : Industrie

    Informations forums :
    Inscription : Décembre 2008
    Messages : 4 220
    Par défaut
    hello,
    voici ce que je te propose pour l'instant, on lit les fichiers html dans un répertoire et on réécrit dans ce même répertoire le contenu modifié avec les nouveaux liens dans un nouveau fichier avec comme préfixe new_. Ceci pour éviter de modifier le fichier original en cas de problème. Il est à noter que BeautifulSoup modifie parfois le contenu ( par exemple l'ordre des attributs de balise). Il faut voir si cela ne te gêne pas.
    Voici un exemple de code qui fait cela :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    # coding: utf-8import os
    from bs4 import BeautifulSoup
    import os
    path = r"d:\temp\html"
    for filename in os.listdir(path):
        if filename.endswith(".html"):
            fullpath = os.path.join(path, filename)
           # Get Page, Make Soup
            soup = BeautifulSoup(open(fullpath), 'lxml')
            for a in soup.findAll('a'):
                a['href'] =   "https://website.com/en/dono.html"
            result = str(soup)
            print(result)
            newfilename = 'new_' + filename
            with open(os.path.join(path, newfilename), 'w+') as f:
                f.write(result)
                f.close
    Ami calmant, J.P

  8. #8
    Membre averti
    Femme Profil pro
    Chercheur en informatique
    Inscrit en
    Mai 2021
    Messages
    24
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Roumanie

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Enseignement

    Informations forums :
    Inscription : Mai 2021
    Messages : 24
    Par défaut
    fonctionne très bien, merci @jurassic pork

    mais si le même exemple je voudrais utiliser un regex? Par example:


    pour le code ci-dessous (notepad++)

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    Trouve: (<link rel="canonical" href="(.*?)" />.*?)(<meta property="og:url" content=").*?("\/>)
     
    Remplacer par:  \1\3\2\4  (.matches neswline)


    Code HTML : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    <html><body>
     
    <link rel="canonical" href="https://website.com/en/dono.html" />
     
    code code
     
    <meta property="og:url" content="https://something.com/en/blah-blah.html"/>
     
    </body></html>

    Je mets à jour le code, mais ne fonctionne pas


    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    from bs4 import BeautifulSoup
    import os
    import re
    path = r"c:\Folder1"
    for filename in os.listdir(path):
        if filename.endswith(".html"):
            fullpath = os.path.join(path, filename)
           # Get Page, Make Soup
            soup = BeautifulSoup(open(fullpath), 'lxml')
     
            for a in soup.findAll('a'):
            a = re.findall(r"(?<=<link rel="canonical" href=").+(?=" />)", \1\2\3\4, re.NEWSLINE) 
     
            result = str(soup)
            print(a.{result})
     
     
            newfilename = 'new_' + filename
            with open(os.path.join(path, newfilename), 'w+') as f:
                f.write(result)
                f.close

Discussions similaires

  1. Réponses: 6
    Dernier message: 22/05/2021, 18h17
  2. Générer des liens HTML avec Python (Flask)
    Par Piteure dans le forum Réseau/Web
    Réponses: 8
    Dernier message: 07/05/2019, 08h28
  3. [RegEx] Regex suppression des balises html avec attribut
    Par jerome14000 dans le forum Langage
    Réponses: 7
    Dernier message: 12/02/2018, 09h55
  4. Obtenir des balises html+texte avec xpath ?
    Par apt dans le forum Langage
    Réponses: 1
    Dernier message: 23/07/2011, 12h07
  5. REGEX avec exclusion des balises HTML
    Par Tchupacabra dans le forum Général JavaScript
    Réponses: 9
    Dernier message: 15/10/2008, 09h21

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo