Parse le lien des balises html avec Python

**Melcus** · 14/06/2021, 11h38

Salut. Je dois copier le lien de la balise html canonique vers les autres balises ci-dessous. J'ai beaucoup de fichiers html avec ces lignes, je dois donc changer dans tout le dossier.

Code HTML :

Sélectionner tout - Visualiser dans une fenêtre à part

<link rel="canonical" href="https://website.com/en/dono.html" />

et

Code HTML :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
<div class="somers"><a href="https://website/amadonperrish.html" class="flags bg" hreflang="bg" title="bk"></a>
    <a href="https://website.com/test-lofet.html" class="flags sk" hreflang="sk" title="sk"></a>
    <a href="https://website.com/mercy.html" class="flags uk" hreflang="uk" title="uk"></a>

La sortie doit être

Code HTML :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
<div class="somers"><a href="https://website.com/en/dono.html" class="flags bg" hreflang="bg" title="bk"></a>
    <a href="https://website.com/en/dono.html" class="flags sk" hreflang="sk" title="sk"></a>
    <a href="https://website.com/en/dono.html" class="flags uk" hreflang="uk" title="uk"></a>

Est-ce que quelqu'un connaît une solution en Python pour ce problème ?

**Sve@r** · 14/06/2021, 12h20

Bonjour

Envoyé par Melcus

Est-ce que quelqu'un connaît une solution en Python pour ce problème ?

Si c'est juste une fois, pour 1 (ou plusieurs) fichiers mais ensuite c'est bon, alors l'éditeur linux "gvim" ainsi que l'éditeur linux/windows "notepad++" peuvent le faire avec les regex

Si c'est pour automatiser un traitement répétitif, alors oui en Python on peut le faire là aussi avec une regex. Si "data" contient ton html alors re.sub(r'a href=".{1,}" ', r'a href="https://website.com/en/dono.html"', data) devrait le faire.

**jurassic pork** · 14/06/2021, 14h47

hello,
Melcus il faudra que tu te décides un jour à utiliser BeautifulSoup

Avec ce code :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# coding: utf-8
import re
from bs4 import BeautifulSoup
html_doc = """
<html> 
 <div class="somers">
    <a href="https://website/amadonperrish.html" class="flags bg" hreflang="bg" title="bk"></a>
    <a href="https://website.com/test-lofet.html" class="flags sk" hreflang="sk" title="sk"></a>
    <a href="https://website.com/mercy.html" class="flags uk" hreflang="uk" title="uk"></a>
 </div>
</html>
"""
soup = BeautifulSoup(html_doc)
for a in soup.findAll('a'):
    a['href'] =   "https://website.com/en/dono.html"
result = str(soup)
print(result)

Voici ce que j'obtiens :

Ami calmant, J.P

**Sve@r** · 14/06/2021, 17h20

Envoyé par jurassic pork

Melcus il faudra que tu te décides un jour à utiliser BeautifulSoup

Et moi aussi

**Melcus** · 15/06/2021, 15h38

Merci beaucoup les amis

J'ai trouvé une solution qui fonctionne avec PowerShell, qui remplacera toutes les lignes par la balise de lien canonique*:

Code PowerShell :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
$sourcedir = "C:\Folder1\"
$resultsdir = "C:\Folder1\"
 
Get-ChildItem -Path $sourcedir -Filter *.html | ForEach-Object {
    $content = Get-Content -Path $_.FullName -Raw
    $replaceValue = (Select-String -InputObject $content -Pattern '(?<=<link rel="canonical" href=").+(?=" />)').Matches.Value
    $content = $content -replace '(?<=<a href=").+(?=</a>)',$replaceValue
    Set-Content -Path $resultsdir\$($_.name) $content
}

**Melcus** · 15/06/2021, 16h43

Envoyé par jurassic pork

hello,
Melcus il faudra que tu te décides un jour à utiliser BeautifulSoup

Avec ce code :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# coding: utf-8
import re
from bs4 import BeautifulSoup
html_doc = """
<html> 
 <div class="somers">
    <a href="https://website/amadonperrish.html" class="flags bg" hreflang="bg" title="bk"></a>
    <a href="https://website.com/test-lofet.html" class="flags sk" hreflang="sk" title="sk"></a>
    <a href="https://website.com/mercy.html" class="flags uk" hreflang="uk" title="uk"></a>
 </div>
</html>
"""
soup = BeautifulSoup(html_doc)
for a in soup.findAll('a'):
    a['href'] =   "https://website.com/en/dono.html"
result = str(soup)
print(result)

Ami calmant, J.P

J'ai mis à jour votre code, j'ai sélectionné tous les fichiers html dans lesquels je souhaite apporter la modification et j'ai enregistré la modification dans les mêmes fichiers.

mais quelque chose ne va pas. Est-ce que quelqu'un peut m'aider?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
import sys
import re
from bs4 import BeautifulSoup
 
import os
path = r"c:\Folder1"
 
for filename in os.listdir(path):
    if filename.endswith(".html"):
        fullpath = os.path.join(path, filename)
 
        # Get Page, Make Soup
        soup = BeautifulSoup(open(fullpath), 'lxml')
 
#soup = BeautifulSoup(html_doc)
for a in soup.findAll('a'):
    a['href'] =   "https://website.com/en/dono.html"
result = str(soup)
print(result)
 
 
def find_and_replace(file, word, replacement):
  with open(file, 'r+') as f:
    text = f.read()
    f.write(text.replace(word, replacement))

**jurassic pork** · 15/06/2021, 17h21

hello,
voici ce que je te propose pour l'instant, on lit les fichiers html dans un répertoire et on réécrit dans ce même répertoire le contenu modifié avec les nouveaux liens dans un nouveau fichier avec comme préfixe new_. Ceci pour éviter de modifier le fichier original en cas de problème. Il est à noter que BeautifulSoup modifie parfois le contenu ( par exemple l'ordre des attributs de balise). Il faut voir si cela ne te gêne pas.
Voici un exemple de code qui fait cela :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# coding: utf-8import os
from bs4 import BeautifulSoup
import os
path = r"d:\temp\html"
for filename in os.listdir(path):
    if filename.endswith(".html"):
        fullpath = os.path.join(path, filename)
       # Get Page, Make Soup
        soup = BeautifulSoup(open(fullpath), 'lxml')
        for a in soup.findAll('a'):
            a['href'] =   "https://website.com/en/dono.html"
        result = str(soup)
        print(result)
        newfilename = 'new_' + filename
        with open(os.path.join(path, newfilename), 'w+') as f:
            f.write(result)
            f.close

Ami calmant, J.P

**Melcus** · 15/06/2021, 18h01

fonctionne très bien, merci @jurassic pork

mais si le même exemple je voudrais utiliser un regex? Par example:

pour le code ci-dessous (notepad++)

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
Trouve: (<link rel="canonical" href="(.*?)" />.*?)(<meta property="og:url" content=").*?("\/>)
 
Remplacer par:  \1\3\2\4  (.matches neswline)

Code HTML :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
<html><body>
 
<link rel="canonical" href="https://website.com/en/dono.html" />
 
code code
 
<meta property="og:url" content="https://something.com/en/blah-blah.html"/>
 
</body></html>

Je mets à jour le code, mais ne fonctionne pas

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
from bs4 import BeautifulSoup
import os
import re
path = r"c:\Folder1"
for filename in os.listdir(path):
    if filename.endswith(".html"):
        fullpath = os.path.join(path, filename)
       # Get Page, Make Soup
        soup = BeautifulSoup(open(fullpath), 'lxml')
 
        for a in soup.findAll('a'):
        a = re.findall(r"(?<=<link rel="canonical" href=").+(?=" />)", \1\2\3\4, re.NEWSLINE) 
 
        result = str(soup)
        print(a.{result})
 
 
        newfilename = 'new_' + filename
        with open(os.path.join(path, newfilename), 'w+') as f:
            f.write(result)
            f.close

Parse le lien des balises html avec Python

Python

Vue hybride

Discussions similaires

Partager

Partager