Parsing line html

**Melcus** · 18/06/2021, 11h58

salut. Je veux changer quelques lignes (parsing)

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
<title>Voiture</html>
 
à
 
<meta name="Subject" content="MERCY"/>

pour DEVENIR:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
<title>Voiture</html>
 
à
 
<meta name="Subject" content="Voiture"/>

Mon code est presque bon, n'obtient aucune erreur, mais au lieu d'analyser, il supprime simplement d'autres lignes.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
import requests
import re
 
english_folder1 = r"c:\test\test\2\1"
 
extension_file = ".html"
 
use_parse_folder = True
 
import os
 
en1_directory = os.fsencode(english_folder1)
 
print('Going through english folder')
for file in os.listdir(en1_directory):
    filename = os.fsdecode(file)
    print(filename)
    if filename == 'y_key_e479323ce281e459.html' or filename == 'TS_4fg4_tr78.html': #ignore this files
        continue
    if filename.endswith(extension_file):
        with open(os.path.join(english_folder1, filename), encoding='utf-8') as html:
            html = html.read()
 
            try:
                with open(os.path.join(english_folder1, filename), encoding='utf-8') as en_html:
                    en_html = en_html.read()
 
 
                    try:
                        parse_1 = re.search('<title>.+</title>', html, flags=re.DOTALL)[0]
                        en_html = re.sub('<meta name="Subject" content=".+"/>', parse_1, en_html, flags=re.DOTALL)
                    except:
                        pass
 
 
 
            except FileNotFoundError:
                continue
 
        print(f'{filename} parsed')
        if use_parse_folder:
            try:
                with open(os.path.join(english_folder1+r'\parsed', 'parsed_'+filename), 'w', encoding='utf-8') as new_html:
                    new_html.write(en_html)
            except:
                os.mkdir(english_folder1+r'\parsed')
                with open(os.path.join(english_folder1+r'\parsed', 'parsed_'+filename), 'w', encoding='utf-8') as new_html:
                    new_html.write(en_html)
        else:
            with open(os.path.join(english_folder1, 'parsed_'+filename), 'w', encoding='utf-8') as html:
                html.write(en_html)

**jurassic pork** · 18/06/2021, 13h27

hello,
you have an error in your html : line with title must be :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

<title>Voiture</title>

don't forget BeautifulSoup

:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
from bs4 import BeautifulSoup
html_doc = """
<html> 
<title>Voiture</title>
<meta name="Subject" content="MERCY">
</meta>
<body>
 <div class="somers">
    <a href="https://website/amadonperrish.html" class="flags bg" hreflang="bg" title="bk"></a>
    <a href="https://website.com/test-lofet.html" class="flags sk" hreflang="sk" title="sk"></a>
    <a href="https://website.com/mercy.html" class="flags uk" hreflang="uk" title="uk"></a>
 </div>
 </body>
</html>
"""
soup = BeautifulSoup(html_doc)
titre = soup.find('title').text
meta= soup.find('meta')
meta['content']=titre
result = str(soup)
print(result)

=>

<html>
<head>
<title>Voiture</title>
<meta content="Voiture" name="Subject"/>
</head>
<body>
<div class="somers">
<a class="flags bg" href="https://website/amadonperrish.html" hreflang="bg" title="bk"></a>
<a class="flags sk" href="https://website.com/test-lofet.html" hreflang="sk" title="sk"></a>
<a class="flags uk" href="https://website.com/mercy.html" hreflang="uk" title="uk"></a>
</div>
</body>
</html>

Ami calmant, J.P

**Melcus** · 18/06/2021, 14h53

oui, dans mes dossiers, c'était bien <title>Voiture</title>.

Mais mon code était presque bon aussi. J'ai trop galéré avec ce code. Je sais que le problème vient de ces deux lignes. Est-ce que quelqu'un peut m'aider?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
parse_1 = re.search('<title>.+</title>', html, flags=re.DOTALL)[0]
                        en_html = re.sub('<meta name="Subject" content=".+"/>', parse_1, en_html, flags=re.DOTALL)

savez-vous comment corriger cette partie du code?

**jurassic pork** · 18/06/2021, 15h52

hello,
tu peux essayer un truc comme cela :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
 
import re
html_doc = """<html> 
<title>Voiture</title>
<meta name="Subject" content="MERCY"/>
<body>
 <div class="somers">
    <a href="https://website/amadonperrish.html" class="flags bg" hreflang="bg" title="bk"></a>
    <a href="https://website.com/test-lofet.html" class="flags sk" hreflang="sk" title="sk"></a>
    <a href="https://website.com/mercy.html" class="flags uk" hreflang="uk" title="uk"></a>
 </div>
 </body>
</html>
"""
title = re.search('<title>(.+)</title>', html_doc)
en_html = re.sub(r'content=".+"/', 'content="'+title.group(1) + '"/',html_doc, flags=re.DOTALL)
print(en_html)

Ami calmant, J.P

**Melcus** · 18/06/2021, 16h37

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
from bs4 import BeautifulSoup
import os
import re
path = r"c:\test\test\2"
for filename in os.listdir(path):
    if filename.endswith(".html"):
        fullpath = os.path.join(path, filename)
 
 
 
soup = BeautifulSoup(html_doc)
 
title = re.search('<title>(.+)</title>', html_doc)
en_html = re.sub(r'content=".+"/', 'content="'+title.group(1) + '"/',html_doc, flags=re.DOTALL)
print(en_html)

Je mets à jour ton code, mais j'ai une erreur

https://snipboard.io/b6Yz5a.jpg

**jurassic pork** · 18/06/2021, 16h57

Désolé mais moi je n'aide plus ! Les messages d'erreur sont assez explicites et le premier message d'erreur ne correspond pas au code que l'on voit.

Parsing line html

Python

Vue hybride

Discussions similaires

Partager

Partager