Bonjour ;
Je suis entrain de purifier une page web de toutes les balise html, et aussi les script, pour les balise html c'est déja fait pour les scrit j'arrive pas a les enlever, je souhaite enlever tout le contenu qui existe entre une balise " <script> contenu </script> " voici mon bout de code, comment je peux lui dire d'enlever tout le contenu des script merci

Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
 
# -*- coding: cp1252 -*-
import nltk
import re
import urllib2
from urllib2 import urlopen
 
import cookielib
from cookielib import CookieJar
import time
 
print "khadi"
 
cj=CookieJar()
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders=[('User-agent','Mozilla/5.0')]
f = open("C:\\Users\\khadi\\Desktop\\corpus\\sport.txt", "rU").read();
 
 
tab = f.split("\n")
 
 
di = nltk.FreqDist()
#nbr = 0;
tablien = []
for line in tab:
    #if line.startswith("http"):
        lien = line
        print line
 
        sourceCode=opener.open(line).read()
 
        fichier1 = open ("sprt.txt", "w")
        texte = re.sub("é","e",sourceCode)
        texte = re.sub("&eacute;","e",sourceCode)
        texte = re.sub("&egrave;","e",sourceCode)
        texte = re.sub("&ecirc;","e",sourceCode)
        texte = re.sub("&icirc;","i",sourceCode)
        texte = re.sub("&agrave","a",sourceCode)
        texte = re.sub("&acirc","a",sourceCode)
        texte = re.sub("ocirc;","o",sourceCode)
        texte = re.sub("&nbsp;"," ",sourceCode)
        texte = re.sub("&quot;","'",sourceCode)
 
 
      #  texte = re.sub("<Script.*?</Script>"," ",sourceCode)
        texte = re.sub("<.*?>","",sourceCode)
        #texte = re.sub("^function(.*?){|$}","",sourceCode)
 
        fichier1.write(texte)
        print texte