data.replace('\t',' ').replace('\n','').replace('\r','').replace('"','""')
remplace chaque caractère de tabulation ’\t’ par un blanc ’ ’,
fait disparaître tous les caractères ’\n’ et ’\r’ (ça va donner un drôle de résultat !!
)
et remplace chaque caractère ’“’ par deux: ’”“’ (je ne vois pas dans quel but)
data se retrouve donc composée uniquement de caractères différents de ’\t’ ’\r’ et ’\n’ + des blancs
Lancée là dessus, re_multiplespaces.sub() trouve tous les ’\f’ et les ’\v’ (peu) et les blancs (beaucoup), et les remplace... par des blancs !
Tarabiscoté.
N e faut-il pas commencer par corriger ceci ?
D’autre part, n’est-il pas dommage de se lancer dans la rédaction d’un code avec un module sgmllib et une classe SGMLParser qi sont dépréciés depuis 2.6 et ont disparu de 3.x ?
ll doit bien y avoir une raison à cela.
De plus, je ne vois pas quel intérêt il y a à passer par une instance de classe plutôt que par une fonction pou traiter le document HTML.
Partager