1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
|
#!/usr/bin/perl
$I = 1;
my $texteLine,$sourcesLine,$timestampLine,$urlsLine;
open(FICHIER1,"va.titles.txt") || die ("Erreur d'ouverture fichier titles") ;
open(FICHIER2,"va.sources.txt") || die ("Erreur d'ouverture fichier sources") ;
open(FICHIER3,"va.timestamp.txt") || die ("Erreur d'ouverture fichier timestamp") ;
open(FICHIER4,"va.urls.txt") || die ("Erreur d'ouverture fichier urls") ;
open(FICHIER,">resultat.txt") || die ("Erreur de creation fichier result");
print("<?xml version=\"1.0\" encoding=\"UTF8\" ?>
<!DOCTYPE NEWS SYSTEM \"NEWS.dtd\" [] >
<!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.0 Transitional//EN\">");
while ((<$texteLine=<FICHIER1>)&&(<$sourceLine=<FICHIER2>)&&(<$timestampLine=<FICHIER3>)&&(<$urlLine=<FICHIER4>))
{
print "<ID>$I</ID>";
print FICHIER "<TITRE>$texteLine</TITRE>";
print FICHIER "<Source>$sourceLine</Source>";
print FICHIER "<Timesstamp>$timestampLine</Timesstamp>";
print FICHIER "<URL>$urlLine</URL>";
print FICHIER "<TEXTE>";
system("lynx -dump /home/chak/doc_ang/10/10/$I.html | egrep -v '^[ \t]*\[' | egrep -v '^[ \t]*[0-9]+[.]' >> resultat.txt");
print FICHIER "</TEXTE>";
$I++;
}
close(FICHIER1);
close(FICHIER2);
close(FICHIER3);
close(FICHIER4);
close(FICHIER); |
Partager