Précédent   Forum du club des développeurs et IT Pro > Autres langages > Perl > Web
Web Toutes vos questions sur la construction de pages web en Perl (CGI, Ajax, mod_perl, sessions, ...) Avant de poster, veuillez consulter les FAQs perl, les cours Perl et les sources Perl.
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse
 
Outils de la discussion
Publicité
'
Vieux 21/05/2012, 14h37   #1
Lalie78
Invité de passage
 
Inscription : juillet 2008
Messages : 23
Détails du profil
Informations forums :
Inscription : juillet 2008
Messages : 23
Points : 0
Points : 0
Par défaut recherche sur le net via perl

Bonjour tout le monde,

Je voudrais faire écrire un programme en perl qui recherche pour moi tout ce qui touche à un sujet précis (livres, articles, figurines, vidéos...) sur la toile francophone et anglophone. (C'est un robot, non ? )

J'aimerais que les résultats de la recherche arrivent dans un back office et je décide ou non si j'utilise tel ou tel résultat.

- Faut-il que je donne une liste de tous les sites sur lesquels je souhaite une veille ou bien la recherche peut se faire partout sur la toile?
- Une fois le programme écrit, comment puis-je l'incorporer à un blog, type wordpress?
- À votre avis, combien coûterait l'écriture de ce programme ?

Merci pour vos réponses,
Lalie
Lalie78 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 21/05/2012, 18h23   #2
ours_en_pluche
Nouveau Membre du Club
 
Homme sébastien
Inscription : janvier 2009
Messages : 47
Détails du profil
Informations personnelles :
Nom : Homme sébastien
Localisation : France

Informations forums :
Inscription : janvier 2009
Messages : 47
Points : 37
Points : 37
Par défaut re

en fait,

si j'ai bien compris :

Sur X sites, le programme devrait afficher les resultats de X recherches ou seulement les nouveautés ( genre bot de flux RSS ).

par exemple, tu aimes les textes de blabla.fr, alors des que blabla.fr affiche un nouveau texte, tu ai prevenu.

ou par exemple, tu as une boite de dialogue qui s affiche avec la possibilité d'effectuer une recherche sur des sites precis et les X premieres reponses de chaque site est affiché ?
ours_en_pluche est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 21/05/2012, 19h01   #3
Lalie78
Invité de passage
 
Inscription : juillet 2008
Messages : 23
Détails du profil
Informations forums :
Inscription : juillet 2008
Messages : 23
Points : 0
Points : 0
Citation:
Envoyé par ours_en_pluche Voir le message
en fait,

si j'ai bien compris :

Sur X sites, le programme devrait afficher les resultats de X recherches ou seulement les nouveautés ( genre bot de flux RSS ).

par exemple, tu aimes les textes de blabla.fr, alors des que blabla.fr affiche un nouveau texte, tu ai prevenu.

ou par exemple, tu as une boite de dialogue qui s affiche avec la possibilité d'effectuer une recherche sur des sites precis et les X premieres reponses de chaque site est affiché ?
Pas tout à fait.

Par exemple, (j'invente hein), j'aime l'acteur Clark Gable. Et bien, je voudrais un programme qui recherche sur internet (sur les sites français et anglais) tout ce touche à Clark Gable (articles, vidéos, objets mis en vente sur ebay, vidéos, ...). Par exemple, le site 1 a écrit un article sur lui ou un de ses films, mon programme le trouve et me l'affiche dans le back office. Ensuite je décide si je poste l'article sur mon blog ou non. Par exemple, un vendeur lambda met en vente un poster vintage de Clark Gable, mon programme le trouve et me le dit.

J'ai quelques sites précis sur lesquels faire des recherches mais j'aimerais que le programme recherche sur tout internet.

Par exemple, dès que le nom "Clark Gable" s'affiche dans un site, un blog, ..., mon programme le trouve.

Je suis plus claire ?
Lalie78 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 21/05/2012, 19h19   #4
ours_en_pluche
Nouveau Membre du Club
 
Homme sébastien
Inscription : janvier 2009
Messages : 47
Détails du profil
Informations personnelles :
Nom : Homme sébastien
Localisation : France

Informations forums :
Inscription : janvier 2009
Messages : 47
Points : 37
Points : 37
Par défaut re

re,

oui sans soucis

alors, question : quel os ? ( windows, linux, mac , ... )
ensuite, tu voudrais qu'il aille te chercher les informations et te les affiche dans la partie admin de wordpress ou alors qu il te les affiche sur ton pc, avec par exemple :

-le site blabla a mis en ligne un nouveau "truc" ( comprendre : texte, edito, vidéo ) sur "Robert Ludlum" suivi du lien du poste.

ensuite, ton site wordpress est hebergé sur un hebergeur lambda ou sur une machine sur laquelle tu as les pleins pouvoir ?

car cela peut prendre differentes formes :

-sous wordpress et systeme formaté wordpress donc necessite d'avoir les CGI:erl d autorisé.
-sur une page de type RSS ( te permet via un agreagateur d avoir acces directement depuis ton propre PC ( cela t evite d aller verifier toi meme si qqchose a été publié dans le plug-ins wordress ) donc necessite d'avoir les CGI:erl d autorisé.
---attention, ses 2 choix la oblige a avoir un acces a un systeme de cron sur le serveur web si tu souhaites que ce soit automatisé entierement
-via ton pc, auquel cas, tu lances un programme qui ira verifier la possibilité d update et t affichera dans une boite de dialogue si oui ou non, il y a des posts et sur quel sujet, avec l'enregistrement dans un fichier des posts avec un lien.

voici dans un premier jet ce qui me vient a l esprit,

n hesite pas a poser des questions si tu as un doute sur une de ses propositions.
si tu ne sais pas ce que tu as acces, envoi moi en mp l hebergeur et/ou le lien de ton blog que je puisse faire moi meme les vérifications.

cordialement
ours_en_pluche est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 21/05/2012, 19h47   #5
Lalie78
Invité de passage
 
Inscription : juillet 2008
Messages : 23
Détails du profil
Informations forums :
Inscription : juillet 2008
Messages : 23
Points : 0
Points : 0
Citation:
Envoyé par ours_en_pluche Voir le message
re,

oui sans soucis

alors, question : quel os ? ( windows, linux, mac , ... )
ensuite, tu voudrais qu'il aille te chercher les informations et te les affiche dans la partie admin de wordpress ou alors qu il te les affiche sur ton pc, avec par exemple :

-le site blabla a mis en ligne un nouveau "truc" ( comprendre : texte, edito, vidéo ) sur "Robert Ludlum" suivi du lien du poste.

ensuite, ton site wordpress est hebergé sur un hebergeur lambda ou sur une machine sur laquelle tu as les pleins pouvoir ?

car cela peut prendre differentes formes :

-sous wordpress et systeme formaté wordpress donc necessite d'avoir les CGI:erl d autorisé.
-sur une page de type RSS ( te permet via un agreagateur d avoir acces directement depuis ton propre PC ( cela t evite d aller verifier toi meme si qqchose a été publié dans le plug-ins wordress ) donc necessite d'avoir les CGI:erl d autorisé.
---attention, ses 2 choix la oblige a avoir un acces a un systeme de cron sur le serveur web si tu souhaites que ce soit automatisé entierement
-via ton pc, auquel cas, tu lances un programme qui ira verifier la possibilité d update et t affichera dans une boite de dialogue si oui ou non, il y a des posts et sur quel sujet, avec l'enregistrement dans un fichier des posts avec un lien.

voici dans un premier jet ce qui me vient a l esprit,

n hesite pas a poser des questions si tu as un doute sur une de ses propositions.
si tu ne sais pas ce que tu as acces, envoi moi en mp l hebergeur et/ou le lien de ton blog que je puisse faire moi meme les vérifications.

cordialement
Merci Ours_en_peluche pour ta réponse.

--> OS = Windows

--> Mon site est hébergé chez OVH. J'ai pris l'hébergement perso pour commencer.
Je n'ai pas encore installé wordpress, ce sera fait dans la semaine.

--> sur admin de wordpress ou sur mon pc, qu'est-ce qui est mieux niveau sécurité ? Sur le pc, genre fil rss, ce serait bien mais si trop compliqué le système avec l'update.

C'est quoi un système de cron ?
Aucune idée si j'ai accès/autorisation au CGI:erl

Est-ce que le programme pourrait être adaptable ? Je m'explique, aujourd'hui je recherche tout sur Clark Gable, donc en mot-clef de recherche je mets Clark Gable. Mais demain, je voudrai peut-être chercher sur Vivian Leigh ou le lapin de Garenne. Y a-t-il moyen d'avoir un programme dans lequel je peux moi-même modifier le/les mots-clefs ou en ajouter?

Pour l'instant, je ne souhaite pas donner le nom de mon site. Donc, partons sur Clark Gable. S'il faut vraiment un site, j'en ai un qui parle de régime, sous wordpress et aussi chez ovh perso.

Quand tu dis "oui, sans soucis", ça veut dire que c'est facile à écrire ce programme ?
Lalie78 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 21/05/2012, 20h00   #6
ours_en_pluche
Nouveau Membre du Club
 
Homme sébastien
Inscription : janvier 2009
Messages : 47
Détails du profil
Informations personnelles :
Nom : Homme sébastien
Localisation : France

Informations forums :
Inscription : janvier 2009
Messages : 47
Points : 37
Points : 37
Par défaut re

re,

en fait, un systeme de recherche sur le web evolutif, depend principalement des sites recherchés.

par exemple, une recherche sur truc.com, n'aura pas le meme format de réponse que blabla.com.

hors si le systeme d'évolution requiert :
--changement de termes recherchés ( par exemple, passer de sir arthur conan doyle a tom clancy ), mais que la recherche a lieu sur les memes sites, alors sans soucis.
--changement de termes recherchés mais aussi changement de sites, alors ce sera plus difficile, car il faut adapter le filtrage.

ensuite certains sites voient d'un tres mauvais oeil ce type de recherche.

si mes recherches sont bonnes ( http://www.ovh.com/fr/hebergement_mu..._technique.xml ) alors le CGI:erl est autorisé.

les crons, sont pour faire court, l'automatisation de taches, par exemple : toutes les heures, lancer un programme.

apres, pour la facilité, tout depend des sites, s ils ont des API, s'ils autorisent facilement les recherches, ...

cordialement
ours_en_pluche est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 21/05/2012, 20h22   #7
Lalie78
Invité de passage
 
Inscription : juillet 2008
Messages : 23
Détails du profil
Informations forums :
Inscription : juillet 2008
Messages : 23
Points : 0
Points : 0
Citation:
Envoyé par ours_en_pluche Voir le message
hors si le systeme d'évolution requiert :
--changement de termes recherchés ( par exemple, passer de sir arthur conan doyle a tom clancy ), mais que la recherche a lieu sur les memes sites, alors sans soucis.
--changement de termes recherchés mais aussi changement de sites, alors ce sera plus difficile, car il faut adapter le filtrage.
Donc, si j'ai bien compris. Je dois absolument donner une liste de sites webs sur lesquels faire les recherches ?
Il ne peut pas faire une recherche type google ?
Par exemple, pour Clark Gable. Je connais imdb.com ou allocine.fr. Mais peut-être existe-t-il (j'invente) lecinema.fr que je ne connais pas et qui mériterait qu'on fasse une veille sur lui. Le programme ne peut pas le trouver ?
Et si le programme est écrit et installé et que je trouve le site lecinema.fr, ce sera difficile de l'ajouter au programme ?

Citation:
Envoyé par ours_en_pluche Voir le message
ensuite certains sites voient d'un tres mauvais oeil ce type de recherche.
Pouquoi ?
C'est juste pour pouvoir centraliser l'information sur un sujet.

Citation:
Envoyé par ours_en_pluche Voir le message
si mes recherches sont bonnes ( http://www.ovh.com/fr/hebergement_mu..._technique.xml ) alors le CGI:erl est autorisé.
oui, c'est cet hébergement que j'ai.

Citation:
Envoyé par ours_en_pluche Voir le message
apres, pour la facilité, tout depend des sites, s ils ont des API, s'ils autorisent facilement les recherches, ...
C'est quoi des API ?
Donc, retour à ma première question: je dois fournir une liste de sites web sur lesquels faire les recherches pour pouvoir adapter le programme à chaque site ?


Donc, si j'ai bien compris. Je ne pourrais pas par exemple prendre le programme écrit pour faire des recherches sur Clark Gable sur mon site 1 et le mettre sur mon site 2 pour faire des recherches sur le lapin de garenne en changeant simplement les mots-clefs et les sites sur lesquels rechercher ?

Donc, j'aurai des programmes perl différents (un programme pour chacune de mes recherches, clark gable site 1, lapin de garenne site 2, tombouctou site 3, etc) et autant de flux rss avec les résultats que j'ai de programmes.
Lalie78 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 21/05/2012, 21h23   #8
ours_en_pluche
Nouveau Membre du Club
 
Homme sébastien
Inscription : janvier 2009
Messages : 47
Détails du profil
Informations personnelles :
Nom : Homme sébastien
Localisation : France

Informations forums :
Inscription : janvier 2009
Messages : 47
Points : 37
Points : 37
Citation:
Envoyé par Lalie78 Voir le message
Donc, si j'ai bien compris. Je dois absolument donner une liste de sites webs sur lesquels faire les recherches ?
Il ne peut pas faire une recherche type google ?
Par exemple, pour Clark Gable. Je connais imdb.com ou allocine.fr. Mais peut-être existe-t-il (j'invente) lecinema.fr que je ne connais pas et qui mériterait qu'on fasse une veille sur lui. Le programme ne peut pas le trouver ?
Et si le programme est écrit et installé et que je trouve le site lecinema.fr, ce sera difficile de l'ajouter au programme ?
ce type de recherche est possible sur google, apres concernant la difficulté, cela depend du site.
maintenant, vouloir faire un systeme qui tout seul va centraliser et ajouter automatiquement de nouveau site, cela existe deja, cela s'appelle un moteur de recherche :p

Citation:
Envoyé par Lalie78 Voir le message
Pouquoi ?
C'est juste pour pouvoir centraliser l'information sur un sujet.
car tout le monde voit d'un pauvais regard le plagia entre autre, certains programmes ne faisant qu'aspirer les sites pour les "recopier".

Citation:
Envoyé par Lalie78 Voir le message
C'est quoi des API ?
les API sont des pages qui permettent d'acceder plus facilement a certaines choses, par exemple une API dictionnaire te permettra d obtenir par une requete assez facile la définition d'un mot

Citation:
Envoyé par Lalie78 Voir le message
Donc, retour à ma première question: je dois fournir une liste de sites web sur lesquels faire les recherches pour pouvoir adapter le programme à chaque site ?
oui


Citation:
Envoyé par Lalie78 Voir le message
Donc, si j'ai bien compris. Je ne pourrais pas par exemple prendre le programme écrit pour faire des recherches sur Clark Gable sur mon site 1 et le mettre sur mon site 2 pour faire des recherches sur le lapin de garenne en changeant simplement les mots-clefs et les sites sur lesquels rechercher ?

Donc, j'aurai des programmes perl différents (un programme pour chacune de mes recherches, clark gable site 1, lapin de garenne site 2, tombouctou site 3, etc) et autant de flux rss avec les résultats que j'ai de programmes.
oui, meme si la base du programme restera identique, ( a moins de voir large et que les codes sources des sites le permettent ).

a moins de faire une recherche de type google, et de n afficher que ce qui n a jamais été publié ( auquel cas, tu dependras de la facon dont google affiche les sites ( pas toujours la meilleure source en premier ) ).

cordialement
ours_en_pluche est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 22/05/2012, 11h21   #9
Lalie78
Invité de passage
 
Inscription : juillet 2008
Messages : 23
Détails du profil
Informations forums :
Inscription : juillet 2008
Messages : 23
Points : 0
Points : 0
Merci OUrs en peluche d'avoir eu la patience de me répondre.

Je vois déjà beaucoup plus clair mon projet.
À ton avis, combien couterait l'écriture d'un tel programme ?

Merci
Lalie
Lalie78 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 22/05/2012, 19h42   #10
ours_en_pluche
Nouveau Membre du Club
 
Homme sébastien
Inscription : janvier 2009
Messages : 47
Détails du profil
Informations personnelles :
Nom : Homme sébastien
Localisation : France

Informations forums :
Inscription : janvier 2009
Messages : 47
Points : 37
Points : 37
Par défaut re

re,

de rien, apres, si tu as d'autres questions, n'hesites pas.

euh, aucune idée de cout.
je ne sais meme pas comment cela pourrait se facturé, j'apprend la programmation sur le tas lol, ce n'est pas mon métier ( ca se voit d'ailleurs :p combien de fois djibril m'a "ronchonné" dessus dans des threads car je fait peu proprement les choses lol ) :p

cordialement

ours
ours_en_pluche est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse
Outils de la discussion

Navigation rapide


Fuseau horaire GMT +2. Il est actuellement 02h43.


 
 
 
 
Partenaires

Hébergement Web