IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage PHP Discussion :

advanced parsing ?


Sujet :

Langage PHP

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Homme Profil pro
    Commercial
    Inscrit en
    Novembre 2010
    Messages
    44
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Nord (Nord Pas de Calais)

    Informations professionnelles :
    Activité : Commercial
    Secteur : Service public

    Informations forums :
    Inscription : Novembre 2010
    Messages : 44
    Par défaut advanced parsing ?
    Bonjour à tous,

    J'espère ne pas me tromper dans la section à défaut oups !

    Je suis complètement novice dans l'écriture en Php et j'ai besoin de votre aide afin de réaliser un outil "marketing".

    Je m'explique, régulièrement je vais sur le un site d'identification de société grâce à leur numéro de siren afin de récupérer leur NAF, Chiffre d'affaire et d'autres éléments...

    Mon fichier initial est sous xls (il provient d'une BDD access) et contient l'ensemble des Numéro de siren à aller chercher. (parfois jusqu'à 1000..)

    Ensuite je vais sur ce fameux site et je me suis aperçu que le lien peut être requêter de la façon suivante :

    Lien initial : http://www.site.com/societe/sarl-hainault-emballage-logistique-service-500942453.html

    peut être remplacé par :

    http://www.site.com/societe/*-"numéro Siren".html ou http://www.site.com/societe/*-000000001.html

    Résultat comment dois-je m'y prendre pour :

    1: Aller récupérer les données de mon fichier xls ou csv (je crois que c'est plus simple en csv) et les injecter sur le site en question en prenant le lien ci-dessus.

    2: Récupérer (parser je crois) les éléments de la page complète sous forme d'un tableau et stockage dans un fichier

    3: créer une boucle pour que cette requête aille relancer pour chaque ligne du fichier xls (ou chaque nouveau SIREN) le programme du début et me sorte un fichier final avec mes éléments.

    En gros je crois que j'ai cerné comment faire fonctionner le script mais je ne sais pas trop de quel façon le rédiger... mon défaut et d'écrire un prog comme je pense ce qui n'est pas toujours compatible....

    Je ne cherche pas à ce que l'on m'écrive le script mais plutôt à ce que l'on m'aide sur le choix des fonctions à utiliser (eregi ou autre), et que l'on m'aiguille que la façon de s'y prendre afin d'arriver à mon résultat.

    Un grand merci pour votre aide.

    PS: j'ai bien utiliser la fonction recherche mais je n'arrive pas à "compiler" l'ensemble des infos pour obtenir un script opérationnel.

    PS2: Ou alors je créer une formule sous excel pour créer les lignes des urls et je n'ai plus qu'à lui faire ouvrir l'ensemble des liens et parser chaque page?

  2. #2
    Expert confirmé

    Profil pro
    Inscrit en
    Septembre 2010
    Messages
    7 920
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2010
    Messages : 7 920
    Par défaut
    regarde si le site propose un API pour le faire, sinon tu dois leur demandé une autorisation pour pouvoir récupérer leur contenu, + déclarer tout ça la CNIL

  3. #3
    Membre Expert
    Avatar de skeud
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Juin 2011
    Messages
    1 091
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2011
    Messages : 1 091
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par stealth35 Voir le message
    regarde si le site propose un API pour le faire, sinon tu dois leur demandé une autorisation pour pouvoir récupérer leur contenu, + déclarer tout ça la CNIL
    Ou alors faire ça de manière completement pirate

    Pour une utilisation personnelle je suis pas sur que tu doive demander a la cnil du moment que c'est des donnée accessible de manière publique.

  4. #4
    Membre averti
    Homme Profil pro
    Commercial
    Inscrit en
    Novembre 2010
    Messages
    44
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Nord (Nord Pas de Calais)

    Informations professionnelles :
    Activité : Commercial
    Secteur : Service public

    Informations forums :
    Inscription : Novembre 2010
    Messages : 44
    Par défaut
    effectivement c'est bien un site public je ne le cite pas mais leur fond de commerce est justement de mettre à dispo ces infos gratuitement.

  5. #5
    Membre Expert
    Avatar de gene69
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    1 769
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : Janvier 2006
    Messages : 1 769
    Par défaut
    Citation Envoyé par DkA59 Voir le message
    effectivement c'est bien un site public je ne le cite pas mais leur fond de commerce est justement de mettre à dispo ces infos gratuitement.
    négatif! Meme diffusée gratuitement sur le web, le droit d'auteur appliqué aux bases de données est extrêmement protecteur (en france). En plus "fond de commerce" sous entend qu'ils en retirent de l'argent... via de la pub, si tu dupliques leurs données > moins de visites > moins de revenus publicitaire > préjudice >procès > indemnisation.

    Je suis sur qu'il y a des jurisprudences sur le sujet et l'usage que tu vas faire de la base de donnée du site tier n'est pas forcement du fair use (si tu utilises des infos d'un site pour faire concurrence à celui-ci c'est déloyal), ou peut-être tout simplement explicitement prohibé par les conditions d'utilisation du site. Demande une autorisation, tu te couvriras. Et si on te refuse l'autorisation, tu sais que tu viens d'eviter un procès..

    apres... pas vu pas pris. mais un aspirateur de site ne passe jamais inaperçu dans les logs d'un serveur web.

    La cnil ça s'applique uniquement aux info personnelle, donc à part pour les entreprises individuelles... j'ai pas trop de soucis. Pareil ici...

    http://www.feral-avocats.com/fr/nos-...20071/374.html

    techniquement ...
    si tu es à l'aise en POO regarde phpexcel. c'est le top pour gerer les fichiers excel. Si tu es débutant ou peu à l'aise avec php oublie.
    cURL si c'est supporté par ton hébergeur.

  6. #6
    Membre averti
    Homme Profil pro
    Commercial
    Inscrit en
    Novembre 2010
    Messages
    44
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Nord (Nord Pas de Calais)

    Informations professionnelles :
    Activité : Commercial
    Secteur : Service public

    Informations forums :
    Inscription : Novembre 2010
    Messages : 44
    Par défaut
    c'est super intéressant comme discussion mais cela ne m'aide pas beaucoup ^^

    de toute façon je ne compte pas leur faire de concurrence je ne suis pas sur le même secteur d'activité pour ne pas dire à des années lumières, et les infos sont sur le domaine public. Juste je veux éviter de retaper chaque adresse à chaque fois.

    humm m'enfin merci quand même pour votre aide.

Discussions similaires

  1. Probleme de parsing de chaine, tronquer une chaine
    Par Voodo'o_d'ool dans le forum MS SQL Server
    Réponses: 4
    Dernier message: 06/08/2008, 12h28
  2. Parsing et caractères spéciaux
    Par Shogun dans le forum XML/XSL et SOAP
    Réponses: 2
    Dernier message: 29/10/2004, 18h43
  3. Réponses: 14
    Dernier message: 25/10/2004, 22h33
  4. conversion String en Date (parse trop permissif)
    Par ciloulou dans le forum Collection et Stream
    Réponses: 2
    Dernier message: 13/09/2004, 19h36
  5. [XML] Améliorer le parsing
    Par GLDavid dans le forum Modules
    Réponses: 3
    Dernier message: 19/07/2004, 17h46

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo