IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage PHP Discussion :

[Système] Fonction strip_tags et récupération du texte de ses pages html


Sujet :

Langage PHP

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre Expert
    Avatar de Aspic
    Homme Profil pro
    Étudiant
    Inscrit en
    Août 2005
    Messages
    3 905
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : High Tech - Électronique et micro-électronique

    Informations forums :
    Inscription : Août 2005
    Messages : 3 905
    Par défaut [Système] Fonction strip_tags et récupération du texte de ses pages html
    Bonjour à tous,

    Je souhaite créer un moteur de recherche interne à mon site et donc je dois récupérer le contenu texte de mes pages Html.

    J'utilise donc la fonction strip_tags pour supprimer tout le HTML et le PHP. Cool

    Probleme Avec cette fonction, il me supprime aussi tout le texte ==> resultat, ma chaine retourne ""

    J'ai donc essayé de trouver une autre fonction similaire :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
     $tout = ereg_replace("<[^>]*>", "", $tout);
    mais il reste encore le code JabaScript et PHP a supprimer...

    Avec cette commande :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    	$tout = ereg_replace("<script[^>]*>(.|\n)*</script>(\r\n)?", "", $tout);
    ca ne marche pas, le code Javascript est toujours la

    Avez vous une solution pour récupérer uniquement le texte de toute mes pages ?

    Merci de votre soutient
    Qui ne tente rien n'a rien !
    Ce qui ne nous tue pas nous rends plus fort !!
    Mon projet ZELDA en C++/Allegro
    http://www.tutoworld.com - Le Forum -
    Mes ressources Dotnet (cours, sources, tutos)
    --------------------------------------------
    + + =

    Ne pas oublier le Tag !

  2. #2
    Membre chevronné
    Inscrit en
    Septembre 2006
    Messages
    685
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 685
    Par défaut
    J'ai testé ton code, et chez moi, il fonctionne bien

    Sinon, essaie avec preg_split()
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    $tout = preg_split('#<script[^>]*>(.*)</script>#Usi', $tout);
     
    echo implode('', $tout);

  3. #3
    Membre Expert
    Avatar de Aspic
    Homme Profil pro
    Étudiant
    Inscrit en
    Août 2005
    Messages
    3 905
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : High Tech - Électronique et micro-électronique

    Informations forums :
    Inscription : Août 2005
    Messages : 3 905
    Par défaut
    Salut oui mon code marchait, j'avais mis dans le mauvais ordre les commandes...

    Mais maintenant je rencontre un autre probleme logique , en fait il indexe les menus de mon site (ce sont des liens hypertextes présents sur toutes les pages) et donc il suffit que je tape "informatique" par exemple et il me trouve 112 résultats !! (et pour info, j'ai 112 pages dans mon site).

    Donc je me casse la tete a essayer de virer les liens de mes menus lors de l'indexation mais sans resultat.

    Voila mon nouveau probleme

    EDIT : J'ai une idée mais je ne sias pas si c'est faisable. J'utilise DreamWeaver et donc chaque contenu qui doit etre indexé se trouve entre les balises :

    <!-- InstanceBeginEditable name="Principale" -->
    contenu ici.....
    ....
    blabla...
    <!-- InstanceEndEditable -->
    Est-il possible de récupérer le code entre ces deux balises ? Ensuite reste plus qu'a virer le Html avec les Regex et le tour est joué
    Qui ne tente rien n'a rien !
    Ce qui ne nous tue pas nous rends plus fort !!
    Mon projet ZELDA en C++/Allegro
    http://www.tutoworld.com - Le Forum -
    Mes ressources Dotnet (cours, sources, tutos)
    --------------------------------------------
    + + =

    Ne pas oublier le Tag !

  4. #4
    Membre chevronné
    Inscrit en
    Septembre 2006
    Messages
    685
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 685
    Par défaut
    J'ai pas vraiment bien compris ton système d'indexage.

    Sinon, pour récupérer les contenus de ces délimiteurs, ça devrait faire simplement
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    $reg_macth_all('#<!-- InstanceBeginEditable name="Principale" -->(.+)<!-- InstanceEndEditable -->#Us', $tout, $sortie);
     
    print_r($sortie[1]);

  5. #5
    Membre Expert
    Avatar de Aspic
    Homme Profil pro
    Étudiant
    Inscrit en
    Août 2005
    Messages
    3 905
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : High Tech - Électronique et micro-électronique

    Informations forums :
    Inscription : Août 2005
    Messages : 3 905
    Par défaut
    Merci c'est bon j'ai reussi à récupérer le contenu de mes pages !

    PS : Si tu connais des scripts de moteur de recherche interne pratique avec indexation automatique des pages web de ton site, dis le moi car le mien que j'ai bien bidouillé est un peu lent

    Sujet partiellement résolu
    Qui ne tente rien n'a rien !
    Ce qui ne nous tue pas nous rends plus fort !!
    Mon projet ZELDA en C++/Allegro
    http://www.tutoworld.com - Le Forum -
    Mes ressources Dotnet (cours, sources, tutos)
    --------------------------------------------
    + + =

    Ne pas oublier le Tag !

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. VB6: Récupération des meta d'une page HTML avec HTMLDocument
    Par Matounet dans le forum VB 6 et antérieur
    Réponses: 10
    Dernier message: 22/09/2011, 07h55
  2. Extraction de texte dans une page HTML
    Par ninox_ dans le forum Général JavaScript
    Réponses: 3
    Dernier message: 02/05/2007, 17h29
  3. Récupérer du texte dans une page HTML
    Par iks22 dans le forum Général JavaScript
    Réponses: 8
    Dernier message: 31/12/2006, 09h10
  4. Taille fixe du texte dans une page HTML
    Par The snail dans le forum Mise en page CSS
    Réponses: 8
    Dernier message: 17/10/2006, 21h37
  5. Editeur de texte intégrer à une page HTML
    Par planting dans le forum Général JavaScript
    Réponses: 1
    Dernier message: 21/12/2005, 11h03

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo