IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Algorithmes et structures de données Discussion :

analyse balise HTML


Sujet :

Algorithmes et structures de données

  1. #1
    Membre habitué
    Inscrit en
    Février 2008
    Messages
    11
    Détails du profil
    Informations forums :
    Inscription : Février 2008
    Messages : 11
    Par défaut analyse balise HTML
    je suis un peu bloque sur la realisation d'un code .

    Voila l'idee :

    l'idee est que je voudras pouvoir effacer ce qui se trouve entre l'ouverture d'une balise et la fermeture de cette meme balise:
    Ex:

    bienvenue<TITLE>dans</TITLE>le monde

    le resultat de mon code devrait me donner : bienvenue le monde.

    Ce qui veut dire que le code devrait etre capable de suprimer tout ce qui ce trouve entre des balise ouvrant et des balise fermante.

    Si quelqu'un a une idee, car la je seche un peu.
    Merci

  2. #2
    Expert éminent
    Avatar de Emmanuel Delahaye
    Profil pro
    Retraité
    Inscrit en
    Décembre 2003
    Messages
    14 512
    Détails du profil
    Informations personnelles :
    Âge : 68
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Décembre 2003
    Messages : 14 512
    Par défaut
    Citation Envoyé par ostie127 Voir le message
    je suis un peu bloque sur la realisation d'un code .
    Tu en es à la conception et non au codage. C'est donc un problème d'algorithme (par exemple, machine à état) et non de langage.

    Discussion déplacée.

  3. #3
    Membre prolifique
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 840
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 840
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par ostie127 Voir le message
    je suis un peu bloque sur la realisation d'un code .

    Voila l'idee :

    l'idee est que je voudras pouvoir effacer ce qui se trouve entre l'ouverture d'une balise et la fermeture de cette meme balise:
    Ex:

    bienvenue<TITLE>dans</TITLE>le monde

    le resultat de mon code devrait me donner : bienvenue le monde.

    Ce qui veut dire que le code devrait etre capable de suprimer tout ce qui ce trouve entre des balise ouvrant et des balise fermante.

    Si quelqu'un a une idee, car la je seche un peu.
    Merci
    J'ai rapidement cherché s'il existait une librairie d'analyse HTML (comme la libxml permet d'analyser du XML) mais j'ai pas trouvé.

    Le problème, c'est aussi de dire comment se comportera ton pgm s'il tombe sur le code suivant
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    <P align="justify>Cette pénombre qui m'attire comme un <u>aimant</u> me <b>désarçonne</b> et me laisse <font color="red"><i>sanglotant</i></font> et effaré devant tant ...</P>
    Vas-tu supprimer tout ce qu'il y a entre <P> et </P> ou descendre aussi au niveau de <u> et </u> ou <b> et </b> ou <font> et </font>. Et dans ce dernier cas, vas-tu encore aller voir ce qu'il y a entre <i> et </i> ???
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  4. #4
    Membre habitué
    Inscrit en
    Février 2008
    Messages
    11
    Détails du profil
    Informations forums :
    Inscription : Février 2008
    Messages : 11
    Par défaut
    Oui je dois tout supprimer.
    Pas juste ce qui se trouve dans la baslise TITLE mais aussi les autres balises.
    comme les balise P ou U etc.

  5. #5
    Membre habitué
    Inscrit en
    Février 2008
    Messages
    11
    Détails du profil
    Informations forums :
    Inscription : Février 2008
    Messages : 11
    Par défaut
    En faite pour etre un peu plus claire avec mon sujet, je lis un ficher HTML en entre sur ma ligne de commande de cette manier :

    Analyse.c(mon executable C)< fichier.html (le fichier html) > text (le fichier de retour (sans balise juste avec le texte)).

    le fichier html est lu par mon code C a l'aide de la fonction getchar().
    A partir de la je dois supprimer tout ce qui se trouve entre des balise ouvrante comme celle du <TITLE></TITLE> ou BIEN <P></P> etc, je ne dois garder que le texte qui ne se trouve pas entre balise.
    Et cela est un vrai casse tete.
    En tout cas si vous avez quelque chose a me proposer je prends.
    Merci de vos aide.

  6. #6
    Rédacteur
    Avatar de pseudocode
    Homme Profil pro
    Architecte système
    Inscrit en
    Décembre 2006
    Messages
    10 062
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 52
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Architecte système
    Secteur : Industrie

    Informations forums :
    Inscription : Décembre 2006
    Messages : 10 062
    Par défaut
    Citation Envoyé par ostie127 Voir le message
    A partir de la je dois supprimer tout ce qui se trouve entre des balise ouvrante comme celle du <TITLE></TITLE> ou BIEN <P></P> etc, je ne dois garder que le texte qui ne se trouve pas entre balise.
    L'algo "de base" n'est pas très compliqué mais, à la manière dont tu décris ton problème, il ne restera plus grand chose a afficher. Vu que le texte dans un fichier HTML est forcément encapsulé dans au moins 1 ou 2 balises (<HTML>,<BODY>,...), il ne restera plus rien.
    ALGORITHME (n.m.): Méthode complexe de résolution d'un problème simple.

  7. #7
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Par défaut
    Bonjour,

    je rejoins ce que dis PseudoCode.
    Mais si tu souhaites vraiment supprimer ce qu'il y a entre certaines balises, il est facile de faire un petit analyseur lexical et syntaxique.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  8. #8
    alex_pi
    Invité(e)
    Par défaut
    Pour apporter mon caillou à l'édiffice :
    1. Je suis parfaitement d'accord avec pseudocode, la fonction qui retourne la chaine vide devrait faire l'affaire ;-)
    2. Si tu veux traiter uniquement certaines balises, attention, la norme HTML n'impose pas nécessairement que les balises soient fermées (beurk), ce qui fait que tu peux avoir des choses comme
      Code : Sélectionner tout - Visualiser dans une fenêtre à part
      1
      2
      3
       
      <P>Un premier paragraphe palpitant
      <P>Un second paragraphe non moins intéressant
      l'ouverture du second paragraphe fermant implicitement le premier.


    Have fun :-)

  9. #9
    Expert confirmé

    Profil pro
    Inscrit en
    Janvier 2007
    Messages
    10 610
    Détails du profil
    Informations personnelles :
    Âge : 67
    Localisation : France

    Informations forums :
    Inscription : Janvier 2007
    Messages : 10 610
    Billets dans le blog
    2
    Par défaut
    et pourquoi simplement ne pas prendre le parser existant ?

    (sous Linux ou Unix, dans le code de Konqueror ou Mosaic, le code du widget HTML)

  10. #10
    Expert confirmé
    Avatar de Jedai
    Homme Profil pro
    Enseignant
    Inscrit en
    Avril 2003
    Messages
    6 245
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Côte d'Or (Bourgogne)

    Informations professionnelles :
    Activité : Enseignant

    Informations forums :
    Inscription : Avril 2003
    Messages : 6 245
    Par défaut
    Citation Envoyé par souviron34 Voir le message
    et pourquoi simplement ne pas prendre le parser existant ?

    (sous Linux ou Unix, dans le code de Konqueror ou Mosaic, le code du widget HTML)
    C'est de très très loin la meilleure solution vu la complexité du HTML du monde réel... D'ailleurs faire ce programme en C est légèrement farfelu, du Perl (ou du Python, ou du Ruby...) serait nettement plus adapté, ils proposent tous d'excellent parser HTML (HTML::Parser pour Perl, par exemple) et sont nettement plus adapté à la tâche.

    Néanmoins s'il s'agit d'un exercice où l'usage d'une librairie spécialisée est interdit et le C obligatoire, pas mal d'inspiration peut-être trouvée dans cette vieille discussion.

    --
    Jedaï

Discussions similaires

  1. [JEditorPane]ajout de balises html
    Par almass dans le forum Composants
    Réponses: 12
    Dernier message: 12/05/2004, 17h07
  2. XSLT et balise HTML div
    Par haypo dans le forum XSL/XSLT/XPATH
    Réponses: 6
    Dernier message: 01/07/2003, 20h38
  3. problème xsl : inclure une donnée xml dans une balise html
    Par djodjo dans le forum XSL/XSLT/XPATH
    Réponses: 3
    Dernier message: 03/01/2003, 09h24
  4. Balises HTML dans un fichier XML
    Par Bastet79 dans le forum XML/XSL et SOAP
    Réponses: 12
    Dernier message: 04/09/2002, 15h29
  5. [XSLT] inclure du XSL dans une balise html
    Par iaa dans le forum XSL/XSLT/XPATH
    Réponses: 2
    Dernier message: 05/08/2002, 15h57

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo