IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

XSL/XSLT/XPATH XML Discussion :

[debutant] extraire phrase entre balises


Sujet :

XSL/XSLT/XPATH XML

  1. #1
    Membre actif
    Inscrit en
    Janvier 2005
    Messages
    629
    Détails du profil
    Informations forums :
    Inscription : Janvier 2005
    Messages : 629
    Points : 203
    Points
    203
    Par défaut [debutant] extraire phrase entre balises
    Bonjour,
    C'est mon 2eme message dans ce forum xml. Pour le premier message, je vous demandais si ce que je voulais faire était plus simple à l'aide de xml qu'avec ma méthode. ça ne l'était pas donc je n'ai toujours pas commencer à apprendre xml. Aujourd'hui, c'est la meme question: est ce que xml me sera utile ? Voici mon probleme: j'ai un fichier texte de la forme suivante:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    ...pleins de mots...<fonction>..1 ou 2 mots...</fonction>...quelques mots...<role>...1 ou 2 mots...</role>....pleins de mots...
    Les balises ne sont identifiées nulle part. Elles ont été rajoutées en dur à l'aide d'un programme en java.
    Le but est de récupérer les segments de phrase compris entre <fonction> et </role>. Est ce que xml peut m'être utile? Ou vaut il mieux faire un programme en java pour cela sans se servir de xml ?
    Je vous remercie d'avance pour vos conseils.

  2. #2
    Membre à l'essai
    Inscrit en
    Juin 2004
    Messages
    30
    Détails du profil
    Informations forums :
    Inscription : Juin 2004
    Messages : 30
    Points : 18
    Points
    18
    Par défaut
    moi si j'etais toi, j'utiliserai un parser, par exemple sax.

    tu parcours ton fichier, et tu peux extraire ce que tu veux entre ces balises.


    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    142
    143
    144
    145
    146
    147
    148
    149
    150
    151
    152
    153
    154
    155
    156
    157
    158
    159
    160
    161
    162
    163
    164
    165
    166
    167
    168
    169
    170
    171
    172
    173
    174
    175
    176
    177
    178
    179
    180
    181
    182
    183
    184
    185
    186
    187
    188
    189
    190
    191
    192
    193
    194
    195
    196
    197
    198
    199
    200
    201
    202
    203
    204
    205
    206
    207
    208
    209
    210
    211
    212
    213
    214
    215
    216
    217
    218
    219
    220
    221
    222
    223
    224
    225
    226
    227
    228
    229
    230
    231
    232
    233
    234
    235
    236
    237
    238
    239
    240
    241
    242
    243
    244
    245
    246
    247
    248
    249
    250
    251
    252
    253
    254
    255
    256
    257
    258
    259
    260
    261
    262
    263
    264
    265
    266
    267
    268
    269
    270
    271
    272
    273
    274
    275
    276
    277
    278
    279
    280
    281
    282
    283
    284
    285
    286
    287
    288
    289
    290
    291
    292
    293
    294
    295
    296
    297
    298
    299
    300
    301
    302
    303
    304
     
    dans le main par ex :
     
      try {
        	validation_tree_parser.SaxParser parser = new SaxParser(uri);
        	parser.doParse(uri);
        	 }catch (Throwable t) {t.printStackTrace();}
     
     
    puis les classes :
     
    package validation_tree_parser;
     
     
    import org.xml.sax.DTDHandler;
    import org.xml.sax.SAXException;
    import org.xml.sax.XMLReader;
    import org.xml.sax.helpers.XMLReaderFactory;
    import org.xml.sax.ContentHandler;
    import org.xml.sax.ErrorHandler;
    import java.io.IOException;
     
     
     
     
    import validation_tree_parser.TContentHandler;
    import validation_tree_parser.TErrorHandler;
     
     
    // Proàviudes a simple validating parser to check if an Xhtml file is correct.
    public class SaxParser
    {
     
     
    	public SaxParser(String uri) 	{}
     
     
    	public void doParse(String Uri)
    	{
     
    		System.out.println("Analyse du document Xml : " + Uri + "\n\n");
    		ContentHandler theContentHandler = new TContentHandler();
    		ErrorHandler theErrorHandler = new TErrorHandler();
    		DTDHandler theDTDHandler = new TDTDHandler();
    		try
    		{
    			XMLReader theParser= XMLReaderFactory.createXMLReader("org.apache.xerces.parsers.SAXParser");
    			theParser.setContentHandler(theContentHandler);
    			theParser.setErrorHandler(theErrorHandler);
    			// voir oci theParser.setDTDHandler();
    			theParser.setFeature("http://xml.org/sax/features/validation",true);
    			theParser.setFeature("http://xml.org/sax/features/namespaces",true);
    			theParser.parse(Uri);
    		}
    		catch(IOException ioe)
    		{System.out.println("Erreur de lecture de l'url : " + ioe.getMessage());}
    		catch(SAXException se)
    		{System.out.println("Erreur d'analyse : " + se.getMessage());}
    	}
     
     
    }
     
     
    le content handler :
     
    package validation_tree_parser;
    import org.xml.sax.*;
    import org.xml.sax.helpers.LocatorImpl;
     
     
    public class TContentHandler implements ContentHandler
    {
     
     
    	private Locator locator;
     
     
    	/**
         * Constructeur par defaut. 
         */
     
        public TContentHandler()
        {
                super();
                // On definit le locator par defaut.
                locator = new LocatorImpl();
        }
     
        /**
         * Definition du locator qui permet a tout moment pendant l'analyse, de localiser
         * le traitement dans le flux. Le locator par defaut indique, par exemple, le numero
         * de ligne et le numero de caractere sur la ligne.
         * @author smeric
         * @param value le locator a utiliser.
         * @see org.xml.sax.ContentHandler#setDocumentLocator(org.xml.sax.Locator)
         */
        public void setDocumentLocator(Locator value) 
        {
                locator =  value;
        }
     
        /**
         * Evenement envoye au demarrage du parse du flux xml.
         * @throws SAXException en cas de probleme quelquonque ne permettant pas de
         * se lancer dans l'analyse du document.
         * @see org.xml.sax.ContentHandler#startDocument()
         */
        public void startDocument() throws SAXException
    	{
                System.out.println("Debut de l'analyse du document");
        }
     
        /**
         * Evenement envoye a la fin de l'analyse du flux xml.
         * @throws SAXException en cas de probleme quelquonque ne permettant pas de
         * considerer l'analyse du document comme etant complete.
         * @see org.xml.sax.ContentHandler#endDocument()
         */
        public void endDocument() throws SAXException
    	{
                System.out.println("Fin de l'analyse du document" );
        }
     
     
        /**
         * Debut de traitement dans un espace de nommage.
         * @param prefixe utilise pour cet espace de nommage dans cette partie de l'arborescence.
         * @param URI de l'espace de nommage.
         * @see org.xml.sax.ContentHandler#startPrefixMapping(java.lang.String, java.lang.String)
         */
        public void startPrefixMapping(String prefix, String URI) throws SAXException
    	{
                System.out.println("Traitement de l'espace de nommage : " + URI + ", prefixe choisi : " + prefix);
        }
     
        /**
         * Fin de traitement de l'espace de nommage.
         * @param prefixe le prefixe choisi a l'ouverture du traitement de l'espace nommage.
         * @see org.xml.sax.ContentHandler#endPrefixMapping(java.lang.String)
         */
        public void endPrefixMapping(String prefix) throws SAXException 
    	{
                System.out.println("Fin de traitement de l'espace de nommage : " + prefix);
        }
     
        /**
         * Evenement recu a chaque fois que l'analyseur rencontre une balise xml ouvrante.
         * @param nameSpaceURI l'url de l'espace de nommage.
         * @param localName le nom local de la balise.
         * @param rawName nom de la balise en version 1.0 <code>nameSpaceURI + ":" + localName</code>
         * @throws SAXException si la balise ne correspond pas a ce qui est attendu,
         * comme par exemple non respect d'une dtd.
         * @see org.xml.sax.ContentHandler#startElement(java.lang.String, java.lang.String, java.lang.String, org.xml.sax.Attributes)
         */
        public void startElement(String nameSpaceURI, String localName, String rawName, Attributes attributs) throws SAXException {
                System.out.println("Ouverture de la balise : " + localName);
     
                if ( ! "".equals(nameSpaceURI)) { // espace de nommage particulier
                        System.out.println("  appartenant a l'espace de nom : "  + nameSpaceURI);
                }
     
                System.out.println("  Attributs de la balise : ");
     
                for (int index = 0; index < attributs.getLength(); index++) { // on parcourt la liste des attributs
                        System.out.println("     - " +  attributs.getLocalName(index) + " = " + attributs.getValue(index));
                }
        }
     
     
     
        /**
         * Evenement recu a chaque fermeture de balise.
         * @see org.xml.sax.ContentHandler#endElement(java.lang.String, java.lang.String, java.lang.String)
         */
        public void endElement(String nameSpaceURI, String localName, String rawName) throws SAXException
    	{
                System.out.print("Fermeture de la balise : " + localName);
     
                if ( ! "".equals(nameSpaceURI)) { // name space non null
                        System.out.print("appartenant a l'espace de nommage : " + localName);
                }
     
                System.out.println();
        }
     
        /**
         * Evenement recu a chaque fois que l'analyseur rencontre des caracteres (entre
         * deux balises).
         * @param ch les caracteres proprement dits.
         * @param start le rang du premier caractere a traiter effectivement.
         * @param end le rang du dernier caractere a traiter effectivement
         * @see org.xml.sax.ContentHandler#characters(char[], int, int)
         */
        public void characters(char[] ch, int start, int end) throws SAXException
    	{
                System.out.println("#PCDATA : " + new String(ch, start, end));
        }
    
        
        
        /**
         * Recu chaque fois que des caracteres d'espacement peuvent etre ignores au sens de
         * XML. C'est a dire que cet evenement est envoye pour plusieurs espaces se succedant,
         * les tabulations, et les retours chariot se succedants ainsi que toute combinaison de ces
         * trois types d'occurrence.
         * @param ch les caracteres proprement dits.
         * @param start le rang du premier caractere a traiter effectivement.
         * @param end le rang du dernier caractere a traiter effectivement
         * @see org.xml.sax.ContentHandler#ignorableWhitespace(char[], int, int)
         */
        public void ignorableWhitespace(char[] ch, int start, int end) throws SAXException 
    	{
                System.out.println("espaces inutiles rencontres : ..." + new String(ch, start, end) +  "...");
        }
     
        /**
         * Rencontre une instruction de fonctionnement.
         * @param target la cible de l'instruction de fonctionnement.
         * @param data les valeurs associees a cette cible. En general, elle se presente sous la forme 
         * d'une serie de paires nom/valeur.
         * @see org.xml.sax.ContentHandler#processingInstruction(java.lang.String, java.lang.String)
         */
        public void processingInstruction(String target, String data) throws SAXException
    	{
                System.out.println("Instruction de fonctionnement : " + target);
                System.out.println("  dont les arguments sont : " + data);
        }
     
        /**
         * Recu a chaque fois qu'une balise est evitee dans le traitement a cause d'un
         * probleme non bloque par le parser. Pour ma part je ne pense pas que vous
         * en ayez besoin dans vos traitements.
         * @see org.xml.sax.ContentHandler#skippedEntity(java.lang.String)
         */
        public void skippedEntity(String arg0) throws SAXException 
    	{
                // Je ne fais rien, ce qui se passe n'est pas franchement normal.
                // Pour eviter cet evenement, le mieux est quand meme de specifier une dtd pour vos
                // documents xml et de les faire valider par votre parser.     
        	System.out.println("outrepasse " + arg0);
        }
    
     
    
    }// ENd Class
    
    
    et le error handler :
    
    package validation_tree_parser;
    import org.xml.sax.*;
    
    /**
     * @author PG
     *
     * TODO To change the template for this generated type comment go to
     * Window - Preferences - Java - Code Style - Code Templates
     */
    public class TErrorHandler implements ErrorHandler
    {
    
    	/* (non-Javadoc)
    	 * @see org.xml.sax.ErrorHandler#error(org.xml.sax.SAXParseException)
    	 */
    	public void error(SAXParseException exception) throws SAXException 
    	{
    	 System.out.println("** Erreur d'analyse ** \n"+
    	 					"Ligne   :     " + exception.getLineNumber()+ " \n " +
    						"Uri     :     " + exception.getSystemId() + " \n " +
    						"Message :     " + exception.getMessage());
    	 throw new SAXException("une erreur est survenue");
    	}
    			
    			
    			
    	/* (non-Javadoc)
    	 * @see org.xml.sax.ErrorHandler#fatalError(org.xml.sax.SAXParseException)
    	 */
    	public void fatalError(SAXParseException exception) throws SAXException
    	{
    	 System.out.println("** Erreur d'analyse ** \n"+
    	 					"Ligne   :     " + exception.getLineNumber()+ " \n " +
    						"Uri     :     " + exception.getSystemId() + " \n " +
    						"Message :     " + exception.getMessage());
    	 
    	 throw new SAXException("une erreur fatale est survenue");
    
    	}
    	
    	/* (non-Javadoc)
    	 * @see org.xml.sax.ErrorHandler#warning(org.xml.sax.SAXParseException)
    	 */
    	public void warning(SAXParseException exception) throws SAXException
    	{
    		  System.out.println("** Erreur d'analyse ** \n"+
    		  					"Ligne   :     " + exception.getLineNumber()+ " \n " +
    							"Uri     :     " + exception.getSystemId() + " \n " +
    							"Message :     " + exception.getMessage());
    		  
    		  throw new SAXException("un avertissement a eu lieu");
    
    	}
    }

    tu trouves ça sur internet, celui la utilise xerces !

    Voila, si avec ça tu y arrives pas ...

  3. #3
    Membre actif
    Inscrit en
    Janvier 2005
    Messages
    629
    Détails du profil
    Informations forums :
    Inscription : Janvier 2005
    Messages : 629
    Points : 203
    Points
    203
    Par défaut
    ok, je vais me pencher sur tout ça. Je connais pas du tout, mais je vais étudier le code que tu as mis.
    Je te remercie
    a+

  4. #4
    Membre actif
    Inscrit en
    Janvier 2005
    Messages
    629
    Détails du profil
    Informations forums :
    Inscription : Janvier 2005
    Messages : 629
    Points : 203
    Points
    203
    Par défaut
    bonjour à tous,
    j'ai regardé le code que tipaquo a mis. Alors j'ai quelques questions. Ce code sert à parser un fichier xml, non ? Si c'est le cas, je ne peux pas l'utiliser directement. En effet, j'ai un fichier texte au départ de la forme:
    ...pleins de mots...<fonction>..1 ou 2 mots...</fonction>...quelques mots...<role>...1 ou 2 mots...</role>....pleins de mots...
    Donc est il possible de transformer ce texte en fichier xml ? Si c'est le cas, je pourrais alors récupérer ce qu'il y a entre les balises en me servant du code de tipaquo. Si la transformation en fichier xml est possible, cela me serait très utile que vous me mettiez un squelette de code pour que je comprenne.
    Je vous en remercie.

  5. #5
    Membre à l'essai
    Inscrit en
    Juin 2004
    Messages
    30
    Détails du profil
    Informations forums :
    Inscription : Juin 2004
    Messages : 30
    Points : 18
    Points
    18
    Par défaut
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
     
    <?xml version="1.0" encoding="ISO-8859-1"?>
    <!DOCTYPE Tool SYSTEM "structure.dtd">
    <Tool Output="PHP">
    		<Connection  id = "C1">
    			<Setup>
    				<Driver>org.gjt.mm.mysql.Driver</Driver>
    				<LocationURL>jdbc:mysql://33306/saiealdb</LocationURL>
    				<User> toto </User>
    				<Password> titi </Password>
    		</Setup>
    		<Resultset>
    			<Sql>select * from Table</Sql>
    			<Display>
    			<Loop>
    				<HtmlTags /><Field id="F1">name</Field><HtmlTags />
    				<HtmlTags /><Field id="F2">salary</Field><HtmlTags />
    			</Loop>
    			</Display>
    		</Resultset>
    	</Connection>
    </Tool>

    ça c un fichier xml par exemple. (ligne1)
    la ligne2, c pour dire que j'utilise une dtd qui decrit la structure de ce fichier.

    Donc tu rajoutes la ligne 1, et tu parses. y verifiera juste que tous tes tags sont ouverts et fermés correctement.

    Dans l'ex plus haut moi j'ai mis :
    theParser.setFeature("http://xml.org/sax/features/validation",true);
    theParser.setFeature("http://xml.org/sax/features/namespaces",true);

    parce que je verifie avec la dtd.

    Si toi pas de dtd, toi mettre false .

    et apres c facile de recup tes champs

  6. #6
    Membre actif
    Inscrit en
    Janvier 2005
    Messages
    629
    Détails du profil
    Informations forums :
    Inscription : Janvier 2005
    Messages : 629
    Points : 203
    Points
    203
    Par défaut
    ok (re)merci. Je vais tester tout ça.
    a+

Discussions similaires

  1. REGEXP : extraire une donnée entre balises précédée d'une assertion positive
    Par Globolite dans le forum EDI, CMS, Outils, Scripts et API
    Réponses: 2
    Dernier message: 04/05/2014, 15h49
  2. Extraire un texte entre balises
    Par battl14 dans le forum MS SQL Server
    Réponses: 3
    Dernier message: 09/06/2009, 09h41
  3. [RegEx] Extraire un texte entres balises html ?
    Par booraq dans le forum Langage
    Réponses: 2
    Dernier message: 01/07/2007, 15h56
  4. [C#] Placer fichier html entre balises DIV
    Par Febus dans le forum ASP.NET
    Réponses: 9
    Dernier message: 07/05/2004, 11h44
  5. [debutant][servlet]lien entre formulaire et servlet
    Par omega dans le forum Servlets/JSP
    Réponses: 4
    Dernier message: 05/03/2004, 08h54

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo