IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Bibliothèques et frameworks PHP Discussion :

Conserver les accents avec class.html2text.inc


Sujet :

Bibliothèques et frameworks PHP

  1. #1
    Membre du Club
    Profil pro
    Inscrit en
    Mai 2007
    Messages
    146
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2007
    Messages : 146
    Points : 52
    Points
    52
    Par défaut Conserver les accents avec class.html2text.inc
    Bonjour,

    Je vous expose un problème sans doute long à expliquer, mais probablement simple à résoudre, en deux lignes....:

    J'utilise une classe "connue" nommée class.html2text.inc, qui permet de faire des tas de manip sur les chaines de caractères. Ca me permet notamment de supprimer la mise en forme HTML pour n'afficher que le texte.

    Cependant, même en consultant la source de cette classe, je suis incapable de comprendre pourquoi le texte qui m'est renvoyé est dépourvu d'accents.
    Voici les fonctions appelées dans MON code:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    /* Traitement du contenu du billet pour le limiter à xx caractères*/
    			// Nombre de caractère
    			$chaine = $donnees['billet_contenu'];
    			// The "source" HTML you want to convert.
     
    			// Instantiate a new instance of the class. Passing the string
    			// variable automatically loads the HTML for you.
    			$h2t =& new html2text($chaine);
     
    			// Simply call the get_text() method for the class to convert
    			// the HTML to the plain text. Store it into the variable.
    			$chaine = $h2t->get_text();
     
    			$max=65;
     
    			if(strlen($chaine)>=$max)
    			{
    				// Met la portion de chaine dans $chaine
    				$chaine=substr($chaine,0,$max); 
    				// position du dernier espace
    				$espace=strrpos($chaine," "); 
    				// teste s'il y a un espace
    				if($espace)
    				// s'il y a 1 espace, coupe de nouveau la chaine
    				$chaine=substr($chaine,0,$espace);
    				// Ajoute ... à la chaine
    				$chaine .= '...';
    			}
     
    		/* Fin du traitement sur le billet*/

    Et je vous mets ci-dessous le code de la classe, en entier...bien que je pense que le début soit la clé du problème :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    142
    143
    144
    145
    146
    147
    148
    149
    150
    151
    152
    153
    154
    155
    156
    157
    158
    159
    160
    161
    162
    163
    164
    165
    166
    167
    168
    169
    170
    171
    172
    173
    174
    175
    176
    177
    178
    179
    180
    181
    182
    183
    184
    185
    186
    187
    188
    189
    190
    191
    192
    193
    194
    195
    196
    197
    198
    199
    200
    201
    202
    203
    204
    205
    206
    207
    208
    209
    210
    211
    212
    213
    214
    215
    216
    217
    218
    219
    220
    221
    222
    223
    224
    225
    226
    227
    228
    229
    230
    231
    232
    233
    234
    235
    236
    237
    238
    239
    240
    241
    242
    243
    244
    245
    246
    247
    248
    249
    250
    251
    252
    253
    254
    255
    256
    257
    258
    259
    260
    261
    262
    263
    264
    265
    266
    267
    268
    269
    270
    271
    272
    273
    274
    275
    276
    277
    278
    279
    280
    281
    282
    283
    284
    285
    286
    287
    288
    289
    290
    291
    292
    293
    294
    295
    296
    297
    298
    299
    300
    301
    302
    303
    304
    305
    306
    307
    308
    309
    310
    311
    312
    313
    314
    315
    316
    317
    318
    319
    320
    321
    322
    323
    324
    325
    326
    327
    328
    329
    330
    331
    332
    333
    334
    335
    336
    337
    338
    339
    340
    341
    342
    343
    344
    345
    346
    347
    348
    349
    350
    351
    352
    353
    354
    355
    356
    357
    358
    359
    360
    361
    362
    363
    364
    365
    366
    367
    368
    369
    370
    371
    372
    373
    374
    375
    376
    377
    378
    379
    380
    381
    382
    383
    384
    385
    386
    387
    388
    <?php
    *  @author Jon Abernathy <jon@chuggnutt.com>
     *  @version 1.0.0
     *  @since PHP 4.0.2
     */
    class html2text
    {
     
        /**
         *  Contains the HTML content to convert.
         *
         *  @var string $html
         *  @access public
         */
        var $html;
     
        /**
         *  Contains the converted, formatted text.
         *
         *  @var string $text
         *  @access public
         */
        var $text;
     
        /**
         *  Maximum width of the formatted text, in columns.
         *
         *  Set this value to 0 (or less) to ignore word wrapping
         *  and not constrain text to a fixed-width column.
         *
         *  @var integer $width
         *  @access public
         */
        var $width = 70;
     
        /**
         *  List of preg* regular expression patterns to search for,
         *  used in conjunction with $replace.
         *
         *  @var array $search
         *  @access public
         *  @see $replace
         */
        var $search = array(
            "/\r/",                                  // Non-legal carriage return
            "/[\n\t]+/",                             // Newlines and tabs
            '/[ ]{2,}/',                             // Runs of spaces, pre-handling
            '/<script[^>]*>.*?<\/script>/i',         // <script>s -- which strip_tags supposedly has problems with
            '/<style[^>]*>.*?<\/style>/i',           // <style>s -- which strip_tags supposedly has problems with
            //'/<!-- .* -->/',                         // Comments -- which strip_tags might have problem a with
            '/<h[123][^>]*>(.*?)<\/h[123]>/ie',      // H1 - H3
            '/<h[456][^>]*>(.*?)<\/h[456]>/ie',      // H4 - H6
            '/<p[^>]*>/i',                           // <P>
            '/<br[^>]*>/i',                          // <br>
            '/<b[^>]*>(.*?)<\/b>/ie',                // <b>
            '/<strong[^>]*>(.*?)<\/strong>/ie',      // <strong>
            '/<i[^>]*>(.*?)<\/i>/i',                 // <i>
            '/<em[^>]*>(.*?)<\/em>/i',               // <em>
            '/(<ul[^>]*>|<\/ul>)/i',                 // <ul> and </ul>
            '/(<ol[^>]*>|<\/ol>)/i',                 // <ol> and </ol>
            '/<li[^>]*>(.*?)<\/li>/i',               // <li> and </li>
            '/<li[^>]*>/i',                          // <li>
            '/<a [^>]*href="([^"]+)"[^>]*>(.*?)<\/a>/ie',
                                                     // <a href="">
            '/<hr[^>]*>/i',                          // <hr>
            '/(<table[^>]*>|<\/table>)/i',           // <table> and </table>
            '/(<tr[^>]*>|<\/tr>)/i',                 // <tr> and </tr>
            '/<td[^>]*>(.*?)<\/td>/i',               // <td> and </td>
            '/<th[^>]*>(.*?)<\/th>/ie',              // <th> and </th>
            '/&(nbsp|#160);/i',                      // Non-breaking space
            '/&(quot|rdquo|ldquo|#8220|#8221|#147|#148);/i',
    		                                         // Double quotes
            '/&(apos|rsquo|lsquo|#8216|#8217);/i',   // Single quotes
            '/&gt;/i',                               // Greater-than
            '/&lt;/i',                               // Less-than
            '/&(amp|#38);/i',                        // Ampersand
            '/&(copy|#169);/i',                      // Copyright
            '/&(trade|#8482|#153);/i',               // Trademark
            '/&(reg|#174);/i',                       // Registered
            '/&(mdash|#151|#8212);/i',               // mdash
            '/&(ndash|minus|#8211|#8722);/i',        // ndash
            '/&(bull|#149|#8226);/i',                // Bullet
            '/&(pound|#163);/i',                     // Pound sign
            '/&(euro|#8364);/i',                     // Euro sign
            '/&[^&;]+;/i',                           // Unknown/unhandled entities
            '/[ ]{2,}/'                              // Runs of spaces, post-handling
        );
     
        /**
         *  List of pattern replacements corresponding to patterns searched.
         *
         *  @var array $replace
         *  @access public
         *  @see $search
         */
        var $replace = array(
            '',                                     // Non-legal carriage return
            ' ',                                    // Newlines and tabs
            ' ',                                    // Runs of spaces, pre-handling
            '',                                     // <script>s -- which strip_tags supposedly has problems with
            '',                                     // <style>s -- which strip_tags supposedly has problems with
            //'',                                     // Comments -- which strip_tags might have problem a with
            "strtoupper(\"\n\n\\1\n\n\")",          // H1 - H3
            "ucwords(\"\n\n\\1\n\n\")",             // H4 - H6
            "\n\n\t",                               // <P>
            "\n",                                   // <br>
            'strtoupper("\\1")',                    // <b>
            'strtoupper("\\1")',                    // <strong>
            '_\\1_',                                // <i>
            '_\\1_',                                // <em>
            "\n\n",                                 // <ul> and </ul>
            "\n\n",                                 // <ol> and </ol>
            "\t* \\1\n",                            // <li> and </li>
            "\n\t* ",                               // <li>
            '$this->_build_link_list("\\1", "\\2")',
                                                    // <a href="">
            "\n-------------------------\n",        // <hr>
            "\n\n",                                 // <table> and </table>
            "\n",                                   // <tr> and </tr>
            "\t\t\\1\n",                            // <td> and </td>
            "strtoupper(\"\t\t\\1\n\")",            // <th> and </th>
            ' ',                                    // Non-breaking space
            '"',                                    // Double quotes
            "'",                                    // Single quotes
            '>',
            '<',
            '&',
            '(c)',
            '(tm)',
            '(R)',
            '--',
            '-',
            '*',
            '£',
            'EUR',                                  // Euro sign. € ?
            '',                                     // Unknown/unhandled entities
            ' '                                     // Runs of spaces, post-handling
        );
     
        /**
         *  Contains a list of HTML tags to allow in the resulting text.
         *
         *  @var string $allowed_tags
         *  @access public
         *  @see set_allowed_tags()
         */
        var $allowed_tags = '';
     
        /**
         *  Contains the base URL that relative links should resolve to.
         *
         *  @var string $url
         *  @access public
         */
        var $url;
     
        /**
         *  Indicates whether content in the $html variable has been converted yet.
         *
         *  @var boolean $_converted
         *  @access private
         *  @see $html, $text
         */
        var $_converted = false;
     
        /**
         *  Contains URL addresses from links to be rendered in plain text.
         *
         *  @var string $_link_list
         *  @access private
         *  @see _build_link_list()
         */
        var $_link_list = '';
     
        /**
         *  Number of valid links detected in the text, used for plain text
         *  display (rendered similar to footnotes).
         *
         *  @var integer $_link_count
         *  @access private
         *  @see _build_link_list()
         */
        var $_link_count = 0;
     
        /**
         *  Constructor.
         *
         *  If the HTML source string (or file) is supplied, the class
         *  will instantiate with that source propagated, all that has
         *  to be done it to call get_text().
         *
         *  @param string $source HTML content
         *  @param boolean $from_file Indicates $source is a file to pull content from
         *  @access public
         *  @return void
         */
        function html2text( $source = '', $from_file = false )
        {
            if ( !empty($source) ) {
                $this->set_html($source, $from_file);
            }
            $this->set_base_url();
        }
     
        /**
         *  Loads source HTML into memory, either from $source string or a file.
         *
         *  @param string $source HTML content
         *  @param boolean $from_file Indicates $source is a file to pull content from
         *  @access public
         *  @return void
         */
        function set_html( $source, $from_file = false )
        {
            $this->html = $source;
     
            if ( $from_file && file_exists($source) ) {
                $fp = fopen($source, 'r');
                $this->html = fread($fp, filesize($source));
                fclose($fp);
            }
     
            $this->_converted = false;
        }
     
        /**
         *  Returns the text, converted from HTML.
         *
         *  @access public
         *  @return string
         */
        function get_text()
        {
            if ( !$this->_converted ) {
                $this->_convert();
            }
     
            return $this->text;
        }
     
        /**
         *  Prints the text, converted from HTML.
         *
         *  @access public
         *  @return void
         */
        function print_text()
        {
            print $this->get_text();
        }
     
        /**
         *  Alias to print_text(), operates identically.
         *
         *  @access public
         *  @return void
         *  @see print_text()
         */
        function p()
        {
            print $this->get_text();
        }
     
        /**
         *  Sets the allowed HTML tags to pass through to the resulting text.
         *
         *  Tags should be in the form "<p>", with no corresponding closing tag.
         *
         *  @access public
         *  @return void
         */
        function set_allowed_tags( $allowed_tags = '' )
        {
            if ( !empty($allowed_tags) ) {
                $this->allowed_tags = $allowed_tags;
            }
        }
     
        /**
         *  Sets a base URL to handle relative links.
         *
         *  @access public
         *  @return void
         */
        function set_base_url( $url = '' )
        {
            if ( empty($url) ) {
            	if ( !empty($_SERVER['HTTP_HOST']) ) {
    	            $this->url = 'http://' . $_SERVER['HTTP_HOST'];
            	} else {
    	            $this->url = '';
    	        }
            } else {
                // Strip any trailing slashes for consistency (relative
                // URLs may already start with a slash like "/file.html")
                if ( substr($url, -1) == '/' ) {
                    $url = substr($url, 0, -1);
                }
                $this->url = $url;
            }
        }
     
        /**
         *  Workhorse function that does actual conversion.
         *
         *  First performs custom tag replacement specified by $search and
         *  $replace arrays. Then strips any remaining HTML tags, reduces whitespace
         *  and newlines to a readable format, and word wraps the text to
         *  $width characters.
         *
         *  @access private
         *  @return void
         */
        function _convert()
        {
            // Variables used for building the link list
            $this->_link_count = 0;
            $this->_link_list = '';
     
            $text = trim(stripslashes($this->html));
     
            // Run our defined search-and-replace
            $text = preg_replace($this->search, $this->replace, $text);
     
            // Strip any other HTML tags
            $text = strip_tags($text, $this->allowed_tags);
     
            // Bring down number of empty lines to 2 max
            $text = preg_replace("/\n\s+\n/", "\n\n", $text);
            $text = preg_replace("/[\n]{3,}/", "\n\n", $text);
     
            // Add link list
            if ( !empty($this->_link_list) ) {
                $text .= "\n\nLinks:\n------\n" . $this->_link_list;
            }
     
            // Wrap the text to a readable format
            // for PHP versions >= 4.0.2. Default width is 75
            // If width is 0 or less, don't wrap the text.
            if ( $this->width > 0 ) {
            	$text = wordwrap($text, $this->width);
            }
     
            $this->text = $text;
     
            $this->_converted = true;
        }
     
        /**
         *  Helper function called by preg_replace() on link replacement.
         *
         *  Maintains an internal list of links to be displayed at the end of the
         *  text, with numeric indices to the original point in the text they
         *  appeared. Also makes an effort at identifying and handling absolute
         *  and relative links.
         *
         *  @param string $link URL of the link
         *  @param string $display Part of the text to associate number with
         *  @access private
         *  @return string
         */
        function _build_link_list( $link, $display )
        {
    		if ( substr($link, 0, 7) == 'http://' || substr($link, 0, 8) == 'https://' ||
                 substr($link, 0, 7) == 'mailto:' ) {
                $this->_link_count++;
                $this->_link_list .= "[" . $this->_link_count . "] $link\n";
                $additional = ' [' . $this->_link_count . ']';
    		} elseif ( substr($link, 0, 11) == 'javascript:' ) {
    			// Don't count the link; ignore it
    			$additional = '';
    		// what about href="#anchor" ?
            } else {
                $this->_link_count++;
                $this->_link_list .= "[" . $this->_link_count . "] " . $this->url;
                if ( substr($link, 0, 1) != '/' ) {
                    $this->_link_list .= '/';
                }
                $this->_link_list .= "$link\n";
                $additional = ' [' . $this->_link_count . ']';
            }
     
            return $display . $additional;
        }
     
    }
     
    ?>
    j'ai tenté de modifier quelques petites choses mais sans succès. Par exemple, j'ai tenté de mettre à la ligne 148:
    et en ligne 177:
    mais rien n'y fait...

    Pouvez-vous m'apporter de l'aide?

    Merci d'avance.

    D.

  2. #2
    Membre du Club
    Profil pro
    Inscrit en
    Mai 2007
    Messages
    146
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2007
    Messages : 146
    Points : 52
    Points
    52
    Par défaut
    Résolu!


    Ma méthode était finalement la bonne. Mais ça a fonctionné en ajoutant mes modifs au début de chacun des listes...
    Ainsi, j'ai ajouté:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    /*Ajout des caractères accentués français*/
    	    '/&agrave;/i',
    		'/&acirc;/i',
    		'/&ccedil;/i',
    		'/&egrave;/i',
    		'/&eacute;/i',
    		'/&ecirc;/i',
    		'/&euml;/i',
    		'/&icirc;/i',
    		'/&iuml;/i',
    		'/&ocirc;/i',
    		'/&oelig;/i',
    		'/&ugrave;/i',
    		'/&ucirc;/i',
    		'/&uuml;/i',
    		'/&yuml;/i',
    	/*Fin de l'ajout des caractères accentués français */
    à la première liste.Puis,


    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
        	/*Ajout des caractères accentués français*/
        	'à',
    		'â',
    		'ç',
    		'è',
    		'é',
    		'ê',
    		'ë',
    		'î',
    		'ï',
    		'ô',
    		'œ',
    		'ù',
    		'û',
    		'ü',
    		'ÿ',
    		/*Fin de l'ajout des caractères accentués français */
    à la deuxième liste.

    Merci à ceux qui m'ont lu

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. gérer les accents avec le code ascii?
    Par dams78 dans le forum Shell et commandes GNU
    Réponses: 1
    Dernier message: 13/12/2007, 11h19
  2. Réponses: 3
    Dernier message: 12/12/2007, 20h31
  3. Ajax et les accents avec "before_filter :headers_iso"
    Par bab_dev dans le forum Ruby on Rails
    Réponses: 9
    Dernier message: 23/10/2007, 11h20
  4. Réponses: 1
    Dernier message: 28/10/2005, 09h37
  5. Ecrire caractère avec les accents avec vi ?
    Par sekiryou dans le forum Applications et environnements graphiques
    Réponses: 7
    Dernier message: 18/05/2004, 17h11

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo