compréhension fonction drupal

**omelhor** · 04/10/2011, 13h56

Je me suis dans Drupal, je suis tombé dans une fonction php , et il y a un bout de code que je n'arrive pas à comprendre
Je sais que le but est d'extraire x caractères a partir d'un position, mais il des choses que je n'arrive pas a comprende

Que signifie UNICODE_MULTIBYTE pour drupal ?

Que font ces lignes de codes :
<<<

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
  $c = ord($text[$bytes]);
        if ($c < 0x80 || $c >= 0xC0) {
          $chars++;
        }

>>>
fct ord() retournerait le caractère ascii d'un caractère
0x80 et 0xC0 , je pense que sont des caractères hexadecimal, mais à quoi correspondent'ils ?
Pourquoi fait'on un "si caractère ascii < caractère decimal " ( $c < 0x80 ) ???

Je suis complètement à la ramasse la dessus

La fonction complète au cas ou :
<<<

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
function drupal_substr($text, $start, $length = NULL) {
  global $multibyte;
  if ($multibyte == UNICODE_MULTIBYTE) {
    return $length === NULL ? mb_substr($text, $start) : mb_substr($text, $start, $length);
  }
  else {
    $strlen = strlen($text);
    // Find the starting byte offset
    $bytes = 0;
    if ($start > 0) {
      // Count all the continuation bytes from the start until we have found
      // $start characters
      $bytes = -1; $chars = -1;
      while ($bytes < $strlen && $chars < $start) {
        $bytes++;
        $c = ord($text[$bytes]);
        if ($c < 0x80 || $c >= 0xC0) {
          $chars++;
        }
      }
    }
    else if ($start < 0) {
      // Count all the continuation bytes from the end until we have found
      // abs($start) characters
      $start = abs($start);
      $bytes = $strlen; $chars = 0;
      while ($bytes > 0 && $chars < $start) {
        $bytes--;
        $c = ord($text[$bytes]);
        if ($c < 0x80 || $c >= 0xC0) {
          $chars++;
        }
      }
    }
    $istart = $bytes;
 
    // Find the ending byte offset
    if ($length === NULL) {
      $bytes = $strlen - 1;
    }
    else if ($length > 0) {
      // Count all the continuation bytes from the starting index until we have
      // found $length + 1 characters. Then backtrack one byte.
      $bytes = $istart; $chars = 0;
      while ($bytes < $strlen && $chars < $length) {
        $bytes++;
        $c = ord($text[$bytes]);
        if ($c < 0x80 || $c >= 0xC0) {
          $chars++;
        }
      }
      $bytes--;
    }
    else if ($length < 0) {
      // Count all the continuation bytes from the end until we have found
      // abs($length) characters
      $length = abs($length);
      $bytes = $strlen - 1; $chars = 0;
      while ($bytes >= 0 && $chars < $length) {
        $c = ord($text[$bytes]);
        if ($c < 0x80 || $c >= 0xC0) {
          $chars++;
        }
        $bytes--;
      }
    }
    $iend = $bytes;
 
    return substr($text, $istart, max(0, $iend - $istart + 1));
  }
}

>>>

Merci beaucoup pour votre aide

**stealth35** · 04/10/2011, 14h02

par que l’Unicode est en dehors de l’ASCII

http://fr.wikipedia.org/wiki/ASCII
http://fr.wikipedia.org/wiki/UTF-8

**julp** · 04/10/2011, 14h12

Envoyé par omelhor

Que signifie UNICODE_MULTIBYTE pour drupal ?

A priori, elle sert à s'appuyer directement sur les fonctions de l'extension mbstring.

Envoyé par omelhor

Pourquoi fait'on un "si caractère ascii < caractère decimal " ( $c < 0x80 ) ???

Parce que l'UTF-8 code un point de code sur 1 à 4 octets/unités de code et que, pour PHP, la notion d'encodage lui est totalement inconnu : on traite des octets au final (à l'exception des extensions qui gèrent, au moins en partie, l'UTF-8 - intl, mbstring, iconv).

Envoyé par omelhor

fct ord() retournerait le caractère ascii d'un caractère
0x80 et 0xC0 , je pense que sont des caractères hexadecimal, mais à quoi correspondent'ils ?

C'est par rapport à la manière dont sont encodés les points de code en UTF-8. La première unité de code d'un point est forcément < 0x80 ou >= 0xC2. Les autres, étant dans l'intervalle [0x80,0xBF] (aux exceptions près de la deuxième unité qui peut avoir des valeurs minimales supérieures ou maximales inférieures).

En clair, pour compter le nombre de points de code, il suffit de compter le nombre de premières unités (celles < 0x80 ou >= 0xC2) (en supposant la chaîne valide).

Encore qu'elle est +/- approximative. Pour en apprendre plus, l'article sur Wikipedia est plutôt complet.

PS : un caractère, visuellement parlant, n'est pas nécessairement composé d'un seul point de code (il n'y a que intl/grapheme_* qui le gère correctement)

compréhension fonction drupal [Drupal]

EDI, CMS, Outils, Scripts et API PHP

Vue hybride

Discussions similaires

Partager

Partager