Comparaison de deux textes mot à mot

**0.GeGe.0** · 21/07/2014, 11h17

Bonjour, j'espère que vous avez passé un bon week-end.

Voilà je me demandais si quelqu'un ici avait déjà eu à coder une méthode permettant de comparer deux textes en PHP mot à mot. Et ceci sans prendre compte de l'ordre des similarités. C'est assez difficile à expliquer.

Voici un exemple :
Phrase 1 : Il est beau le soleil à la page.
Phrase 2 : Ici, on dit qu'il est beau le soleil.

En gros je voudrais quelque chose qui remarque ce genre de concordance. Du moment ou minimum un couple de mots est en commun dans les 2 textes quoi...

J'ai bien une idée d'algo :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
// On découpe les textes en mots
$parsedfirstText = splitStringBySpaces($firstText);
$parsedSecondText = splitStringBySpaces($secondText);
 
// On compare mot à mot les textes
foreach ($parsedfirstText as $wordOfFirstText) {
    foreach ($parsedSecondText as $wordOfSecondText) {
        // Ici ça se complique...
        // On peut à la limite les comparer
        if($wordOfFirstText == $wordOfSecondText) {
            // Ensuite il faudrait une boucle je pense, un while, tant qu'ils sont égaux, on continue à avancer dans les deux textes et à comparer mot à mot
            // Mais c'est après que je sèche...
        }
    }
}

j'ai déjà essayé les fonctions de type levenshtein et similar_text. Elles compare caractère par caractère. Je voudrais comparer du mot à mot.
Je donne à nouveau des exemples :

Le soleil brille de mille feux ce soir. Je pense que je vais sortir en bateau de croisière pour en profiter.
Le bateau de croisière sort ce soir sous ce soleil qui brille de mille feux.

En gros, je voudrais identifier tous les groupes de mots de plus de deux mots de longueur présent dans les deux textes. Voilà je crois que bien résumé, en une phrase c'est ça l'idée, si je dis pas de bêtises xD Peu importe l'ordre d'apparition dans les texte de ces "groupes".

Merci, d'avance !

**zwaldo** · 21/07/2014, 15h05

Salut,

Il faut que tu passes par une expression reguliere :

exemple :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
<?php
//txt de base
$subject = "abcdef";
//ce que tu recherches
$pattern = '/^def/';
preg_match($pattern, substr($subject,3), $matches, PREG_OFFSET_CAPTURE);
echo '<pre>';
print_r($matches);
echo '</pre>';
?>

++
zwaldo

**0.GeGe.0** · 21/07/2014, 16h26

Quoi ? Non tu n'as pas compris. Pourtant mon explication est très clair. Je ne connais pas les motifs à rechercher. Je cherche juste à savoir justement les groupes de mots (de minimum 2 mots se suivant) qui sont commun au deux textes.

**CosmoKnacki** · 21/07/2014, 18h49

Moi je ferai un truc comme ça:
J'utilise une pattern placée dans un lookahead (test avant) pour obtenir la plus grande correspondance possible au départ de chaque mot, même si le correspondances se chevauchent. Ensuite je filtre les résultats pour ne récupérer que les correspondances les plus grandes (i.e: pour "il fait beau", j'élimine le résultat "fait beau")

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
$pattern = '~(?=(\b\w+(?>\W+\w+)+\b).*\b(\1)\b)~ius';
 
if (preg_match_all($pattern, $texte, $matches, PREG_OFFSET_CAPTURE | PREG_SET_ORDER)) {
 
    $last_match_end_offset = -1;
    $result = array();
 
    foreach($matches as $k => $v) {
        if ( $last_match_end_offset < $match_end_offset = mb_strlen($v[1][0]) + $v[1][1] ) {
            $last_match_end_offset = $match_end_offset;
            $result[] = array('excerpt' => $v[1][0], 'offset1' => $v[1][1], 'offset2' => $v[2][1]);
        }
    }
    unset($matches);
    print_r($result);
}

**0.GeGe.0** · 22/07/2014, 09h09

CosmoKnacki, tout d'abord merci pour ta réponse qui à l'air pas mal recherché, et surtout pour les explications allant avec.
Mais j'avoue ne pas tout comprendre.
On parle bien ici de la comparaison de 2 textes n'est ce pas ? Je comprends pas à quel moment tu compares le 1er avec le 2ème. En fait tout simplement je crois que c'est ton pattern qui m'échappe ^^

EDIT: Après avoir testé ta méthode, c'est bien ça j'avais bien compris finalement. Tu compares le texte avec lui même. Enfin tu compares chaque mot du texte sur le texte quoi. Du coup je vais faire une boucle sur chaque mot du texte 1 et utiliser ta méthode sur le texte 2, ça semble correct, non ? Le seul problème c'est que je ne sais pas comment modifier ton pattern pour faire ça xD Je m'y met ^^

EDIT 2 : C'est normal également que dès que mon texte est trop long. Ça ne marche plus, ne me retourne plus rien... Oo Ca par contre je sais pas pourquoi, je vais pas pouvoir le gérer seul

**CosmoKnacki** · 22/07/2014, 13h12

Désolé, effectivement, j'étais partie sur "comparer le texte avec lui même". Ce qui n'est pas adapté pour ce que tu cherches à faire (comparer deux textes différents).

Cela dit, je ne suis pas étonné qu'au delà d'une certaine longueur de texte ton PC explose. Il faut procéder autrement.

**transgohan** · 22/07/2014, 13h15

Envoyé par 0.GeGe.0

EDIT 2 : C'est normal également que dès que mon texte est trop long. Ça ne marche plus, ne me retourne plus rien... Oo Ca par contre je sais pas pourquoi, je vais pas pouvoir le gérer seul

L'affichage des erreurs PHP est-il activé ?
Vérifies notamment la durée maximum d'exécution d'un script autorisée par ton php.ini (de base 30secondes) et la mémoire RAM maximale allouée au script (de même c'est dans le php.ini).

Comparaison de deux textes mot à mot

Langage PHP

Vue hybride

Discussions similaires

Partager

Partager