Lister et compter les occurrences de mots dans un table char

**jmuth** · 17/05/2015, 12h41

Bonjour,

Je suis nouveau sur ce forum et me résigne à poster ma question n'ayant pu trouver de réponse ni ici ni ailleurs (je me demande même si ce que je veux faire est réellement possible, vous me le direz).

Je souhaite compter, dans une table de type VARCHAR, le nombre d'occurence de chaque mot, pour voir ceux qui ressorte le plus.

Voilà en fait la forme de mon problème: j'ai une table de character fictif du cinéma (disons ID + nom), et essaye d'en ressortir les noms le plus souvent donné aux personnage. Intuitivement, ce genre de requête serait

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
SELECT Character.name, COUNT(*) AS number
FROM Character
GROUP BY Character.name
ORDER BY number DESC
LIMIT 100

Le problème est que l'attribut NOM contient le nom, prénom et parfois fonction tu personnage, et que "Johnny X" et "Johnny Y" ne sera pas reconnu comme étant le même nom utilisé deux fois.

D'avance merci à tous de votre aide!
Jmuth

**SergioMaster** · 17/05/2015, 15h11

Bonjour,

pourquoi ne pas 'extraire' jusqu'au premier espace ? reste que la fonction d'extraction dépendra un peu du SGBD qu'il eut donc été bon d'indiquer

**jmuth** · 17/05/2015, 15h18

Bonjour,

Merci de ta réponse.

Donc ton idée serait d'uniquement considérer le premier mot de chaque entrée NAME. C'est déjà pas mal. Il restera quelques problèmes, dans le cas ou le nom a été mis avant le prénom par exemple, etc... Les data m'ont été fournie pour un projet universitaire et non sont pas parfaitement homogène. Parfois nom-prénom, parfois prénom-nom, parfois autre chose (elles sont tirée de IMDB (internet movie data base)).

Je travaille sur pgAdmin (PostgreSQL)

**SergioMaster** · 18/05/2015, 07h46

Bonjour,

Les data m'ont été fournie pour un projet universitaire et non sont pas parfaitement homogène. Parfois nom-prénom, parfois prénom-nom, parfois autre chose

le fameux principe du GIGO ! Garbage In Garbage Out .
tu peux toujours tenter quelque chose en appliquant le principe le premier espace sert à délimiter deux mots (prénom ou nom)
mais bien évidemment des noms doubles ou des noms comme PIERRE RICHARD (je sais c'est un acteur non un personnage mais c'est le nom qui me vient en tête) etc... poseront quand même des soucis d'interprétation , ceci dit, sur un gros ensemble de données, étant données que c'est statistique le résultat sera peut être parlant quand même

principe : préparer une CTE (WITH) qui sera l'UNION de 2 requêtes (ou plus)

proposition sans filet (non testée donc, écrite à la volée)

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
WITH T AS
(
SELECT SUBSTRING(NAME FOR POSITION(' ' IN NOM)-1) AS MOT FROM CHARACTER  // devant l''espace
JOIN 
SELECT SUBSTRING(NAME FROM POSITION(' ' IN NOM)+1) AS MOT FROM CHARACTER // après l''espace
)
SELECT MOT AS NAME,COUNT(*) AS NUMBER FROM T
GROUP BY MOT
ORDER BY NUMBER DESC
LIMIT 100

ici j'ai juste utilisé SUBSTRING et POSITION voir ce qu'il pourrait en être avec des expressions régulières

**jmuth** · 18/05/2015, 11h36

Re-bonjour,

MERCI!

Grâce à ton idée j'ai pu monter un code qui fonctionne plus ou moins. Disons le mieux possible vis-à-vis des datas fournies. Je laisse ici le code pour quelqu'un qui rencontrerai un jour le même problème

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
WITH t AS(
SELECT split_part(name, ' ', 1) AS nom FROM character
UNION ALL
SElECT split_part(name, ' ', 2) AS nom FROM character
UNION ALL
SElECT split_part(name, ' ', 3) AS nom FROM character
)
SELECT nom, COUNT(*) AS number
FROM t
WHERE nom NOT LIKE ' '
GROUP BY nom
ORDER BY number DESC
LIMIT 100

Les split_part prennent le premier, deuxième et troisième délimités par un espace et le nom NOT LIKE ' ' permet d'ignorer les caractères vide potentiellement créer par un split_part(name, ' ', 3) appliqué à un élément de deux mots seulement.

Merci encore de ton aide et bonne journée,
Jmuth

Lister et compter les occurrences de mots dans un table char

Langage SQL

Discussions similaires

Partager

Partager