Bonjour,
Je débute sur Gensim librairie de Machine Learning. Je dois utiliser Word2Vec.
Mon problème c'est que mon fichier contient les termes + leur vecteur.
Exemple :
Je veux seulement utiliser Gensim pour calculer la similarité entre "man" et "woman", et j'ai déjà les vecteurs associés. Je ne comprends pas comment faire ?
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5 woman 1 1 queen 2 2 man 3 3 king 4 4
Résultat :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23 import gensim, logging from gensim import corpora from nltk.tokenize import sent_tokenize , word_tokenize # preparing #logging.basicConfig(format="%(asctime)s : %(levelname)s : %(message)s", level=logging.INFO) # sentences #sentences = open('twitter_w2v.gensim', encoding="utf8").read() print(sentences) ## Tokenization words_token = [word_tokenize(sentences)] print(words_token) # training model = gensim.models.Word2Vec(words_token, min_count=1) # Word2Vec(vocab=4, size=100, alpha=0.025) print(model) # using the model m = model.similarity('man','woman') print(m)
Merciwoman 1 1
queen 2 2
man 3 3
king 4 4
[['woman', '1', '1', 'queen', '2', '2', 'man', '3', '3', 'king', '4', '4']]
Word2Vec(vocab=8, size=100, alpha=0.025)
0.0240192119418
Partager