Bonjour,

Je débute sur Gensim librairie de Machine Learning. Je dois utiliser Word2Vec.
Mon problème c'est que mon fichier contient les termes + leur vecteur.
Exemple :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
 
woman 1 1
queen 2 2
man 3 3
king 4 4
Je veux seulement utiliser Gensim pour calculer la similarité entre "man" et "woman", et j'ai déjà les vecteurs associés. Je ne comprends pas comment faire ?

Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
 
import gensim, logging
from gensim import corpora
from nltk.tokenize import sent_tokenize , word_tokenize
 
# preparing
#logging.basicConfig(format="%(asctime)s : %(levelname)s : %(message)s", level=logging.INFO)
 
# sentences
#sentences = open('twitter_w2v.gensim', encoding="utf8").read()
print(sentences)
 
## Tokenization
words_token = [word_tokenize(sentences)]
print(words_token)
 
# training
model = gensim.models.Word2Vec(words_token, min_count=1)      # Word2Vec(vocab=4, size=100, alpha=0.025)
print(model)
 
# using the model
m = model.similarity('man','woman')
print(m)
Résultat :
woman 1 1
queen 2 2
man 3 3
king 4 4
[['woman', '1', '1', 'queen', '2', '2', 'man', '3', '3', 'king', '4', '4']]

Word2Vec(vocab=8, size=100, alpha=0.025)
0.0240192119418
Merci