Comment utiliser la librairie Gensim avec un fichier (texte, float)
Bonjour,
Je débute sur Gensim librairie de Machine Learning. Je dois utiliser Word2Vec.
Mon problème c'est que mon fichier contient les termes + leur vecteur.
Exemple :
Code:
1 2 3 4 5
|
woman 1 1
queen 2 2
man 3 3
king 4 4 |
Je veux seulement utiliser Gensim pour calculer la similarité entre "man" et "woman", et j'ai déjà les vecteurs associés. Je ne comprends pas comment faire ?
Code:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
|
import gensim, logging
from gensim import corpora
from nltk.tokenize import sent_tokenize , word_tokenize
# preparing
#logging.basicConfig(format="%(asctime)s : %(levelname)s : %(message)s", level=logging.INFO)
# sentences
#sentences = open('twitter_w2v.gensim', encoding="utf8").read()
print(sentences)
## Tokenization
words_token = [word_tokenize(sentences)]
print(words_token)
# training
model = gensim.models.Word2Vec(words_token, min_count=1) # Word2Vec(vocab=4, size=100, alpha=0.025)
print(model)
# using the model
m = model.similarity('man','woman')
print(m) |
Résultat :
Citation:
woman 1 1
queen 2 2
man 3 3
king 4 4
[['woman', '1', '1', 'queen', '2', '2', 'man', '3', '3', 'king', '4', '4']]
Word2Vec(vocab=8, size=100, alpha=0.025)
0.0240192119418
Merci