int object has not attribute lower

Version imprimable

Voir 40 message(s) de cette discussion en une page

coucou les amis je m'excuse je suis perdu dan le code help me please

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
import numpy as np 
 
#with open(r'C:\Users\User\Desktop\rockyou.txt', "r",encoding="ISO-8859-1") as f:
 #   lines = f.readlines()
df_result = pd.read_excel(r'C:\Users\User\Downloads\Memoireid3125439.xlsx')
 
#df_result = pd.DataFrame(columns=('id', 'password'))
documents=("K KAPOOR","L KAPOOR")
 
tfidf_vectorizer=TfidfVectorizer()
tfidf_matrix=tfidf_vectorizer.fit_transform(documents) 
#for i,line in enumerate(lines):
 #   id, password = line.split()
  #  df_result.loc[i] = [id, password]
   # print(df_result)
 
 
 
# read by default 1st sheet of an excel file
 
 
for i in df_result.index:
    documents=(df_result["id"][i],df_result["password"][i])
    tfidf_vectorizer=TfidfVectorizer()
    tfidf_matrix=tfidf_vectorizer.fit_transform(documents) 
    result = cosine_similarity(tfidf_matrix[0:1],tfidf_matrix)
    #Levensthein = Leveinshtein.distance(df_result["id"][i],df_result["password"][i])
    #jaccard = nltk.jaccard_distance(df_result["id"][i],df_result["password"][i])
    print(result)

je n'arrive pas a calculer le cosine similarity

15/04/2022, 13h02
MPython Alaplancha

Bonjour,
Tu titres ton post : int object has not attribute lower mais je ne vois comment le code que tu montres pourrait renvoyer une telle exception (pas de lower visible)

Citation:

je n'arrive pas a calculer le cosine similarity

ben il te faut déjà commencer par définir ta fonction cosine_similarity()

Sois plus rigoureux/explicite dans tes demandes si tu veux obtenir de l'aide ...
15/04/2022, 13h03
Sve@r

Bonjour

Citation:

Envoyé par s2a07

je n'arrive pas a calculer le cosine similarity

Que veux-tu qu'on te dise? Comme d'habitude tu arrives, tu nous déposes ta bouse sans même indiquer ni ce qui ne va pas ni ton idée (est-il seulement de toi???) et "coucou les amis démerdez-vous" !!!
Même ton titre " int object has not attribute lower" n'a aucun rapport avec ce code qui n'appelle nulle-part la méthode lower.
15/04/2022, 13h22
MPython Alaplancha

Tu as vu l'ami, sve@r et moi te disons en coeur la même chose.
Il serait nécessaire de te remettre en cause... Ton manque de rigeur n'a rien avoir avec ton niveau présumé sur python.

Pour satisfaire ma curiosité : Pourquoi as-tu besoin de savoir calculer cosine similarity?
15/04/2022, 13h33
s2a07

je vous assure que c'est l'erreur que j'ai avec ce code c'est pour calculer des corrélations entre chaine de carartère
15/04/2022, 13h35
MPython Alaplancha

merci de retourner l'exception complète ...

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
 
[[1. 0.]]
 
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
~\AppData\Local\Temp/ipykernel_14512/2224924502.py in <module>
     31     documents=(df_result["id"][i],df_result["password"][i])
     32     tfidf_vectorizer=TfidfVectorizer()
---> 33     tfidf_matrix=tfidf_vectorizer.fit_transform(documents)
     34     result = cosine_similarity(tfidf_matrix[0:1],tfidf_matrix)
     35 
 
~\anaconda3\lib\site-packages\sklearn\feature_extraction\text.py in fit_transform(self, raw_documents, y)
   1844         """
   1845         self._check_params()
-> 1846         X = super().fit_transform(raw_documents)
   1847         self._tfidf.fit(X)
   1848         # X is already a transformed view of raw_documents so
 
~\anaconda3\lib\site-packages\sklearn\feature_extraction\text.py in fit_transform(self, raw_documents, y)
   1200         max_features = self.max_features
   1201 
-> 1202         vocabulary, X = self._count_vocab(raw_documents,
   1203                                           self.fixed_vocabulary_)
   1204 
 
~\anaconda3\lib\site-packages\sklearn\feature_extraction\text.py in _count_vocab(self, raw_documents, fixed_vocab)
   1112         for doc in raw_documents:
   1113             feature_counter = {}
-> 1114             for feature in analyze(doc):
   1115                 try:
   1116                     feature_idx = vocabulary[feature]
 
~\anaconda3\lib\site-packages\sklearn\feature_extraction\text.py in _analyze(doc, analyzer, tokenizer, ngrams, preprocessor, decoder, stop_words)
    102     else:
    103         if preprocessor is not None:
--> 104             doc = preprocessor(doc)
    105         if tokenizer is not None:
    106             doc = tokenizer(doc)
 
~\anaconda3\lib\site-packages\sklearn\feature_extraction\text.py in _preprocess(doc, accent_function, lower)
     67     """
     68     if lower:
---> 69         doc = doc.lower()
     70     if accent_function is not None:
     71         doc = accent_function(doc)
 
AttributeError: 'int' object has no attribute 'lower'

15/04/2022, 14h04
Arioch

int object has not attribute lower

La classe 'int' n'a pas d'attribut 'lower', ce qui est normal car mettre en minuscule un nombre me parait quelque peu saugrenu.

Ta variable 'doc' contient un 'int', à toi de voir si c'est normal et si non, pourquoi.
15/04/2022, 14h11
s2a07

le problème c'est que je ne sais ou est ce fichier je n'y touche pas
15/04/2022, 14h17
Arioch

Qu'est censé contenir 'doc' pour toi, puisque tu veux mettre le contenu en minuscules ?

Citation:

Envoyé par s2a07

le problème c'est que je ne sais ou est ce fichier je n'y touche pas

Le code que tu présentes, il est de qui ?

il est de moi et je ne code que ca je ne vois pas pourquoi python me parle de doc je ne comprends rien

voici ce que je code et je ne touche qu a ca

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
 
import numpy as np 
 
#with open(r'C:\Users\User\Desktop\rockyou.txt', "r",encoding="ISO-8859-1") as f:
 #   lines = f.readlines()
df_result = pd.read_excel(r'C:\Users\User\Downloads\Memoireid3125439.xlsx')
 
#df_result = pd.DataFrame(columns=('id', 'password'))
documents=("K KAPOOR","L KAPOOR")
 
tfidf_vectorizer=TfidfVectorizer()
tfidf_matrix=tfidf_vectorizer.fit_transform(documents) 
#for i,line in enumerate(lines):
 #   id, password = line.split()
  #  df_result.loc[i] = [id, password]
   # print(df_result)
 
 
 
# read by default 1st sheet of an excel file
 
 
for i in df_result.index:
    documents=(df_result["id"][i],df_result["password"][i])
    tfidf_vectorizer=TfidfVectorizer()
    tfidf_matrix=tfidf_vectorizer.fit_transform(documents) 
    result = cosine_similarity(tfidf_matrix[0:1],tfidf_matrix)
    #Levensthein = Leveinshtein.distance(df_result["id"][i],df_result["password"][i])
    #jaccard = nltk.jaccard_distance(df_result["id"][i],df_result["password"][i])
    print(result)

merci d'avance

15/04/2022, 16h42
s2a07

Aidez moi au secours

Citation:

Envoyé par s2a07

il est de moi et je ne code que ca je ne vois pas pourquoi python me parle de doc je ne comprends rien

Ok, je vois mieux ce que tu ne vois pas.
Voilà ce qui se passe: à la ligne 33, tu appelles tfidf_matrix=tfidf_vectorizer.fit_transform(documents). De là, la méthode tfidf_vectorizer.fit_transform() de l'objet "TfidfVectorizer" entame un travail. Elle a besoin pour faire ce travail d'en appeler une autre qui elle-même a besoin d'en appeler une autre et etc etc. Et à la fin, on en arrive à la dernière qui appelle lower() pour le truc qu'elle a reçu. Sauf que ce truc, censé être une string (ou tout autre objet possédant une méthode lower), est en réalité un int.

Exemple plus parlant: je crée une fonction "toto" qui fait un truc super..
Code:

1 2 3 4 >>> def toto(s): return s.lower()+s.upper() ... >>> toto("azert") 'azertAZERT'
L'ami Hominidé, qui n'arrivait pas à faire un truc, trouve ma fonction et la trouve géniale car ça lui permet de faire le truc qu'il voulait faire depuis longtemps...
Code:

1 2 3 4 >>> def titi(s): return toto(s)*2 ... >>> titi("azert") 'azertAZERTazertAZERT'
L'ami Arioch trouve tout ça super génial car justement il avait un souci avec sa fonction qu'il n'arrivait pas à finaliser...
Code:

1 2 3 4 >>> def tutu(s): return "".join("[%s]" % x for x in titi(s)) ... >>> tutu("azert") '[a][z][e][r][t][A][Z][E][R][T][a][z][e][r][t][A][Z][E][R][T]'
Et toi tu arrives et tu veux utiliser la fonction sans la connaitre...
Code:

1 2 3 4 5 6 7 >>> tutu(123) Traceback (most recent call last): File "<stdin>", line 1, in <module> File "<stdin>", line 1, in tutu File "<stdin>", line 1, in titi File "<stdin>", line 1, in toto AttributeError: 'int' object has no attribute 'lower'
Ca ne marche pas parce que tu lui passes un int et non une string. A qui la faute? A Arioch (c'est sa fonction que tu appelles) ? A Hominidé (Arioch appelle sa fonction) ? Ou à moi (Hominidé appelle ma fonction) ? Ou plus simplement à toi qui n'utilise pas la fonction comme il faut???

Donc tout ce qui est dans Anaconda c'est pas de ton fait. On peut présumer que quand ça reçoit un argument correct ça marche (le truc est présumé avoir été testé). Si dans ton cas ça ne marche pas, il faut remonter au dernier niveau qui a appelé le processus (c'est pour ça que quand Python tombe en échec il donne toute la liste des instructions ayant amené l'échec ; pour qu'on puisse voir laquelle est fautive) donc sur ce qu'attend la méthode tfidf_vectorizer.fit_transform() et si ce que toi tu lui passe correspond à ce qui est prévu.

Citation:

Envoyé par s2a07

Aidez moi au secours

Hé ho, on est des bénévoles, t'es pas en train de te noyer. Ouvre un tuto, apprends Python et déjà tu élimineras 97% des raisons qui font que tu viens ici.

Citation:

Envoyé par s2a07

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
 
[[1. 0.]]
 
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
~\AppData\Local\Temp/ipykernel_14512/2224924502.py in <module>
     31     documents=(df_result["id"][i],df_result["password"][i])
     32     tfidf_vectorizer=TfidfVectorizer()
---> 33     tfidf_matrix=tfidf_vectorizer.fit_transform(documents)
     34     result = cosine_similarity(tfidf_matrix[0:1],tfidf_matrix)
     35 
 
~\anaconda3\lib\site-packages\sklearn\feature_extraction\text.py in fit_transform(self, raw_documents, y)
   1844         """
   1845         self._check_params()
-> 1846         X = super().fit_transform(raw_documents)
   1847         self._tfidf.fit(X)
   1848         # X is already a transformed view of raw_documents so
 
~\anaconda3\lib\site-packages\sklearn\feature_extraction\text.py in fit_transform(self, raw_documents, y)
   1200         max_features = self.max_features
   1201 
-> 1202         vocabulary, X = self._count_vocab(raw_documents,
   1203                                           self.fixed_vocabulary_)
   1204 
 
~\anaconda3\lib\site-packages\sklearn\feature_extraction\text.py in _count_vocab(self, raw_documents, fixed_vocab)
   1112         for doc in raw_documents:
   1113             feature_counter = {}
-> 1114             for feature in analyze(doc):
   1115                 try:
   1116                     feature_idx = vocabulary[feature]
 
~\anaconda3\lib\site-packages\sklearn\feature_extraction\text.py in _analyze(doc, analyzer, tokenizer, ngrams, preprocessor, decoder, stop_words)
    102     else:
    103         if preprocessor is not None:
--> 104             doc = preprocessor(doc)
    105         if tokenizer is not None:
    106             doc = tokenizer(doc)
 
~\anaconda3\lib\site-packages\sklearn\feature_extraction\text.py in _preprocess(doc, accent_function, lower)
     67     """
     68     if lower:
---> 69         doc = doc.lower()
     70     if accent_function is not None:
     71         doc = accent_function(doc)
 
AttributeError: 'int' object has no attribute 'lower'

Ah oui effectivement. Je te dois des excuses pour avoir douté de tes affirmations.

L'exception nous dit que TfidfVectorizer() renvoit notamment des int et que la méthode fit_transform(documents) qui lui est appliquée s'attend à recevoir que des str...

Ceci étant dit, j'ignore comment doit s'agencer ton code, n'ayant moi-même jamais abordé ces commandes (et je n'ai pas l'envie de consacrer du temps en recherche).

15/04/2022, 18h20
MPython Alaplancha

oups je n'avais pas vu le message de l'ami Sev@r (je faisais deux truc en même temps et j'ai oublié de raffraichir la page)

Citation:

Envoyé par l'ami Sev@r

Hé ho, on est des bénévoles, t'es pas en train de te noyer. Ouvre un tuto, apprends Python et déjà tu élimineras 97% des raisons qui font que tu viens ici.

+2

je suis trop a labour la je ne sais pas quoi faire

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
 
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import Levenshtein
#from Levenshtein import distance as levenshtein_distance
 
 
#first u have to open  the file and seperate every line like below:
 
 
#with open(r'C:\Users\User\Desktop\rockyou.txt', "r",encoding="ISO-8859-1") as f:
 #   lines = f.readlines()
df_result = pd.read_excel(r'Memoireid3125439.xlsx')
 
 
documents=("K KAPOOR","L KAPOOR")
 
tfidf_vectorizer=TfidfVectorizer()
tfidf_matrix=tfidf_vectorizer.fit_transform(documents) 
 
def jaccard_similarity(list1, list2):
    intersection = len(list(set(list1).intersection(list2)))
    union = (len(list1) + len(list2)) - intersection
    return float(intersection) / union
 
 
 
 
for i in df_result.index:
    result = cosine_similarity(tfidf_matrix[0:1],tfidf_matrix)
    Levensthein = levenshtein.distance(df_result["id"][i],df_result["password"][i])
    jaccard = jaccard_similarity(df_result["id"][i],df_result["password"][i])
    print(result)
    print(Levensthein)
    print(jaccard)
    print(result)

comment me debarasser de cette erreur

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
ImportError                               Traceback (most recent call last)
~\AppData\Local\Temp/ipykernel_9140/2094574141.py in <module>
      2 from sklearn.feature_extraction.text import TfidfVectorizer
      3 from sklearn.metrics.pairwise import cosine_similarity
----> 4 import Levenshtein
      5 #from Levenshtein import distance as levenshtein_distance
      6 
 
~\Desktop\python-Levenshtein-0.12.2\Levenshtein\__init__.py in <module>
----> 1 from Levenshtein import _levenshtein
      2 from Levenshtein._levenshtein import *
      3 
      4 __doc__ = _levenshtein.__doc__
 
ImportError: cannot import name '_levenshtein' from partially initialized module 'Levenshtein' (most likely due to a circular import) (C:\Users\User\Desktop\python-Levenshtein-0.12.2\Levenshtein\__init__.py)

merci d'avance

15/04/2022, 18h49
MPython Alaplancha

Citation:

je suis trop a labour la je ne sais pas quoi faire

à labour de quoi? je serais assez curieux de la savoir.
Peut-être qu'avec un tracteur ...
Bon j'arrête de te taquiner. Je ne suis pas gentil aujourd'hui, j'suis même d'humeur massacrante :massacre:
15/04/2022, 19h24
s2a07

tu saurais toi me debarasser de la derniere erreur du import je ne sais pas trop quoi faire
15/04/2022, 19h33
Sve@r

Citation:

Envoyé par s2a07

je suis trop a labour

Tu sais que tout ce temps que tu as passé à essayer de faire "marchoter" tes pauvres codes récupérés on ne sais-où tu l'aurais investi dans la lecture d'un tuto...
En plus ce return float(intersection) / union c'est un code Python2 ça !!! En Python3 les divisions sont automatiquement calculées en flottant...

Citation:

Envoyé par s2a07

là je ne sais pas quoi faire

Par rapport à tous les nombreux autres moments où tu savais quoi faire tu veux dire???

Citation:

Envoyé par s2a07

comment me debarasser de cette erreur

Supprimer l'instruction. Tu fais ce qu'on appelle un "import circulaire". Un module A qui importe un module B, et un module B qui, soit directement, soit indirectement, importe le module A.
Il n'y a aucun moyen de régler le conflit. Il faut repenser le code, le réorganiser. Par exemple créer un programme principal qui importe le module A et le module B. Là le module A, même sans importer le module B, pourra quand-même utiliser des outils du module B (puisque c'est le programme principal qui s'est chargé des imports)

Citation:

Envoyé par Hominidé

à labour de quoi? je serais assez curieux de la savoir.
Peut-être qu'avec un tracteur ...

Ben... en même temps, tracteur... labour... pour un paysan ça lui parle...8-)

Citation:

Envoyé par Hominidé

Citation:

Envoyé par s2a07

tu saurais toi me debarasser de la derniere erreur du import

Alors? cap ou pas cap? :aie:
16/04/2022, 10h22
s2a07

Franchement je suis bloqué et je ne sais pas quoi faire
Ça ne marche pas help me please
16/04/2022, 13h32
wiztricks

Citation:

Envoyé par s2a07

Franchement je suis bloqué et je ne sais pas quoi faire
Ça ne marche pas help me please

Essayez de réfléchir à ce que vous voulez faire et aux outils/fonctions à utiliser pour y arriver plutôt que de recopier du code sans trop comprendre comment le faire marcher...

- W
16/04/2022, 17h54
s2a07

1 pièce(s) jointe(s)

Je cherche à calculer la distance de Levenshtein sur le fichier rockyou je ne trouve pas de fonction qui marche cosine similarity aussi je suis désespéré j'ai récupéré des librairies et ça ne fonctionne pas aidez-moi au moins pour le cosine et la distance de Levenshtein ci-joint le fichier rockyou
s'il vous plait aidez-moi
16/04/2022, 18h10
wiztricks

Salut,

Citation:

Envoyé par s2a07

j'ai récupéré des librairies et ça ne fonctionne pas

Regardez comment se calcule la distance de Levenshtein et essayez de le coder en Python...

- W

voici mon code et je ne vois comment le debuguer

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
 
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import Levenshtein
 
 
 
#first u have to open  the file and seperate every line like below:
 
 
#with open(r'C:\Users\User\Desktop\rockyou.txt', "r",encoding="ISO-8859-1") as f:
 #   lines = f.readlines()
df_result = pd.read_excel(r'Memoireid3125439.xlsx')
 
 
documents=("K KAPOOR","L KAPOOR")
 
tfidf_vectorizer=TfidfVectorizer()
tfidf_matrix=tfidf_vectorizer.fit_transform(documents) 
 
def jaccard_similarity(list1, list2):
    intersection = len(list(set(list1).intersection(list2)))
    union = (len(list1) + len(list2)) - intersection
    return float(intersection) / union
 
 
 
 
for i in df_result.index:
    result = cosine_similarity(tfidf_matrix[0:1],tfidf_matrix)
    Levensthein = distance(df_result["id"][i],df_result["password"][i])
    jaccard = jaccard_similarity(df_result["id"][i],df_result["password"][i])
    print(result)
    print(Levensthein)

voici l'erreur je ne vois comment faire merci pour votre aide

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
 
ImportError                               Traceback (most recent call last)
~\AppData\Local\Temp/ipykernel_3096/876404934.py in <module>
      2 from sklearn.feature_extraction.text import TfidfVectorizer
      3 from sklearn.metrics.pairwise import cosine_similarity
----> 4 import Levenshtein
      5 
      6 
 
~\Desktop\python-Levenshtein-0.12.0\Levenshtein\__init__.py in <module>
----> 1 from Levenshtein import _levenshtein
      2 from Levenshtein._levenshtein import *
      3 
      4 __doc__ = _levenshtein.__doc__
 
ImportError: cannot import name '_levenshtein' from partially initialized module 'Levenshtein' (most likely due to a circular import) (C:\Users\User\Desktop\python-Levenshtein-0.12.0\Levenshtein\__init__.py)

16/04/2022, 19h43
Sve@r

Citation:

Envoyé par s2a07

Je cherche à calculer la distance de Levenshtein sur le fichier rockyou

Une distance de Levenshtein est une distance qui sépare deux chaines. Je ne vois pas comment on peut l'appliquer sur un fichier. C'est exactement comme si tu avais dit "je cherche à calculer la distance en km sur la ville de Paris", ça ne veut rien dire du tout.

Citation:

Envoyé par s2a07

voici mon code et je ne vois comment le debuguer

Moi je ne vois pas, dans ce code, de lien avec le fichier "rockyou" :whistle:

Citation:

Envoyé par s2a07

je ne trouve pas de fonction qui marche cosine similarity aussi je suis désespéré j'ai récupéré des librairies et ça ne fonctionne pas

Bis repetita: arrête de vouloir récupérer des trucs qui ne marchent pas et code toi un truc qui marche. Accessoirement Hominidé t'a demandé pourquoi tu avais besoin de "cosine similarity", la moindre des politesses eût été de lui répondre.

Citation:

Envoyé par s2a07

voici l'erreur je ne vois comment faire merci pour votre aide

Tu sais que reproduire les mêmes actions en espérant un résultat différent est un signe de stupidité ? Je t'ai déjà expliqué le souci et comment le régler. Donc si tu reposes la même question, tu auras la même réponse (merci au ctrl-c+ctrl-v) : supprimer l'instruction. Tu fais ce qu'on appelle un "import circulaire". Un module A qui importe un module B, et un module B qui, soit directement, soit indirectement, importe le module A.
Il n'y a aucun moyen de régler le conflit. Il faut repenser le code, le réorganiser. Par exemple créer un programme principal qui importe le module A et le module B. Là le module A, même sans importer le module B, pourra quand-même utiliser des outils du module B (puisque c'est le programme principal qui s'est chargé des imports)

Citation:

Envoyé par s2a07

Code:

ImportError: cannot import name '_levenshtein' from partially initialized module 'Levenshtein' (most likely due to a circular import) (C:\Users\User\Desktop\python-Levenshtein-0.12.0\Levenshtein\__init__.py)

Voilà, il n'y a pas plus clair.
17/04/2022, 08h43
s2a07

salut hominde desole de ma reponse tardive je suis perturbe le cosine similarite est pour trouver d'eventuelle correlation
je ne sais pas resoudre l'import circulaire merci pour ton aide d'avance
17/04/2022, 08h51
wiztricks

Citation:

Envoyé par s2a07

je ne sais pas resoudre l'import circulaire merci pour ton aide d'avance

Vérifiez d'abord que le module python-Levenshtein est correctement installé car l'erreur dit aussi qu'il ne trouve pas la DLL correspondante.
note: faire quelque chose (comme installer un module) et vérifier que c'est correct avant de partir à vouloir s'en servir... c'est juste un minimum de rigueur.

- W

Citation:

Envoyé par s2a07

salut hominde desole de ma reponse tardive je suis perturbe le cosine similarite est pour trouver d'eventuelle correlation

Entre quoi et quoi???
Et c'est franchement pas compliqué à trouver !!!
Code:

1 2 3 4 5 6 7 8 9 10 11 12 >>> a=[3, 45, 7, 2] >>> b=[2, 54, 13, 15] >>> from numpy import dot >>> from numpy.linalg import norm >>> dot(a, b)/(norm(a)*norm(b)) 0.9722842517123499 >>> import math >>> sum(i*j for (i, j) in zip(a, b))/(math.sqrt(sum(i**2 for i in a))*math.sqrt(sum(i**2 for i in b))) 0.9722842517123499 >>>
Trouvé ici en 4 secondes https://stackoverflow.com/questions/...2-number-lists

Citation:

Envoyé par s2a07

je ne sais pas resoudre l'import circulaire

Ben repars ailleurs. En 3 secondes j'ai trouvé ce code qui calcule une distance de Levenshtein: https://128mots.com/index.php/2021/0...shtein-python/

Voilà. Total 7 secondes. J'ai mis plus de temps à taper ce post...

PS: on remarquera entre temps que le souci du int.lower() semble avoir disparu... :whistle:

17/04/2022, 11h22
MPython Alaplancha

Bonjour,

Citation:

Envoyé par s2a07

salut hominde desole de ma reponse tardive je suis perturbe le cosine similarite est pour trouver d'eventuelle correlation
je ne sais pas resoudre l'import circulaire merci pour ton aide d'avance

heu, j'suis seul. En l'occurrence, c'est plutôt à Sev@r et wistricks qui t'ont apporté de l'aide sur ce post... et je n'ai pas vraiment quelque chose à y ajouter.
17/04/2022, 15h59
papajoker

Citation:

Envoyé par Sve@r

Entre quoi et quoi???

Citation:

Envoyé par s2a07

pour trouver d'eventuelle correlation

Dans un sujet précédent, ici il a un csv de login et mots de passe et cherche une correlation entre id et pass.

Peut-être qu'il désire (plus tard) deviner une liste de mots de passe pour un login particulier/approchant ??? ps: me semble bien faux comme hypothèse mais comme exercice, pourquoi pas
Peut-être que la solution "cosine" a été piochée sur le web comme tous les autres bouts de code python ?
17/04/2022, 16h41
wiztricks

Citation:

Envoyé par papajoker

Peut-être que la solution "cosine" a été piochée sur le web comme tous les autres bouts de code python ?

C'est une solution qui permet de mesurer la distance (sous forme d'un nombre dans [-1, 1]) entre 2 mots de passe (comme la distance de Levenshtein). Et donc d'avoir une mesure "objective" de la similarité entre différents mots de passe.

Après que peut on faire avec ça est un sujet de sécurité (informatique) et ce forum n'est pas le lieu pour en discuter (même s'il était fréquenté par les experts du domaine, ayant des choses intéressantes à raconter sur le sujet, ce n'est pas le lieu où leur prose pourrait profiter aux personnes qui s'intéressent à ces sujets).

Dans un forum de programmation Python, on ne s'intéresse pas trop aux motivations (au pourquoi du pourquoi on veut coder un machin qui...). Si je veux écrire un bout de code qui aille craquer un site internet et que j'ai des problèmes à le mettre au point, je créer un exemple "neutre" qui permet de reproduire le problème sans dire que la mise au point de ce bout est une des pièces maîtresse d'une machine de guerre.

Il y a longtemps, lorsqu'on faisait construire à des maçons des passages secrets, on les trucidait à la livraison (ainsi que leur proches) histoire que le secret soit bien gardé. Avec le temps, on a trouvé que se défaire ainsi d'expertises était dommageable et on a créé la franc-maçonnerie (des qui s'engageaient à ne rien divulguer sous peine de punitions par leurs confrères). Plus connu de nos jours est le secret défense... mais il est beaucoup plus subtil de bosser normalement pour des sous ensembles de projets dont on ignore la destination.

- W
17/04/2022, 17h39
papajoker

Ce que je vois ici, c'est une "comparaison" id/pass et non entre mots de passe, ce qui me fait donc douter (de cosine).

Non, en fait je n'ai rien vu de mal dans ma supposition, oui le mot deviner est trop fort. Mais oui, il peut avoir des cas très intéressant pour la sécurité, par exemple:
pour un intranet(ou forum), en fonction du login/pass du nouvel utilisateur, le site va afficher un message

Citation:

Attention `warrior`, votre mot de passe est trop classique (20% des logins proches du votre ont un mot de passe du type "123")

ps: message moins explicite sinon c'est un encouragement à cet utilisateur de tester "warrior05:123"

Mais ici, il faut créer des "groupes" id et groupes "pass" (numerique,==id, complexe,...formule mathématique) et faire des relations entre groupes ? ce qui est loin du code présent

----------------
comparaison/liaison id/pass avec cosine, comme dit plus haut, je ne vois aucun rapport entre les 2 :
si j'ai paul{,07,line} qui utilisent "123" comme pass
Rien ne me dit que paul08 va lui pencher vers le même type de pass
si aucune "michelle" n'a encore utilisé "123", rien ne dit que michele09 ne va pas l'utiliser

La liaison id/pass est le hazard (sauf pour quelques uns comme root:root)
17/04/2022, 21h52
wiztricks

Citation:

Envoyé par papajoker

Ce que je vois ici, c'est une "comparaison" id/pass et non entre mots de passe, ce qui me fait donc douter (de cosine).

Le PO ne sait pas programmer donc il navigue a vue sans qu'on sache trop le pourquoi du comment...

Ceci dit, bien qu'on puisse être perplexe sur le problème qu'il cherche à résoudre, on ne peut que constater qu'il ne sait pas programmer => résoudre ses problèmes risque de le mener nulle part (un problème XY).

- W
19/04/2022, 08h31
s2a07

Bonjour comment faire pour parcourir ligne par ligne le dataframe et calculer la distance de levensthein entre le login et le mot de passe j’ai fais une boucle mais ça n’affiche pas toutes les lignes
Merci d’avance
19/04/2022, 11h15
wiztricks

Citation:

Envoyé par s2a07

comment faire pour parcourir ligne par ligne le dataframe et j’ai fais une boucle mais ça n’affiche pas toutes les lignes

ça devrait se trouver dans le tuto pandas que vous avez du potasser avant de vouloir vous en servir...

- W

coucou au lieu de se moquer de moi que je ne sais pas programmer etes vous capable de m'expliquer pourquoi on arrive pas avec ce code
a calculer la quantite sur chaque ligne

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
 
 
def levenshtein(chaine1, chaine2):
    taille_chaine1 = len(chaine1) + 1
    taille_chaine2 = len(chaine2) + 1
    levenshtein_matrix = np.zeros ((taille_chaine1, taille_chaine2))
    for x in range(taille_chaine1):
        levenshtein_matrix [x, 0] = x
    for y in range(taille_chaine2):
        levenshtein_matrix [0, y] = y
    for x in range(1, taille_chaine1):
        for y in range(1, taille_chaine2):
            if chaine1[x-1] == chaine2[y-1]:
                levenshtein_matrix [x,y] = min(
                    levenshtein_matrix[x-1, y] + 1,
                    levenshtein_matrix[x-1, y-1],
                    levenshtein_matrix[x, y-1] + 1
                )
            else:
                levenshtein_matrix [x,y] = min(
                    levenshtein_matrix[x-1,y] + 1,
                    levenshtein_matrix[x-1,y-1] + 1,
                    levenshtein_matrix[x,y-1] + 1
                )
    return (levenshtein_matrix[taille_chaine1 - 1, taille_chaine2 - 1])
print("distance de levenshtein = " + str(levenshtein("Lorem ipsum dolor sit amet", "Laram zpsam dilir siy amot")))
 
 
 
 
def get_cosine(vec1, vec2):
    intersection = set(vec1.keys()) & set(vec2.keys())
    numerator = sum([vec1[x] * vec2[x] for x in intersection])
 
    sum1 = sum([vec1[x]**2 for x in vec1.keys()])
    sum2 = sum([vec2[x]**2 for x in vec2.keys()])
    denominator = math.sqrt(sum1) * math.sqrt(sum2)
 
    if not denominator:
        return 0.0
    else:
        return float(numerator) / denominator
 
 
def text_to_vector(text):
    word = re.compile(r'\w+')
    words = word.findall(text)
    return Counter(words)
 
 
def get_result(content_a, content_b):
    text1 = content_a
    text2 = content_b
 
    vector1 = text_to_vector(text1)
    vector2 = text_to_vector(text2)
 
    cosine_result = get_cosine(vector1, vector2)
    return cosine_result
 
 
je parcours les lignes pourtant a cet endroit 
for i in df_result.index:
    result = get_result(df_result["id"][i],df_result["password"][i])
    Levensthein = levenshtein(df_result["id"][i],df_result["password"][i])
    jaccard = jaccard_similarity(df_result["id"][i],df_result["password"][i])
    print(result)
    print(Levensthein)
    print(jaccard)
    print(result)

le fichier est le fichier ci dessus rockyou le calcul se fait que pour une ligne pourtant je parcours par index la ligne du dataframe
merci d'avance

20/04/2022, 20h08
Sve@r

Citation:

Envoyé par s2a07

coucou au lieu de se moquer de moi que je ne sais pas programmer

Euh... tu fais là une grave erreur. On ne se moque pas de toi parce que tu ne sais pas programmer, on se moque de toi parce que tu ne fais aucun effort pour apprendre à programmer. C'est là une nuance assez importante. Tu arrives avec tes codes piochés on ne sais où (enfin si ici je sais où tu l'as trouvé, tu l'as trouvé sur ce lien que je t'ai filé récemment) mais tu ne fais aucun effort pour essayer de comprendre ce qui est écrit. La preuve, le code donné finit sur un test print("distance de levenshtein = " + str(levenshtein("Lorem ipsum dolor sit amet", "Laram zpsam dilir siy amot"))) fait pour tester la fonction, t'as même pas eu l'idée de l'enlever pour ton programme (dans lequel ce test ne sert plus à rien). Donc on se moque de toi parce que tu es une honte pour la population de ceux qui veulent vraiment apprendre Python.

Citation:

Envoyé par s2a07

etes vous capable de m'expliquer pourquoi on arrive pas avec ce code a calculer la quantite sur chaque ligne

Voilà, même là on pige que dalle. La quantité de quoi??? De pommes de terres récoltées en Australie??? T'es même pas foutu de poser une question complète et intelligible.

ok les amis je vais etre rigoureux et je vais montrer mon vraie visage :D lol
pouquoi je n'ai qu'une ligne d'afficher de rockyou pour le calcul de la distance de levenshtein et jaccard j'ai le resultat que pour la premiere ligne j'aurais du mettre un tableau result je pense
alors que je parcours toutes les lignes du dataframe
Code:

1 2 3 4 5 6 7 8 9 10 11 je parcours les lignes pourtant a cet endroit for i in df_result.index: result = get_result(df_result["id"][i],df_result["password"][i]) Levensthein = levenshtein(df_result["id"][i],df_result["password"][i]) jaccard = jaccard_similarity(df_result["id"][i],df_result["password"][i]) print(result) print(Levensthein) print(jaccard) print(result)

20/04/2022, 21h02
Sve@r

Citation:

Envoyé par s2a07

alors que je parcours toutes les lignes du dataframe

Ca c'est toi qui le dit, et visiblement pour Python ce n'est pas le cas.
Déjà est-ce que vraiment for i in result.index signifie "je vais parcourir toutes les lignes" ??? Cela veut dire que "result.index" contiendrait donc la liste des lignes. Peut-être, peut-être pas (je ne sais pas ce qu'est "result.index" mais surtout tu ne montres pas comment tu as chargé "result"). Quoi qu'il en soit, un print(result.index) aurait permis de t'en assurer (et ça on te l'a déjà dit !!!).
A partir de là...

En effet , du rigoureux :mrgreen:

Citation:

j'aurais du mettre un tableau result

donc tu nous dis que tu codes in truc que tu n'aurrais pas du faire ? rigoureux en codage ! et pourquoi ne pas avoir des champs pour les résultats dans ta table ? (pas trouvé le code sur le web?)

Citation:

j'ai le resultat que pour la premiere ligne

Tu nous dis que ta boucle ne s'exécute qu'une fois ? (pas clair)
Donc rien à voir avec tes calculs. Tu as fait un bond en arrière de 15 jours ?

Mais puisque tu ne nous donne aucune sortie : on a aucune idée de ton véritable problème avec ton bout de code (même si il était complet)

-----------
Décompose ton code, essaye de tester une seule chose à la fois TON ERREUR avec un autre script de test le plus minimal possible (sur ta db ou tes calculs ???)

par exemple (pour calcul pas ta db)
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 def levenshtein(login: str, mot_de_passe: str): return sum(ord(x) for x in login) % sum(ord(x) for x in mot_de_passe) # pas pour toi colnames = ['id', 'password', 'levensthein'] df = pd.DataFrame([ # a modifier selon ton véritable format ['pierre', '123', ''], ['paul', 'admin', ''], ['root', 'root', '']], columns = colnames) pd.set_option('display.max_rows', 6) print(df) for i in df.index: print(i, end=" ") # boucle est ok ? print(df["id"][i], end=" ") # une valeur dans table ? ou pas toujours la même valeur ? lev_result = levenshtein(df["id"][i], df["password"][i]) # df["levensthein"][i] = lev_result print("levensthein:", lev_result) if i>5: # si utilise plus tard la véritable db break print(df)

Voir 40 message(s) de cette discussion en une page

Fuseau horaire GMT +2. Il est actuellement 22h17.