IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

comparaison offset terme


Sujet :

Python

  1. #1
    Membre régulier
    Inscrit en
    Mars 2010
    Messages
    157
    Détails du profil
    Informations forums :
    Inscription : Mars 2010
    Messages : 157
    Points : 80
    Points
    80
    Par défaut comparaison offset terme
    Bonjour

    J'ai un programme qui calcule la précision le rappel ( le nombre de réponses correcte retrouvé): ce programme compare des fichiers deux par deux, si ces fichiers ont le même nom:

    exemple de fichier annoté qui sera utilisé comme référence

    T1 Process 5 14 oxidation
    T2 Material 69 84 Ti-based alloys
    T3 Material 186 192 alloys
    ...
    T14 Process 552 576 pre-oxidation techniques
    exemple du fichier que j'ai produit

    T0 5 23 oxidation behavior
    T1 31 44 major barrier
    T11 556 580 pre-oxidation techniques
    le coe eval.py est génère l'erreur suivante:

    Traceback (most recent call last):
    File "C:\Users\chedi\Downloads\Semeval\eval.py", line 214, in <module>
    calculateMeasures(folder_gold, folder_pred, remove_anno)
    File "C:\Users\chedi\Downloads\Semeval\eval.py", line 31, in calculateMeasures
    res_full_pred, res_pred, spans_pred, rels_pred = normaliseAnnotations(f_pred, remove_anno)
    File "C:\Users\chedi\Downloads\Semeval\eval.py", line 153, in normaliseAnnotations
    spans_anno.append(" ".join([r_g_offs[1], r_g_offs[2]]))
    IndexError: list index out of range
    je comprends pas l'erreur



    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    142
    143
    144
    145
    146
    147
    148
    149
    150
    151
    152
    153
    154
    155
    156
    157
    158
    159
    160
    161
    162
    163
    164
    165
    166
    167
    168
    169
    170
    171
    172
    173
    174
    175
    176
    177
    178
    179
    180
    181
    182
    183
    184
    185
    186
    187
    188
    189
    190
    191
    192
    193
    194
    195
    196
    197
    198
    199
    200
    201
    202
    203
    204
    205
    206
    207
    208
    209
    210
    211
    212
    213
    214
    #!/usr/bin/python
    # by Mattew Peters, who spotted that sklearn does macro averaging not micro averaging correctly and changed it
     
    import os
    from sklearn.metrics import precision_recall_fscore_support
    import sys
     
    def calculateMeasures(folder_gold="data/dev/", folder_pred="data_pred/dev/", remove_anno = ""):
        '''
        Calculate P, R, F1, Macro F
        :param folder_gold: folder containing gold standard .ann files
        :param folder_pred: folder containing prediction .ann files
        :param remove_anno: if set if "rel", relations will be ignored. Use this setting to only evaluate
        keyphrase boundary recognition and keyphrase classification. If set to "types", only keyphrase boundary recognition is evaluated.
        Note that for the later, false positive
        :return:
        '''
     
        flist_gold = os.listdir(folder_gold)
        res_all_gold = []
        res_all_pred = []
        targets = []
     
        for f in flist_gold:
            # ignoring non-.ann files, should there be any
            if not str(f).endswith(".ann"):
                continue
            f_gold = open(os.path.join(folder_gold, f), "r")
            try:
                f_pred = open(os.path.join(folder_pred, f), "r")
                res_full_pred, res_pred, spans_pred, rels_pred = normaliseAnnotations(f_pred, remove_anno)
            except IOError:
                print(f + " file missing in " + folder_pred + ". Assuming no predictions are available for this file.")
                res_full_pred, res_pred, spans_pred, rels_pred = [], [], [], []
     
            res_full_gold, res_gold, spans_gold, rels_gold = normaliseAnnotations(f_gold, remove_anno)
     
            spans_all = set(spans_gold + spans_pred)
     
            for i, r in enumerate(spans_all):
                if r in spans_gold:
                    target = res_gold[spans_gold.index(r)].split(" ")[0]
                    res_all_gold.append(target)
                    if not target in targets:
                        targets.append(target)
                else:
                    # those are the false positives, contained in pred but not gold
                    res_all_gold.append("NONE")
     
                if r in spans_pred:
                    target_pred = res_pred[spans_pred.index(r)].split(" ")[0]
                    res_all_pred.append(target_pred)
                else:
                    # those are the false negatives, contained in gold but not pred
                    res_all_pred.append("NONE")
     
     
        #y_true, y_pred, labels, targets
        prec, recall, f1, support = precision_recall_fscore_support(
            res_all_gold, res_all_pred, labels=targets, average=None)
        # unpack the precision, recall, f1 and support
        metrics = {}
        for k, target in enumerate(targets):
            metrics[target] = {
                'precision': prec[k],
                'recall': recall[k],
                'f1-score': f1[k],
                'support': support[k]
            }
     
        # now micro-averaged
        if remove_anno != 'types':
            prec, recall, f1, s = precision_recall_fscore_support(
                res_all_gold, res_all_pred, labels=targets, average='micro')
            metrics['overall'] = {
                'precision': prec,
                'recall': recall,
                'f1-score': f1,
                'support': sum(support)
            }
        else:
            # just binary classification, nothing to average
            metrics['overall'] = metrics['KEYPHRASE-NOTYPES']
     
        print_report(metrics, targets)
        return metrics
     
     
    def print_report(metrics, targets, digits=2):
        def _get_line(results, target, columns):
            line = [target]
            for column in columns[:-1]:
                line.append("{0:0.{1}f}".format(results[column], digits))
            line.append("%s" % results[columns[-1]])
            return line
     
        columns = ['precision', 'recall', 'f1-score', 'support']
     
        fmt = '%11s' + '%9s' * 4 + '\n'
        report = [fmt % tuple([''] + columns)]
        report.append('\n')
        for target in targets:
            results = metrics[target]
            line = _get_line(results, target, columns)
            report.append(fmt % tuple(line))
        report.append('\n')
     
        # overall
        line = _get_line(metrics['overall'], 'avg / total', columns)
        report.append(fmt % tuple(line))
        report.append('\n')
     
        print(''.join(report))
     
     
    def normaliseAnnotations(file_anno, remove_anno):
        '''
        Parse annotations from the annotation files: remove relations (if requested), convert rel IDs to entity spans
        :param file_anno:
        :param remove_anno:
        :return:
        '''
        res_full_anno = []
        res_anno = []
        spans_anno = []
        rels_anno = []
     
        for l in file_anno:
            r_g = l.strip().split("\t")
            r_g_offs = r_g[1].split(" ")
     
            # remove relation instances if specified
            if remove_anno != "" and r_g_offs[0].endswith("-of"):
                continue
     
            res_full_anno.append(l.strip())
            # normalise relation instances by looking up entity spans for relation IDs
            if r_g_offs[0].endswith("-of"):
                arg1 = r_g_offs[1].replace("Arg1:", "")
                arg2 = r_g_offs[2].replace("Arg2:", "")
                for l in res_full_anno:
                    r_g_tmp = l.strip().split("\t")
                    if r_g_tmp[0] == arg1:
                        ent1 = r_g_tmp[1].replace(" ", "_")
                    if r_g_tmp[0] == arg2:
                        ent2 = r_g_tmp[1].replace(" ", "_")
     
                spans_anno.append(" ".join([ent1, ent2]))
                res_anno.append(" ".join([r_g_offs[0], ent1, ent2]))
                rels_anno.append(" ".join([r_g_offs[0], ent1, ent2]))
     
            else:
                spans_anno.append(" ".join([r_g_offs[1], r_g_offs[2]]))
                keytype = r_g[1]
                if remove_anno == "types":
                    keytype = "KEYPHRASE-NOTYPES"
                res_anno.append(keytype)
     
     
     
        for r in rels_anno:
            r_offs = r.split(" ")
            # reorder hyponyms to start with smallest index
            if r_offs[0] == "Synonym-of" and r_offs[2].split("_")[1] < r_offs[1].split("_")[1]:  # 1, 2
                r = " ".join([r_offs[0], r_offs[2], r_offs[1]])
     
            # Check, in all other hyponym relations, if the synonymous entity with smallest index is used for them.
            # If not, change it so it is.
            if r_offs[0] == "Synonym-of":
                for r2 in rels_anno:
                    r2_offs = r2.split(" ")
                    if r2_offs[0] == "Hyponym-of" and r_offs[1] == r2_offs[1]:
                        r_new = " ".join([r2_offs[0], r_offs[2], r2_offs[2]])
                        rels_anno[rels_anno.index(r2)] = r_new
     
                    if r2_offs[0] == "Hyponym-of" and r_offs[1] == r2_offs[2]:
                        r_new = " ".join([r2_offs[0], r2_offs[1], r_offs[2]])
                        rels_anno[rels_anno.index(r2)] = r_new
     
        rels_anno = list(set(rels_anno))
     
        res_full_anno_new = []
        res_anno_new = []
        spans_anno_new = []
     
        for r in res_full_anno:
            r_g = r.strip().split("\t")
            if r_g[0].startswith("R") or r_g[0] == "*":
                continue
            ind = res_full_anno.index(r)
            res_full_anno_new.append(r)
            res_anno_new.append(res_anno[ind])
            spans_anno_new.append(spans_anno[ind])
     
        for r in rels_anno:
            res_full_anno_new.append("R\t" + r)
            res_anno_new.append(r)
            spans_anno_new.append(" ".join([r.split(" ")[1], r.split(" ")[2]]))
     
        return res_full_anno_new, res_anno_new, spans_anno_new, rels_anno
     
     
    if __name__ == '__main__':
        folder_gold = "data/dev/"
        folder_pred = "data_pred/dev/"
        remove_anno = ""  # "", "rel" or "types"
        if len(sys.argv) >= 2:
            folder_gold = sys.argv[1]
        if len(sys.argv) >= 3:
            folder_pred = sys.argv[2]
        if len(sys.argv) == 4:
            remove_anno = sys.argv[3]
     
        calculateMeasures(folder_gold, folder_pred, remove_anno)
    Merci pour votre aide

  2. #2
    Membre chevronné
    Homme Profil pro
    Enseignant
    Inscrit en
    Juin 2013
    Messages
    1 608
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Enseignant
    Secteur : Enseignement

    Informations forums :
    Inscription : Juin 2013
    Messages : 1 608
    Points : 2 072
    Points
    2 072
    Par défaut
    As-tu essayé :
    et
    Pas d'aide par mp.

  3. #3
    Membre régulier
    Inscrit en
    Mars 2010
    Messages
    157
    Détails du profil
    Informations forums :
    Inscription : Mars 2010
    Messages : 157
    Points : 80
    Points
    80
    Par défaut
    j'ai essayé

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
     
    		print r_g_offs[0]
    		print r_g_offs[1]
    j'ai eu ce message d'erreur

    File "C:\Users\chedi\Downloads\Semeval\eval.py", line 131
    print r_g_offs[0]
    ^
    TabError: Missing parentheses in call to 'print'

  4. #4
    Membre chevronné
    Homme Profil pro
    Enseignant
    Inscrit en
    Juin 2013
    Messages
    1 608
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Enseignant
    Secteur : Enseignement

    Informations forums :
    Inscription : Juin 2013
    Messages : 1 608
    Points : 2 072
    Points
    2 072
    Par défaut
    Oups, je pensais que tu étais en python2.
    Il faut les parenthèses.
    Pas d'aide par mp.

  5. #5
    Membre régulier
    Inscrit en
    Mars 2010
    Messages
    157
    Détails du profil
    Informations forums :
    Inscription : Mars 2010
    Messages : 157
    Points : 80
    Points
    80
    Par défaut
    ca génère une autre erreur sans rien afficher

    File "C:\Users\chedi\Downloads\Semeval\eval.py", line 133
    if remove_anno != "" and r_g_offs[0].endswith("-of"):
    ^
    IndentationError: unexpected indent

Discussions similaires

  1. code annotation de offset de terme
    Par africanwinners dans le forum Général Python
    Réponses: 0
    Dernier message: 21/12/2016, 23h41
  2. Comparaison de valeur d'un champ ou Offset
    Par Elijah37 dans le forum Macros et VBA Excel
    Réponses: 11
    Dernier message: 02/08/2008, 22h33
  3. [OpenOffice][Base de données] Comparaison OpenOffice.org / ACCESS en terme de programmation
    Par fafabzh6 dans le forum OpenOffice & LibreOffice
    Réponses: 3
    Dernier message: 19/04/2007, 10h12
  4. comparaison de 2 dates
    Par eisti dans le forum MS SQL Server
    Réponses: 2
    Dernier message: 11/08/2003, 11h33
  5. Réponses: 2
    Dernier message: 22/07/2002, 18h02

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo