Description des données
Commentaire général
Suivant les demandes des organisateurs du challenge, nous avons modifé nos données afn de rendre la tache plus difcile aux équipes qui seraient tentées par de la triche. En conséquence:
- les noms des moyens de production sont des chaines de 10 caractères aléatoires
- Ces données sont attachées à des régions géographiques, mais ces régions elles-mêmes sont des chaines de 10 caractères aléatoires
- toutes les valeurs sont renormalisées par un facteur qui ne vous est pas donné
Cela étant dit, nous ne supprimons pas les informations concernant:
- la technologie de production
- le véritable nom des données d'entrées (demande, production éolienne etc)
- les données concernant la France entière sont nommées comme telle explicitement
Nous pensons en efet qu'il est a la fois plus intéressant de travailler sur des données en sachant à quoi elles correspondent, mais aussi qu'il est plus facile d'apporter un regard critique si ces noms ne sont pas randomisés.
Description détaillée Trois fchiers d'entrées :
- categorical_input.csv : chaque ligne donne le nom d'une unité de production, le nom de sa région d'appartenance, sa puissance théorique maximale, et sa technologie
- input_train.csv : ce sont les séries temporelles d'entrée (200). Chaque colonne correspond à une série temporelle. Il y a deux types de données. Tout d'abord les données d'input à proprement parler, nommées 'I_region_varname', ou region est le nom de la région concernée, et varname le nom de la variable (demande, interconnexions, prod éolienne etc). Nous avons également un input de ce type au niveau agrégé France : la production hydraulique des rivières au fl de l'eau n'est disponible qu'au niveau France et pas au niveau régional. Ensuite, nous avons des données de disponibilité horaire pour chaque unité de production, nommées 'A_region_unit', ou region est le nom de la region d'appartenance de l'unité, et unit le nom de l'unité. Cette disponibilité correspond au maximum de production horaire, le minimum étant 0 dans le cas de toutes les technologies de production, sauf pour les STEP (station de pompage avec barrage, appelé 'Pumped-storage hydro'), qui sont capables de pomper de l'eau dans un lac pour stocker de l'énergie et dont le minimum de production est donc le négatif de son maximum.
- input_test.csv : même format qu'input_train.csv, mais des ID diférents correspondant à des moments diférents. un fchier d'output:
- output_train.csv : contient les séries temporelles de production des diférentes unités de production, nommées 'P_unit' ou unit est le nom de l'unité concernée
Vous devez soumettre un fchier output_pred.csv dont les colonnes sont dans le même ordre que output_train.csv, avec un point-virgule pour séparateur, et dont les ID correspondent à ceux de input_test.csv
Partager