Bonjour,
Je travaille sur un fichier à 5000 lignes et plus de 50 colonnes et je fais des transformations dessus mais parfois je suis amenée à revenir sur le fichier de base. Jusqu'à maintenant je fais le "nettoyage" via Excel (suppression de colonnes, lignes, certaines variétés, ...) mais je me rends compte que c'est problématique car je dois revenir modifier mon fichier à chaque fois, j'aimerais donc tout faire avec R et si quelqu'un arrive à trouver une façon avec R de faire tout ça d'un coup ça serait magique
Admettons dans un fichier exemple que j'ai 5 colonnes : variete (3 variétés qui reviennent plus ou moins), lieu (avec 5 lieux différents possibles), annee (5 années), taille_fleurs (chiffres en cm) et temperature.
Je veux creer un subset où je réalise les 4 opérations suivantes :
R garde uniquement:
- les variétés qui ont au moins 4 valeurs de tailles de fleurs (donc où le nom de la variété va revenir au moins 4 fois sur toutes les lignes de la colonne variete)
- les lignes pour 3 lieux A, B, C (sur 5 lieux présents dans la colonne "lieu") donc je surprime les lignes correspondantes aux lieux D et E
J'ai aussi des valeurs à -9999 et j'aimerais les remplacer par des "NA" dans la colonne temperature
Finalement dans ce subset j'aimerais aussi supprimer toutes les lignes correspondant à l'année 1994 (1994 dans la colonne année)
et puis stocker ce subset dans un fichier csv.
Je joins un fichier exemple, est-ce que vous pourriez me donner des lignes de codes pour réaliser ce subset avec cet exemple afin que je puisse le faire avec mon vrai fichier de 5000 lignes?
Merci par avance.
Cordialement.
Partager