Bonjour à tous et merci d'avance pour votre aide qui me sera forte utile !
Forces en présence : un document au format texte (.txt), formé comme un tableau, que l'on veut utiliser sous R (afin de faire des études statistiques)
Son contenu : 65.000 lignes correspondant à 65000 individus, 41 colonnes correspondant à des variables d'études sur ces individus
Les colonnes sont bien visible de part l'alignement qui a été fait.
[Ce que j'appelle colonne : dès qu'il y a un espace entre 2 caractères]
Les 3 premières colonnes servent en fait d'identifiant (nom de l'individu)
Exemple : "Robert 01 80" correspond à l'identifiant, correspond à 3 colonnes.
Petit problème ajouté : entre différentes colonnes de variable, il y a différent nombres d'"espace" (cela peut aller de 1 à 4 espaces)
On veut donc importer ce "tableau texte" sous R, afin de l'étudier.
!!! PROBLÈME !!!
1/
Nous savons qu'un document format texte doit avoir une mise en forme spécifique pour être importé sous forme de tableau dans R : UN SEUL CARACTÈRE de séparation pour les éléments d'une ligne (que ce soit les ";" ou un espace " ").
Comment faire dans ce cas pour ramener notre document texte initial à un document ne possédant qu'UN SEUL caractère entre chaque terme d'une ligne ? (cad utiliser la fonction "read.table") (sans avoir à faire cela pour les 65.000 lignes manuellement)
(en prenant bien en compte que les 3 premières colonnes correspondent à l'identifiant) et qu'on a une ligne descriptive en première ligne (il faut faire header=T, row.names=3 non ?)
2/ Deuxième problème
Des variables, au milieu du tableau ne seront pas utiles pour certaines études stat :
comment faire pour supprimer les colonnes correspondantes à ces variables ?
Merci beaucoup d'avance pour votre aide qui me sera très précieuse !
Partager