Non informaticien et hyper débutant (j'ai appris l'existence de R lundi), je suis testé là-dessus pour un recrutement : pour demain je dois générer deux tableaux en word et un diagramme en bâtons word ou excel à partir de données reçues mardi et chargées dans R (en .rds). J'ai aussi reçu un script en .r sans trop d'explication. Depuis je lis un bouquin je cherche des infos je rame. J'ai installé R studio et dedans j'ai installé les packages tables, gmodels, officer et flextables. J'ai aussi compris qu'il fallait les activer au début de chaque session (commande library (tables) etc.). Mes données ce sont 6015 articles de recherche codés avec 13 variables (dans R studio en haut à droite : data : df : 6015 obs of 13 variables. Je dois générer:
-1er tableau: 3 colonnes. 1ère colonne : la liste des revues de recherche désignées par leur identifiant repec (dans values en haut à droite : ce sont les valeurs de top20_journal). 2ème colonne : la liste des mêmes revues désignées par leur nom complet (dans values : valeurs de top20_journal_fname). 3ème colonne : le nombre d'articles de chaque revue dans l'échantillon.
-2ème tableau: 3 colonnes aussi. 1ère colonne : la liste des termes de recherche (dans values : valeurs de search_terms). 2ème colonne : le nombre d'articles où le terme de recherche est présent dans le titre, l'abstract ou les mots-clés de l'article. 3ème colonne : ce nombre exprimé en pourcentage du total d'articles de l'échantillon (donc c'est juste le chiffre de la colonne 2 divisé par 6015 et exprimé en pourcentage, avec 2 chiffres après la virgule si possible).
-diagramme en bâtons : chaque bâton correspond à une année (de 1990 à 2018), la hauteur du bâton est le nombre d'occurrences du terme de recherche "financial cris*" dans la revue Journal of Finance. C'est juste pour voir l'évolution de ces occurrences au cours du temps.
L'identifiant Repec, l'année (year), le titre, l'abstract et les mots-clés (keywords) sont 5 des 13 variables disponibles pour chaque article. Pour m'aider on m'a donné la commande suivante :
Je comprends la logique de ce qu'il faut avoir et comment on y arrive très simplement, c'est juste que je n'ai jamais codé de ma vie et que je suis paumé dans les commandes de R à manipuler pour obtenir cela (j'ai juste compris que grepl c'est pour chercher les occurrences d'une séquence de caractères donc ici du terme de recherche). Et ensuite pour générer les fichiers en Word ou Excel (avec tables? flextables?) et les récupérer.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5 #returns all indicies of a dataframe that contain a search term in either title, abstract or keywords getRepecIDbyTerm <- function(df, searchTerm){ publication_id <- grepl(searchTerm, df$title, ignore.case = TRUE)|grepl(searchTerm, df$keywords, ignore.case = TRUE)|grepl(searchTerm, df$abstract, ignore.case = TRUE) return(publication_id) }
Merci infiniment pour votre aide à un béotien qui pose des questions assez basiques...
Partager