IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

importation pdf sur R


Sujet :

R

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre habitué
    Homme Profil pro
    Étudiant
    Inscrit en
    Décembre 2018
    Messages
    10
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 30
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Décembre 2018
    Messages : 10
    Par défaut importation pdf sur R
    Bonjour, j'ai réalisé une importation d'un pdf sur R. J'obtiens mon texte sous forme de "character". Le problème est que j'aimerais ne garder qu'une partie du texte, partie dont la longueur dépend pour chaque textes.
    Si j'avais eu qu'un seul texte, j'avais le code suivant qui marche :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    fed_text_raw <- head(fed_text_raw,93)
    Je prend les 93 premières lignes pour ce texte.
    Pour être plus précis, je dois couper mon texte lors qu’apparait pour la première fois le mot "Thank you" (Cela peut être la ligne où il y a ce mot).

    J'ai essayé avec str_sub, str_split...

    Avez-vous une idée ?

    Merci par avance

  2. #2
    Membre émérite
    Homme Profil pro
    Inscrit en
    Janvier 2006
    Messages
    491
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Corse (Corse)

    Informations forums :
    Inscription : Janvier 2006
    Messages : 491
    Par défaut
    bonjour , une solution avec une boucle while

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
     
    library(stringr)
     
    i=1
    reponse <- ""
    while(!str_detect(fed_text_raw [i],"Thank you")){
      reponse <- str_c(reponse,fed_text_raw [i])
      i = i+1
     
    }
    cldt

  3. #3
    Membre habitué
    Homme Profil pro
    Étudiant
    Inscrit en
    Décembre 2018
    Messages
    10
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 30
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Décembre 2018
    Messages : 10
    Par défaut
    Bonjour,

    J'ai réussi en faisant une boucle très ressemblante, merci pour votre réponse

  4. #4
    Membre habitué
    Homme Profil pro
    Étudiant
    Inscrit en
    Décembre 2018
    Messages
    10
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 30
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Décembre 2018
    Messages : 10
    Par défaut
    Bonjour,

    Je reviens vers vous car je rencontre un nouveau problème: j'ai importé sur R plusieurs textes et l'objectif serait d'avoir un code qui permet d'identifier les noms, adjectifs, verbe etc...
    J'ai construit un code qui marche sur la première phrase du 1er texte mais cela ne marche plus après. Mon texte est scindé avec 1 ligne pour chaque phrases. Voici mon code:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
     
    tagPOS <-  function(x, ...) {
        s <- as.String(x)
        word_token_annotator <- Maxent_Word_Token_Annotator()
        a2 <- Annotation(1L, "sentence", 1L, nchar(s))
        a2 <- annotate(s, word_token_annotator, a2)
        a3 <- annotate(s, Maxent_POS_Tag_Annotator(), a2)
        a3w <- a3[a3$type == "word"]
        POStags <- unlist(lapply(a3w$features, `[[`, "POS"))
        POStagged <- paste(sprintf("%s/%s", s[a3w], POStags), collapse = " ")
        list(POStagged = POStagged, POStags = POStags)}
     
    length(phrase)
      for (indice in 3:length(phrase)){
        test <- data.frame(tagPOS(phrase[indice]))
        b <- test$POStagged
        a <- data.frame(test$POStags)
        splt <- str_split(b[1],"/")
     
         for (p in 1:nrow(a)){
           if (a[p,]=="NN"){
             q = p-1
              while (a[q,]!="JJ"){
              q <- q-1 
              }
               print(str_sub(splt[[1]][q],4))
               print(str_sub(splt[[1]][p],4))
     
           }
         }
      }
    J'ai mis la sortie de "test" en pièce-jointe (il s'agit de la première ligne du texte)

    Merci d'avance.
    Images attachées Images attachées  

Discussions similaires

  1. Bouton pour importer image sur un autre bouton Javascript pour PDF
    Par Ruyneau dans le forum Général JavaScript
    Réponses: 1
    Dernier message: 24/02/2016, 00h39
  2. Import de fichier PDF sur mon serveur
    Par ValooWart dans le forum Langage
    Réponses: 1
    Dernier message: 22/08/2013, 13h12
  3. Importer un fichier pdf sur ma page Web
    Par manel ingenieur dans le forum PHP & Base de données
    Réponses: 9
    Dernier message: 11/01/2011, 16h09
  4. importer un fichier pdf sur ma page web
    Par manel ingenieur dans le forum Services Web
    Réponses: 0
    Dernier message: 10/01/2011, 10h13
  5. Importer un fichier pdf sur excel
    Par chakev dans le forum Macros et VBA Excel
    Réponses: 5
    Dernier message: 12/06/2008, 00h01

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo