IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Autres Logiciels Discussion :

Trouver des doublons dans un pdf


Sujet :

Autres Logiciels

  1. #1
    Membre éprouvé
    Homme Profil pro
    Analyse système
    Inscrit en
    Juin 2013
    Messages
    971
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Pas de Calais (Nord Pas de Calais)

    Informations professionnelles :
    Activité : Analyse système
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juin 2013
    Messages : 971
    Par défaut Trouver des doublons dans un pdf
    Bonjour,
    connaissez vous un logiciel permettant de trouver des doublons dans un fichier pdf?

    Par exemple, j'ai un fichier qui fais environ 500 pages, chaque document concerne un salarié et correspond à deux pages ( recto verso). Dans chaque page on a le nom prenom et données du salarié ainsi que son identifiant.

    Je souhaiterais savoir s'il existe un logiciel permettant de trouver les doublon c'est à dire, me disant que jacques Dupont (identifiant 123456) se trouve également en page 100, 150 et 250 )?

    Est ce possible?
    Merci beaucoup

  2. #2
    Membre chevronné
    Profil pro
    Inscrit en
    Mai 2007
    Messages
    349
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2007
    Messages : 349
    Par défaut
    Bonsoir,

    A condition de disposer de Adobe Acrobat, il existe un plugin appelé AutoSplit qui permet de répérer les pages en doublons et de les éliminer.

  3. #3
    doc
    doc est déconnecté
    Membre expérimenté

    Profil pro
    Inscrit en
    Août 2002
    Messages
    105
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2002
    Messages : 105
    Par défaut
    Puisque vous programmez en .net, Itext7 permet de chercher facilement un mot ou un groupe de mot dans un fichier pdf, et de reporter les pages en question

    Le snippet ci-dessous est copié de stack overflow https://stackoverflow.com/questions/58429089/searching-for-a-keyword-in-pdf-using-itextsharp-7

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    public List<int> ReadPdfFile(String fileName, String searthText)
    {
        List<int> pages = new List<int>();
        if (File.Exists(fileName))
        {
            using (PdfReader pdfReader = new PdfReader(fileName))
            using (PdfDocument pdfDocument = new PdfDocument(pdfReader))
            {
                for (int page = 1; page <= pdfDocument.GetNumberOfPages(); page++)
                {
                    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
    
                    string currentPageText = PdfTextExtractor.GetTextFromPage(pdfDocument.GetPage(page), strategy);
                    if (currentPageText.Contains(searthText))
                    {
                        pages.Add(page);
                    }
                }
            }
        }
        return pages;
    }

    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

  4. #4
    Membre éprouvé
    Homme Profil pro
    Analyse système
    Inscrit en
    Juin 2013
    Messages
    971
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Pas de Calais (Nord Pas de Calais)

    Informations professionnelles :
    Activité : Analyse système
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juin 2013
    Messages : 971
    Par défaut
    Bonjour ,
    merci pour ce retour
    je vais étudioer cela *

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 4
    Dernier message: 12/03/2015, 12h46
  2. Trouver des doublons dans une 2eme table
    Par hammag dans le forum SQL
    Réponses: 2
    Dernier message: 13/08/2013, 18h04
  3. [COM] Trouver des mots dans des PDF et autres documents ?
    Par zyongh dans le forum Bibliothèques et frameworks
    Réponses: 2
    Dernier message: 02/11/2006, 15h23
  4. Gestion des Fonts dans le PDF
    Par JMLD dans le forum XMLRAD
    Réponses: 4
    Dernier message: 05/08/2005, 12h09
  5. Eliminer des Doublon dans une Table
    Par Soulama dans le forum MS SQL Server
    Réponses: 5
    Dernier message: 03/02/2005, 15h27

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo