Bonjour à tous !
Je suis en train de créer une startup avec comme objectif l'analyse "intelligente" de documents.
Même si je pense avoir toutes les compétences requises (bac d'informatique, 3 maîtrises de maths, DEA et Doctorat en Intelligence Artificielle, DEA en Informatique Linguistique, > 30 ans d'expérience professionnelle), pour le moment je peine à trouver un partenariat / un financement...

En attendant, un client potentiel m'a proposé un premier challenge : développer un logiciel permettant de récupérer des informations dans des fiches de suivi d’incident stockées actuellement au format pdf.
C’est ainsi qu’est né « SÆCI - Recherche Structurée ». Le gain de productivité a été considérable : 300 documents traités en un peu plus de 1 heure au lieu de 20 jours manuellement.

Les règles d'extractions sont "visuelles", comme par exemple : "Tout le paragraphe commençant par 'Reason for return'" ou encore "Tout le texte commençant par 'Visual inspection' et finissant avant 'Distribution' ou plus simplement "La cellule en dessous de 'A/C No'".
Il ne s'agit là que de quelques exemples de règles d'extraction et celles qui sont implémentées sont déjà beaucoup plus nombreuses.
Comme vous pouvez le comprendre, SÆCI Recherche Structurée est bien davantage qu'un logiciel d'océrisation, même s'il s'appuie sur deux progiciels du marché (OmniPage et Doxillion, pour ne pas les citer) pour transformer les images en texte.

Ce logiciel (Cf. http://CognitiKom.com/recherche-structurée/) est opérationnel et il peut lire et traiter indifféremment des documents Word, Excel, PowerPoint, PDF ou encore des fichiers « images ».

Je souhaite le commercialiser : si vous pouvez m'y aider (mise en relation, par exemple), ça vaudra bien un bon resto (ou autre)

Un grand merci à vous
Gilbert