Bonjour à tous,
Dans le cadre d'un stage, je dois réaliser un module capable de reconnaître des champs, sans ambiguités, dans du code source html
Je précise...Mon entreprise d'accueil aspire tous les matins a peu près 4500 sites d'appels d'offres de marchés publiques de collectivités réparties dans toute la France.
Ensuite elle extrait les données utiles de ces sites (c'est là que j'interviens) et les envoie à ses clients, de manière automatisée.
Le hic est que chaque collectivité utilise un formalisme propre pour ses pages web d'appels d'offres. En d'autres termes, il s'avère compliqué de faire une fonction de parsing générique étant donné que les champs n'ont pas tous le même nom en fonction des collectivités.
Exemple : le champs "date limite de dépot" peut correspondre à "échéance, date de péremption, date fin de dépot, etc, ...".
La solution actuelle est de coder des fonctions pour chaque collectivité, autrement dit un ENORME switch qui teste le nom de la collectivité et appelle la fonction de parsing correspondante. Ce qui a la longue risque de devenir catastrophique !
Mon sujet de stage est de mettre en place une fonction générique, applicable à toutes les pages possibles d'appels d'offres.
J'ai recherché dans divers directions (stockage de mot clefs dans des fichiers, IA apprenante type réseaux de neurones, ...)
Cependant rien de concluant.
J'opte de préférence pour une solution java, donc si quelqu'un parmis vous à connaissance d'une api ou d'un projet se rapprochant du mien, merci de m'en faire part. Toutes les suggestions sont les bienvenues.
Merci d'avance
Partager