Bonjour,
je suis à la recherche d'un outil relatif à la gestion de flux de données et je manque, il me semble, du vocabulaire nécessaire pour faire une recherche fructueuse.
Voilà donc la situation. Nous avons des dizaines de serveurs avec des centaines d'applications. Toutes ces application s'échangent des données par divers moyens. Récupération ssh, ftp, montages réseaux sur un NAS et j'en passe.
La nature de ces applications est très diverse. Ca va du script bash de 3 lignes à l'application complexe écrite en C et en fortran qui tourne pendant 3 heure. Pour chaque programme, nous avons pas mal de données en entrées et tout autant en sortie. Sur ces serveurs, certains programmes génèrent de nouveaux fichiers à partir de fichiers d'entrées, certains les filtrent, certains créent de nouvelles données à partir de simulations, etc. Ces programmes vont de celui mis en production la semaine dernière à celui mis en production il y a 15 ans quand tout était simple et la documentation non nécessaire.
La nature des données est aussi particulière. Elles peuvent être vues pour la plupart à la fois comme un tout "Le run machin-chose de 6h du matin", à la fois en temps que set de données réparties dans plusieurs fichiers "La prévision à 36h du run machin-chose de 6h du matin" et à la fois en temps que "fichier machin-chose-xxxxxx06-4576.bin"
On est à la recherche d'un outil permettant de documenter collaborativement et progressivement, un peu à la manière d'un wiki, un diagramme de flux afin de pouvoir rapidement répondre à la question qui se pose presque tous les jours pour les gestionnaire d'infrastructure: "si le programme X ne fournis plus la donnée Y, quelles seront les conséquences en aval?", et bien sûr sa question annexe "il sert encore à quelque chose le programme X qu'on est appelé toutes les nuit parce qu'il a crashé et qu'il faut le redémarrer?"
Comme on parle là de centaines de type de données à catégoriser et à relier entre des centaines de processus, l'ensemble formera un seul diagramme. Pour le lire sans avoir besoin de trois plaquettes de dafalgan, il faudra que l'outil soit capable de ne nous afficher que certaines sections du graphe tout en gérant l'ensemble. Il faudra qu'il puisse considérer les données à plusieurs niveau et qu'il puisse aussi les considérer avec plusieurs emplacements / nature.
Bref, si quelqu'un à ce genre d'outil de documentation des flux de données sous le coude, qu'il me fasse signe
Partager