IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Windows Discussion :

Gestion de doublons et synchronisation : un cas peut-être pas si particulier mais la solution est où ?


Sujet :

Windows

  1. #1
    Membre du Club
    Profil pro
    Inscrit en
    Juillet 2007
    Messages
    145
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juillet 2007
    Messages : 145
    Points : 63
    Points
    63
    Par défaut Gestion de doublons et synchronisation : un cas peut-être pas si particulier mais la solution est où ?
    Bonjour,

    Confronté un problème de gestion de doublons je ne voudrais pas dépenser beaucoup d'énergie à résoudre un problème déjà résolu 10*000 fois.

    Résume du sujet :
    Il me faut à la fois vérifier qu'il n'y a pas de doublons de fichiers (ayant un nom identifiant unique) dans les arborescences de sauvegarde (sous-structures identiques), mais aussi qu'il existe toujours dans d'autres arborescences au moins un doublon de tout fichier unique quelconque pris dans l'arborescence de référence.

    Cette proposition peut paraître assez absconse mais en expliquant le but recherché est le processus on pourra comprendre la nature du problème.

    Détail du problème

    Nous avons des sources de fichiers générés par des périphériques d'acquisition audio et vidéo avec des structures de répertoire très peu contrôlables ou totalement figées (un enregistreur audio avec quatre répertoires A,B,C,D pouvant contenir chacun 99 fichiers au maximum, des cartes d'appareil photo créant des sous répertoires par mois).
    nota: Il est admis que le paramétrage permet que les noms de fichiers soient uniques.

    Le problème est double :
    • pouvoir sauvegarder ces fichiers en sécurité
    • les utiliser dans des projets et créer des fichiers dérivés (modifiés, partiels etc...) sans perdre la référence qui est l'identifiant du fichier source.


    Actuellement j'ai adopté (il y a plusieurs centaines de milliers de fichiers) la solution suivante :

    • Je recopie les ajouts au répertoires du périphérique source dans des dossiers datés de la date de la sauvegarde en conservant la structure des sous répertoires de la source.
    • Ces sauvegardes font elles-même l'objet d'une sauvegarde sécurisée incrémentielle sur des disques raid1.
    • Les fichiers du périphérique source sont nettoyés quand il y a saturation, souvent nettoyage des fichiers les plus anciens en effet conserver les fichiers les plus récents sur le périphérique (appareil photo, vidéo, enregistreur musique et voix etc.) est souvent très intéressant.
    • Enfin les fichiers sont souvent individuellement ou par lots recopiés vers des projets à partir de la sauvegarde primaire (disques de plusieurs tera octets numérotés eux-mêmes faisant objet des sauvegardes de sécurité) et génèrent des dérivés.


    Le problème technique posé
    Mon problème et que l'ensemble de ces opérations sont actuellement presque entièrement manuelles. C'est long et anxiogène.

    Je cherche un outil pour effectuer si possible de manière automatique via un script les opérations suivantes :

    • déterminer les fichiers présents sur le périphérique et qui ne le sont pas sur la sauvegarde primaire pour générer une mise à jour de sauvegarde primaire (ajout d'un répertoire principal avec comme sous répertoires ceux du périphérique d'acquisition et comme contenu les fichiers nouveaux)
    • vérifier que tous les fichiers d'un périphérique sont bien présents sur la sauvegarde primaire après une mise à jour (ce n'est pas une simple comparaison de répertoires puisque le même répertoire d'un périphérique d'acquisition peut avoir des fichiers dans des répertoires différents de la sauvegarde référence résultant du découpage lors des sauvegardes successives)
    • marquer (lister) tous les fichiers présents dans la sauvegarde primaire et non repris dans les projets et pour ceux qui sont présents lister tous les fichiers dérivés. J'explique : les fichiers utilisés comme sources, identiques ou dérivés des originaux, sont sont nommés dans les projets en utilisant un masque comprenant toujours le nom unique du fichier source (< nom unique> => Dans les fichiers sources du projet les fichiers dérivés ont un nom de la structure [*<Nom unique>*.*]


    Voilà, ce n'est pas très simple et je pense que je devrais probablement écrire des scripts en utilisant des utilitaires existants.
    J'utilise depuis de nombreuses années un outil très performant qui est ADCS mais il ne répond que partiellement au besoin.

    Avez-vous des suggestions d'outils à me faire, ou même des suggestions d'organisation du job répondant à des outils spécifiques qui seraient adaptés à ce type de problème ?

    Cordialement

    Trebly

  2. #2
    Responsable Systèmes


    Homme Profil pro
    Gestion de parcs informatique
    Inscrit en
    Août 2011
    Messages
    17 351
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Gestion de parcs informatique
    Secteur : High Tech - Matériel informatique

    Informations forums :
    Inscription : Août 2011
    Messages : 17 351
    Points : 42 822
    Points
    42 822
    Par défaut
    c'est de la synchro que tu cherches à faire. Si c'est le cas, tu peux utiliser un logiciel de synchro ou tu pourras choisir par exemple d'effacer les fichiers plus présents dans la source mais encore présent dans la destination ou non.
    Ma page sur developpez.com : http://chrtophe.developpez.com/ (avec mes articles)
    Mon article sur le P2V, mon article sur le cloud
    Consultez nos FAQ : Windows, Linux, Virtualisation

  3. #3
    Membre du Club
    Profil pro
    Inscrit en
    Juillet 2007
    Messages
    145
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juillet 2007
    Messages : 145
    Points : 63
    Points
    63
    Par défaut Plus que de la synchro
    Bonsoir,

    Merci de ta réponse, mais le problème est un peu plus compliqué.

    Je dirais pour faire une comparaison qu'il y a autant de différence entre de la simple synchro et ce que je veux faire (fiabiliser et automatiser partiellement un processus parfaitement défini) qu'entre une copie de fichier et du streaming avec archivage dynamique.

    En effet il y a :
    • un flux de fichiers généré par des périphériques d'acquisition et à l'arrivée un archivage "primaire" séquentiel du flux (découpé en répertoires par opération de mise à jour des nouveaux éléments de flux) et la sauvegarde de deuxième niveau sécurisée incrémentielle (jamais de modif, des ajouts de répertoires) de l'archivage primaire ce qui n'est pas un problème mais un simple élément maîtrisé du processus.
    • le suivi de l'usage des fichiers dans les projets en pistant les fichiers grâce à leur identifiant dans l'archivage primaire.


    Des éléments de complexité sont :
    • que le flux généré sur les sources y est temporairement stocké et que seuls les ajouts depuis la précédente synchro vers l'archivage primaire doivent faire l'objet du nouveau "paquet".
    • que la destruction sur la source ne peut avoir lieu que lorsque le transfert et l'archivage primaire et secondaire ont eu lieu (toujours deux copies sur des supports distincts)
    • que la "trace" des fichiers utilisés par les projets nécessite de retrouver dans un premier temps (avant le traitement des anomalies) de tous les fichiers issus d'un fichier primaire.
    • évidemment la taille des unités physique est insuffisante et il faut découper le stockage primaire sur des unités successives, mais aussi les sauvegardes secondaires, pendant que les projets sont eux dispersés sur un réseau.


    Cordialement

    Trebly

    Nota : ADCS sait parfaitement faire les comparaisons et synchro, mais par exemple ne sait pas récupérer la liste (avec leur architecture) de fichiers repérés (n'existant pas dans un ensemble de répertoires) et non encore traités et de les recopier dans un nouveau répertoire. On obtient alors une synchronisation cumulative des flux vers une nouvelle architecture (nota : pour raison évidente de simplification le contenu des "paquet"(s) sont stockés dans une architecture de sous répertoires identique à celle des sources, ce qui en fait des images partielles des sources entre t et t.delta(t).

Discussions similaires

  1. Handle peut être pas initialisé
    Par crassetph dans le forum Langage
    Réponses: 1
    Dernier message: 21/03/2008, 13h52
  2. Réponses: 2
    Dernier message: 29/02/2008, 09h06
  3. Réponses: 20
    Dernier message: 02/02/2008, 23h14
  4. Problème de variables peut être pas intialisées
    Par gregory.bts dans le forum Langage
    Réponses: 14
    Dernier message: 12/10/2006, 10h55

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo