• Déduplication à la volée

    • Lorsque les données sont dédupliquées avant leur écriture sur le disque, on parle de déduplication à la volée. Cette méthode est à distinguer de la déduplication post-traitement, ou déduplication asynchrone, qui consiste à analyser les données et à réduire leur volume après leur sauvegarde sur disque.

    • Comparaison avec la déduplication post-traitement

      La déduplication à la volée est la méthode de déduplication la plus efficace et la plus économique. Elle permet de réduire sensiblement la capacité de disque brut nécessaire sur le système, car le Dataset à dédupliquer n’est jamais intégralement copié sur le disque. Grâce à cette méthode, le délai de reprise après sinistre diminue également. En effet, le système n’a plus besoin d’attendre d’avoir absorbé, puis dédupliqué l’ensemble des données pour commencer l’opération de réplication sur le site distant.

      Les technologies de déduplication post-traitement attendent que les données aient été intégralement copiées sur le disque avant de lancer le processus de déduplication. Étant donné que cela retarde l’opération et, par extension, la réplication du Dataset, il est donc nettement préférable de répliquer uniquement les données dédupliquées, qui sont moins volumineuses.

      En pratique, la déduplication post-traitement engendre des problèmes opérationnels, car elle implique de gérer deux zones de stockage ayant chacune ses propres règles et comportements. Dans certains cas, la zone de stockage redondante est la conception par défaut et la plus importante pour certains fournisseurs. La zone de déduplication offre dès lors des performances et une résilience moindres.

      Par ailleurs, cette approche engendre des coûts supplémentaires de capacité initiale supérieurs aux solutions à la volée. Les méthodes de déduplication post-traitement requièrent une capacité supplémentaire temporaire pour stocker les données de sauvegarde.

      La capacité nécessaire dépendra de la taille des datasets de sauvegarde, du nombre de procédures de sauvegarde exécutées par jour, et du temps que met la technologie de déduplication à "libérer" la capacité empruntée. Enfin, les solutions de déduplication post-traitement qui doivent attendre la fin du processus de sauvegarde avant de lancer la déduplication nécessitent des caches sur disque plus importants que celles qui lancent l’opération pendant le processus de sauvegarde.