• Incidence de la déduplication sur le débit

      En règle générale, les solutions de sauvegarde sur disque avec déduplication offrent un débit de restauration plus rapide que les bandes, car le disque reste en ligne et autorise des accès aléatoires.. Cependant, le débit de sauvegarde varie également en fonction du fournisseur, car la déduplication des données est un processus qui consomme beaucoup de ressources.

      Ce processus vérifie au moment de l’écriture si de courtes séquences de données ont déjà été stockées, parfois avant plusieurs pétaoctets de données. Un index simple de ces données serait trop volumineux pour la mémoire vive (RAM), à moins qu’il ne s’agisse d’un très petit déploiement. De nombreuses solutions ont recours à des recherches sur le disque. Or, il est connu que ces recherches prennent du temps et rien ne permet de dire que cela s’améliorera.

      Les méthodes les plus simples pour accélérer la déduplication des données consistent à sacrifier partiellement la réduction des données, en se focalisant sur les séquences longues afin de limiter la fréquence des recherches sur disque, et à ajouter du matériel afin de répartir la charge sur un plus grand nombre de disques. Ces deux méthodes présentent toutefois l’inconvénient d’augmenter le prix du système au point qu’elles soient moins intéressantes que les bandes en termes de coûts.

      Les approches varient selon les fournisseurs. Pour notre part, nous avons suivi une démarche unique pour les systèmes EMC Data Domain : ils utilisent une architecture orientée CPU (« CPU Centric ») pour identifier de façon rapide et efficace les données redondantes et ainsi offrir le meilleur débit du marché.

      Débit orienté CPU contre orienté disques (pile de disques)

      Contrairement à EMC, de nombreux fournisseurs s’appuient une approche orientée disque en matière de déduplication. Toutefois, les disques étant le composant le plus lent des systèmes de stockage, les données sont fréquemment réparties entre plusieurs disques dans le but d’améliorer les performances grâce à leur fonctionnement en parallèle pour gérer les E/S.

      Si votre système utilise cette méthode pour respecter vos exigences en matière de performances, recherchez le juste équilibre entre performances et capacité. C’est une étape importante, car le but de la déduplication des données est de réduire le nombre de disques employés.

      Grâce à l’architecture évolutive EMC Data Domain Stream Informed Segment Layout (une approche à la volée orientée CPU), il faut très peu de disques pour parvenir à des performances maximales. Cette approche permet donc à la déduplication des données de répondre aux attentes en matière de réduction de l’empreinte stockage.

      Débit de sauvegarde et de restauration en flux unique

      Les performances en flux unique désignent la vitesse à laquelle il est possible d’écrire, de lire ou de copier un fichier donné ou une base de données particulière en vue de sa rétention à long terme.

      En raison des fenêtres de sauvegarde prévues pour les données critiques, le débit de sauvegarde est le critère qui attire le plus de questions des utilisateurs. Il convient cependant de noter que le délai de restauration occupe une place plus importante dans la plupart des contrats de niveau de service (SLA).

      Débit total de sauvegarde/restauration par système

      Lorsque plusieurs flux sont disponibles, à quelle vitesse un système donné peut-il acquérir ou restaurer des données ? Cette question permet d’évaluer le nombre de contrôleurs ou de systèmes nécessaires pour le déploiement.