• Déduplication des données

    • La déduplication des données recherche les séquences d’octets redondantes sur de très grandes fenêtres de comparaison. Des séquences de données de plus de 8 Ko sont ainsi comparées à d’autres séquences antérieures identiques. La première version stockée de ces séquences est alors citée en référence pour éviter les doublons. L’opération est entièrement masquée pour les utilisateurs et les applications, afin que tout fichier écrit puisse être lu dans son intégralité.

    • Qui utilise le processus de déduplication des données et pourquoi

      Le processus de déduplication est idéal pour des opérations très redondantes telles que les sauvegardes, qui exigent de copier et de stocker à maintes reprises le même Dataset pendant 30 à 90 jours en vue d’une restauration éventuelle. C’est la raison pour laquelle des entreprises de toutes tailles recourent aux processus de sauvegarde et de restauration avec déduplication, qui assurent la rapidité, la fiabilité et la rentabilité de ces opérations.

      Principe de fonctionnement de la déduplication des données

      La fonction de déduplication segmente un flux de données entrant, attribue un identifiant unique aux segments de données et compare les segments aux données précédemment stockées. Si le segment est unique, il est stocké sur le disque. Cependant, si un segment de données entrant s’avère être un doublon de données existantes, il n’est pas stocké à nouveau, mais une référence vers celui-ci est créée.

      Par exemple, la sauvegarde hebdomadaire d’un fichier ou d’un volume aboutit à la création d’une grande quantité de données en double. Les algorithmes de déduplication analysent les données et stockent uniquement les segments modifiés uniques et compressés du fichier concerné. Ce processus offre une réduction des besoins en capacité de stockage d’un facteur 10 à 30 en moyenne, en appliquant simplement des règles de rétention de sauvegarde standard aux données courantes de l’entreprise. En d’autres termes, une entreprise peut stocker entre 10 et 30 To de données de sauvegarde sur un disque physique d’une capacité de 1 To, ce qui présente des avantages économiques évidents.

      Avantages de la déduplication des données

      La suppression des données redondantes permet de réduire sensiblement les besoins en matière de stockage tout en améliorant l’efficacité de la bande passante. En effet, comme les coûts du stockage primaire ont diminué avec le temps, les entreprises stockent souvent plusieurs fois la même information de façon à ce que les nouveaux employés puissent réutiliser des travaux antérieurs. Or, certaines opérations, comme la sauvegarde, stockent des informations extrêmement redondantes.

      Le processus de déduplication des données permet alors de réduire les coûts de stockage en limitant le nombre de disques nécessaires. Il contribue également à améliorer la reprise après sinistre en raison du volume de données bien moins important à transférer. Les données de sauvegarde et d’archivage comportent habituellement beaucoup d’informations en double.

      Les mêmes données sont stockées encore et encore. Elles occupent de l’espace de stockage sur les disques ou les bandes, elles consomment de l’électricité pour l’alimentation et le refroidissement des lecteurs de disques et de bande, et elles utilisent de la bande passante lors des opérations de réplication. Ce gaspillage génère une chaîne de coûts et un manque d’efficacité dans la gestion des ressources au sein de l’entreprise.

    • En savoir plus