Les trois étapes clés pour exploiter les données non structurées

Les données non structurées sont cruciales pour les entreprises. Mais leur exploitation a longtemps constitué une source de complexité importante. Mais ça, c’était avant l’arrivée de PowerScale !
En partenariat avec 

D’ici 5 ans, les données non structurées représenteront 80 % des volumes de données dans le monde. Des applications nouvelle génération comme l’intelligence artificielle, l’internet des objets ou encore le Big Data reposent sur elles.

Bien maitriser l’exploitation de ce type de donnée est une étape cruciale pour comprendre les tendances du marché et les attentes des clients. Une bonne exploitation des données constitue un enjeu business majeur pour les entreprises, à l’heure où une maitrise de l’information peut permettre à une start-up de venir bousculer des géants jusqu’ici bien établis.

Mais quelles sont les caractéristiques des données non structurées ?

Comme leur nom l’indique, les données non structurées sont des données qui ne disposent pas d’une structure permettant de les exploiter simplement. Image, vidéo, ou encore texte, elles sont initialement conçues pour être consommées par des humains et non par des outils informatiques. Impossible donc de les « requêter » à la manière d’une base de données. Les données non structurées réclament donc une gestion et un stockage spécifiques pour pouvoir en tirer le potentiel business.

Outre ces caractéristiques, les données non structurées sont très hétérogènes, elles sont créées dynamiquement par les applicatifs et sont distribuées entre le Edge, le core et les Clouds qu’ils soient publics ou privés. De ce fait, leur exploitation est complexe et ne peut se concevoir sans une nouvelle manière de faire.

Voici donc les trois étapes clés pour bien exploiter ce type de données :

Étape 1 : Structurer

La nouvelle gamme Dell EMC PowerScale, qui associe l’intelligence logicielle OneFS à la puissance matérielle des serveurs PowerEdge équipés des processeurs Intel® Xeon® va permettre aux clients Dell Technologies de structurer leur contenu. À la différence du stockage en mode bloc ou fichier, le stockage objet permet d’enrichir la donnée de métadonnées et ainsi de la contextualiser.

Pour faire simple, si la donnée est par essence non structurée, l’objet lui, l’est. Le nombre et le type de métadonnées qu’il est possible d’utiliser est quasiment illimité. Grâce à ces métadonnées, les applications peuvent « enrichir » la donnée en lui associant des informations additionnelles pertinentes afin d’y accéder très rapidement et, in fine, tirer de ces immenses volumes de données des enseignements vitaux pour le business.

Le support du protocole S3 avec Powerscale va permettre cette structuration de la donnée. Ce support va très rapidement devenir un must pour tous les systèmes de stockage modernes.

Étape 2 : Unifier

Parce qu’innover ne doit pas être synonyme de complexifier, PowerScale prend en charge huit protocoles de stockage différents, dont le stockage objet S3. La spécificité de Powerscale avec OneFS est que le support de S3 ne constitue pas un nouveau silo protocolaire.

Différentes offres disponibles sur le marché proposent d’« unifier » les stockages NAS et objet au sein d’une même infrastructure, mais sans autoriser les différents protocoles à communiquer entre eux. PowerScale propose une véritable unification en permettant aux protocoles historiques comme NFS ou CIFS de lire une donnée écrite en S3, et inversement, dans un même conteneur de données, sans passer par une étape intermédiaire de transformation.

Concrètement, cela signifie que les systèmes legacy peuvent travailler en toute transparence avec les applications cloud et next-gen tout en bénéficiant des services OneFS comme le tiering automatique, la réplication ou les snapshots.

Étape 3 : Gérer

Au-delà de l’unification protocolaire, il est maintenant possible de déplacer les données sur différents supports, qu’ils soient NAS, objet, cloud ou on-premise, afin de toujours placer la donnée au meilleur endroit selon des critères de coûts et de performances.

Mais avec l’accroissement des volumétries de données et des besoins en constante évolution, impossible de réaliser ces opérations manuellement. C’est pourquoi PowerScale a été associé à la technologie DataIQ. Cette dernière va pouvoir découvrir des espaces massifs de données non structurées, les indexer à très grande vitesse, poser des tags pour in fine gérer le placement des données en fonction de critères applicatifs définis par l’administrateur.

Via la notion de tag, DataIQ est également en mesure de créer automatiquement des groupes logiques de données pour leur appliquer une même politique et définir ainsi des niveaux de services customisés.

Outre ces points, DataIQ est capable d’identifier toutes les données non structurées non seulement sur l’infrastructure PowerScale, mais aussi sur PowerStore ou ECS, sur les plateformes de cloud public ou même sur des systèmes de stockage tiers.

Cet aperçu des avantages de PowerScale n’est bien entendu pas exhaustif. La plateforme tire parti de l’évolutivité en mode scale-out éprouvée d’Isilon, de la puissance de l’infrastructure NVMe de PowerEdge ou encore du service CloudIQ, notamment intégré à PowerStore.

Pour davantage de détails, le webinar de lancement de PowerScale est toujours accessible à la demande.

About the Author: Jérôme Trousselle

Jérôme Trousselle est Ingénieur Système Senior chez Dell Technologies et spécialiste des solutions de données non structurées.