• Hadoop

    • Apache Hadoop est un cadre Open Source qui permet de traiter en parallèle de grands jeux de données et d’extraire des données à partir de sources disparates. Hadoop intègre le système Hadoop Distributed File System (HDFS), YARN (Yet Another Resource Negotiator) et d’autres composants, tels que MapReduce. YARN joue le rôle de système d’exploitation qui gère les autres applications telles que MapReduce, et qui est chargé de traiter les jeux de données volumineux en parallèle.

      Le cadre Open Source Apache Hadoop s’étend pour intégrer des composants logiciels supplémentaires, tels que Spark, Zookeeper, Pig et Hive, et des centaines d’autres. Ces composants additionnels prennent en charge l’acquisition, la sécurité, la rédaction de scripts, le traitement, la visualisation et la surveillance des données. Tous les composants ne sont pas obligatoires. Leur sélection dépend entièrement des besoins des différents flux de travail.

    • Que faire avec Hadoop ?

      L’analytique Hadoop vous permet de mieux comprendre le comportement des clients, les activités opérationnelles, les schémas de vente, etc. Hadoop soutient les secteurs scientifique, médical et pharmaceutique en accompagnant les chercheurs qui appliquent de nouvelles méthodes d’analytique à des quantités massives de données dans le but de faire des découvertes qui n’auraient pas été possibles avec des échantillons de données plus petits. Hadoop est également un atout précieux pour l’évaluation des données de l’Internet des objets (IoT) dont les innombrables appliances, machines, véhicules, appareils, vêtements et accessoires, et autres objets connectés, génèrent chaque jour des quantités astronomiques d’informations exploitables.

      Quel rôle pour Hadoop dans le Big Data ?

      Apache Hadoop permet d’explorer rapidement et de manière rationalisée les diverses sources de données collectées. Les données obtenues regorgent d’informations précieuses pour l’entreprise. Leur mise en corrélation vous aide à prendre des décisions plus intelligentes, à proposer de meilleurs produits et services, et à mieux prédire les tendances et les comportements futurs.

      Pourquoi choisir un Data Lake pour Hadoop ?

      Chez Dell EMC, nous sommes persuadés qu’un Data Lake est essentiel à chaque environnement Hadoop, car plus vous disposez de données à analyser, plus les renseignements obtenus sont pertinents. Un Data Lake prend en charge différents types de données, généralement hébergées dans des silos distincts, et les consolide dans un référentiel Hadoop unique. Cette consolidation vous permet d’exécuter vos opérations à partir d’une source de données unique, et de gérer, contrôler et protéger cette source de manière unifiée.

      Pourquoi choisir un Data Lake Dell EMC pour Hadoop ?

      • Coûts d’exploitation réduits : en tirant parti des fonctionnalités offertes par un Data Lake Dell EMC, vous avez besoin de moins de capacité de stockage et d’espace physique pour héberger la même quantité de données. Le Data Lake Dell EMC est plus simple à gérer et consomme moins de ressources informatiques pour l’administration du stockage. Ce gain d’efficacité en matière de stockage vous permet de conserver davantage de données, plus longtemps : plus besoin de supprimer vos jeux de données les plus anciens.
      • Résultats visibles plus rapidement : avec un Data Lake Dell EMC, vous n’avez plus besoin de déplacer les données, car le Data Lake offre une fonction d’analytique intégrée.
      • Évolutivité et flexibilité : si le stockage DAS (Direct Attached Storage) est traditionnellement utilisé pour déployer et gérer Hadoop, il peut être judicieux de dissocier les opérations de calcul et de stockage à l’aide d’un Data Lake, en particulier si votre charge de travail Hadoop n’évolue pas de manière linéaire en fonction de la quantité de données.
    • En savoir plus