Le spécialiste européen de la formation certifiante en informatique et management pour les entreprises

Au cœur du big data, décryptage du phénomène Hadoop

 

Comment nous le faisons, depuis Août 2011 (date de notre premier article de fond) et tout au long des actualités quasi quotidiennes relatives à ce phénomène, nous vous proposons, aujourd'hui, un nouvel article au sujet de fameux phénomène "big data".

Il est, cette fois, consacré à Hadoop, la boîte à outils taillée pour l’analyse d’énormes volumes de données non structurées qui incarne à elle seule le concept de big data.

En vous en souhaitant une bonne lecture, voici un tour d’horizon d’une technologie qui rebat les cartes de l’analytique.

Depuis un an, l’engouement du marché pour le big data se manifeste principalement sur une de ses composantes :

L’analyse de données. Le phénomène résulte clairement de la montée en puissance d’Hadoop, un framework open source réputé pour sa puissance d’indexation, de transformation, de recherche ou d’élaboration de modèles sur de très gros volumes de données.

Pour autant, Hadoop soulève plusieurs questions. Celles, notamment, des compétences requises pour être apprivoisé. Ou encore celles de la nature des analyses fournies. Une chose est certaine en tout cas, au cours de ces dix dernières années, Hadoop aura fait ses preuves et contribué au succès de plusieurs géants du web. Et aujourd’hui, il aiguise l’appétit de tous les acteurs amenés à gérer de la donnée.

Hadoop ? une histoire vieille de dix ans !

La boîte à outils taillée pour l’analyse d’énormes volumes de données non structurées incarne à elle seule le concept de big data. Retour sur ses origines, le rôle de Google et celui de Yahoo.

Une des raisons pour lesquelles Hadoop concentre tant l’attention de l’industrie tient à la légitimité qu’il a acquise tout au long de cette décennie. Pour la petite histoire, le succès de Google lui est en partie imputable. En 2001, alors qu’il ne pèse rien sur le marché des moteurs de recherche, le futur géant développe ce qui deviendra les composants phares d’Hadoop. 

« Pour stocker, traiter et indexer 5 milliards de pages web, il construit MapReduce, Google Big Table et Google File System. Il exploite ces éléments pendant trois ans, et en fait la description dans une publication académique », raconte Charles Zedlewski, vice-président produit de Cloudera, l’une des start up pionnières dans le big data.

Trois start up qui ont ouvert la voie :

En 2004, un certain Doug Cutting, fondateur du moteur de recherche open source Lucene, qui, à l’époque, planche sur une méthode relativement économique pour indexer en masse des pages web, s’empare des publications de Google, et crée le premier prototype d’Hadoop. Devant le succès de Google, et sa capacité à « avaler » si facilement le web, Yahoo, de son côté, cherche à investir cette technologie. Elle embauche Doug Cutting en 2006, promeut activement Hadoop, le stabilise, et va jusqu’à créer, l’année dernière (en juin 2011), une filiale dédiée à Hadoop : Hortonworks.

Entre-temps (fin 2009), le père d’Hadoop rejoint Cloudera, concurrent frontal d’Hortonworks, qui toutes deux se disputent le titre de plus gros contributeur d’Hadoop. Il faut également compter sur une troisième start up, MapR (créée en même temps que Cloudera, début 2009) qui enrichit Hadoop d’une gestion de stockage propriétaire.

Ces trois start up ont levé plus de 150 millions de dollars en deux ans. Aujourd’hui, des géants du web tels que Facebook, Twitter, Linkedin ou eBay exploitent Hadoop, lequel, depuis décembre dernier, est entré dans sa version v1.0.0 (qui succède à la v0.22.0).

Une boîte à outils qui requiert des compétences très différentes :

De l’expert en programmation parallèle à l’utilisateur métier avancé, en passant par les spécialistes Java ou SQL… tous ont à intervenir autour d’Hadoop, dont la complexité dépend de la brique technologique par laquelle on le sollicite.
Hadoop est-il plus complexe à installer et à manipuler que les plates-formes traditionnelles portées, elles aussi, sur l’analyse de données ? La question exige de distinguer trois aspects intrinsèques de cette pile open source : le déploiement de son infrastructure technique, le développement d’applications et l’exploitation de données.

Sur le premier volet, Charles Zedlewski, vice-président produit de Cloudera, ardent promoteur d’Hadoop, fait valoir l’argument de la simplicité : « Il faut être un sacré bon ingénieur pour bâtir soi-même le socle technique d’un programme développé en interne et destiné au traitement en masse de données. Car cela demande de paramétrer des outils de parallélisation, de montée en charge, de fail-over. Avec Hadoop, tous ces services sont nativement proposés dans le framework. »

En l'occurrence, par deux de ses éléments phare : un modèle de programmation (MapReduce) et un système de fichiers (HDFS), tous deux hautement distribués.

C’est juste, confirme Julien Cabot, responsable de l’activité finance chez Octo Technology. Pour autant ce dernier rappelle que « des compétences fines en architecture réseaux et serveurs sont requises. Notamment pour déployer les clusters dans Hadoop. Ce dernier point a tendance à être sous-estimé sous prétexte que la pile open source repose sur du matériel banalisé. »

Des connaissances en programmation en parallèle très spécifiques :

En matière de développement, les choses semblent là plus ardues. Car exploiter pleinement le potentiel d’Hadoop implique de bâtir des applications conformes au modèle de programmation distribué MapReduce. « De très bons développeurs spécialisés en Java ou dans la conception de requêtes décisionnelles ne maîtriseront pas forcément cette programmation parallèle. Celle-ci relève aujourd’hui d’ingénieurs spécialisés dans les grilles de calcul. On les trouve généralement dans le secteur bancaire, mais ils sont peu nombreux sur le marché », poursuit Julien Cabot. D’ailleurs les fournisseurs d’Hadoop incitent un maximum d’éditeurs (compétents notamment dans l’analytique ou l’intégration de données) à aligner leurs applications et leurs outils sur MapReduce. Histoire de masquer la complexité aux utilisateurs.

MapReduce est-il plus compliqué que SQL ou Excel ? Charles Zedlewski en convient volontiers. Mais il insiste sur le fait que ce framework de développement est bien plus simple que MPI, un langage de programmation largement utilisé par les chercheurs, lui aussi parallèle.

Le « data scientist », un mouton à cinq pattes :

MapReduce n’est pas la seule porte d’entrée d’Hadoop. Les données stockées dans son système de fichiers distribué HDFS peuvent également être accessibles par Pig, un langage procédural adapté aux traitements de flux de données parallélisés Pig. Un langage de haut niveau certes, mais qui, là encore, requiert des compétences bien spécifiques.

Plus accessible en revanche, Hive. Cet autre module de la pile Hadoop transforme des requêtes SQL en programmes MapReduce (même si ici les requêtes ne sont pas optimisées par la parallélisation). Il s’adresse potentiellement aux utilisateurs avancés, spécialisés dans le décisionnel. « Avec Hive, Hadoop peut être vu comme un infocentre qui stockerait des données de détail en énorme quantité. Sans qu’il y ait besoin de paramétrer des axes d’analyse ou des datamart », précise Julien Cabot.

Et qui pour manipuler ces données, les investiguer, déceler des corrélations jusque là insoupçonnées ? Le fameux « data scientist ». Un mouton à cinq pattes, à la fois très métier mais également capable de mener ces explorations de données, a minima techniques. Dans le cadre d’une étude réalisée par EMC, 83 % des entreprises interrogées s’attendent à connaître une pénurie de « data scientist ».

Dans ce contexte, la prolifération d’Hadoop dépendra pour beaucoup de la disponibilité de telles compétences sur le marché.

La technologie idéale pour analyser l'inconnu :

La boîte à outils taillée pour l’analyse d’énormes volumes de données non structurées incarne à elle seule le concept de big data. Zoom sur le type d’analyse privilégié par Hadoop.
Hadoop répond à deux besoins spécifiques. « Celui, d’une part, d’un traitement massif des données n’ayant pas de schéma clair, et de leur transformation vers un format plus structuré. La construction d’un index de page web, par exemple », explique Charles Zedlewski, vice-président produit de Cloudera. L’autre usage concernant ce que la start up qualifie « d’analytique avancée », c'est-à-dire l’élaboration de modèles prédictifs (lutte contre la fraude, type de publicité à proposer en ligne…) dans des environnements changeants.

Des données de détail pour rejouer les analyses :

Historiquement, les entreprises sont obligées d’agréger un minimum leurs données de détail pour être en mesure de conserver, par exemple, un historique des ventes le plus ancien possible. Seulement, si le contexte dans lequel les transactions ont été opérées (nouvelle structure de l’entreprise ou nouvelle classification des produits) est chamboulé, les analyses ne peuvent plus être rejouées.

« Le fait d’avoir agrégé des données interdit tout retour en arrière. Hadoop, lui, donne la possibilité de conserver toutes les données de détail et de simuler des scénarios »,  indique pour sa part Eric Baldeschwieler, le PDG d’Hortonworks, concurrent de Cloudera. Plus généralement, le stockage de données de bas niveau rend les utilisateurs libres d’explorer des axes auxquels ils n’auraient pas pensé initialement. Sur ce point, Hadoop se rapproche des offres de décisionnel « en mémoire » qui, elles non plus, n’exigent pas de configurer « dans le dur » les axes d’analyse.

Les algorithmes ne s’appliquent plus à des échantillons :

Autre atout indéniable : l’élaboration des algorithmes. Avec Hadoop et ses traitements hautement distribués, ces algorithmes peuvent être appliqués et testés sur la totalité des données stockées. Ces très gros volumes (des millions de fichiers) garantissant la pertinence des algorithmes. C’est une mini révolution pour Jack Norris, vice-président marketing de MapR, troisième jeune pousse spécialisée :

« Dans les approches traditionnelles qui utilisent des bases SQL, les algorithmes sont construits avec des échantillons de données. Et plus cet échantillon est important, plus le coût de l’analyse est élevé. Il croît même de manière exponentielle. »

L’équation des partisans d’Hadoop est donc la suivante :

L'argent dépensé pour nettoyer et organiser les données avant l’élaboration du modèle prédictif, ou encore pour enrichir sans cesse les algorithmes, quitte à embaucher pour cela des compétences très pointues, peut être économisé en stockant ses données massivement dans Hadoop.

Hadoop reste ancré sur les processus différés : A l’inverse, ne demandez pas à Hadoop de réaliser des transactions financières à la milliseconde. Ce socle technologique reste profondément ancré sur les traitements différés. Par ailleurs, son processus d’alimentation de données, bien que récemment amélioré, manque de souplesse (car bien trop séquentiel). Ne vous attendez pas non plus à le voir réaliser des opérations relevant de la Business Intelligence (BI) classique.

« L’analyse opérationnelle des ventes de la semaine par zone et par produit reste plus adaptée au sein d’un datawarehouse classique », reconnaît Charles Zedlewski qui envisage Hadoop comme un socle d’archivage pour les entrepôts de données.

Pourquoi tous les spécialistes de la donnée convoitent Hadoop :

La boîte à outils taillée pour l’analyse d’énormes volumes de données non structurées incarne à elle seule le concept de big data. Concept qui suscite l’intérêt de tous les acteurs amenés à stocker et à analyser des données.
Ne pas rester en marge du mouvement ! Depuis un an environ, un nombre impressionnant d’éditeurs et de constructeurs se sont positionnés sur le big data.

Qu’ils soient spécialisés dans les systèmes de stockage, l’intégration de données, les datawarehouses, le décisionnel ou le prédictif, on ne compte plus aujourd’hui ceux dont le portefeuille de produits s’est enrichi d’une brique Hadoop.

Une position défensive des éditeurs d'entrepôts de données :

Premiers d’entre eux, les fournisseurs d’entrepôts de données. Le datawarehouse devient le réceptacle des traitements effectués par la base Hadoop sur des données non structurées. Nous avions déjà évoqués les initiatives de Teradata et d’IBM.

Microsoft s’inscrit dans la même approche en s’associant avec Hortonworks, une des start up pionnière dans le big data. Sa pile Hadoop sera ainsi intégrée à SQL Server, son datawarehouse « en boîte » (Parallel Data Warehouse) ainsi qu’à son offre cloud (Windows Azure). Ces spécialistes de la base de données, et en particulier du datawarehouse, voient donc Hadoop comme le complément idéal à leur offre. Même si leur démarche peut aussi être interprétée comme une posture défensive.

Avec Hadoop, la question du remplacement des infrastructures existantes se pose réellement. Prenons l’exemple d’un système décisionnel traditionnel dont l’entrepôt de données pèserait 7 téraoctets. Si chaque jour, il doit absorber 1 téraoctet de données nouvelles, l’équation économique risque d’être très salée. Car cette capacité d’injection ne peut être assurée que par des datawarehouses haut de gamme, et donc très coûteux. Là où Hadoop, lui, avec son système d’écriture distribué, est idéal, et bien moins cher.

Les acteurs du stockage, particulièrement motivés…

Mais bien d’autres familles de fournisseurs lorgnent sur Hadoop. A commencer par les spécialistes du stockage, qui voient en lui une aubaine pour vendre plus de disques. Ainsi, en juillet 2010, EMC rachetait Greemplum, un fournisseur de datawarehouse, qu’il a enrichi en 2011 avec la distribution Hadoop de la jeune pousse MapR. Plus récemment, son concurrent Netapp signait, lui, avec la start up Cloudera.

Côté applications, en revanche, les stratégies semblent diverger. Si Oracle vient de s’associer avec le même Cloudera pour bâtir un appliance Hadoop, SAP reste concentré sur son système de stockage en mémoire (baptisé Hana) censé répondre aux enjeux du big data. Tout en laissant sa filiale Sybase se rapprocher d’Hadoop… Son entrepôt de données, Sybase IQ, vient en effet de s’ouvrir au modèle de distribution Map Reduce (au cœur Hadoop).

Le décisionnel n’est pas en reste :

Hadoop ne laisse pas non plus indifférent les spécialistes de l’intégration de données tels qu’Informatica ou Talend. Lesquels doivent non seulement récupérer et charger des données dans et depuis Hadoop, mais surtout distribuer ces traitements selon la logique de parallélisation de Map Reduce.

Enfin, au somment de l’infrastructure décisionnelle, les outils de restitution doivent être en mesure d’interroger Hadoop. Certains éditeurs spécialisés le font nativement, comme Karmaspehere ou Datameer. D’autres, tels que Jaspesoft ou Tableau Software, viennent d’annoncer le support d’Hadoop.

A quand le tour des acteurs historiques du décisionnel ?

EGILIA a obtenu
4.9 / 5 sur
11 avis avec Avis-vérifiés.com

EGILIA https://www.egilia.com/images/egilia-v3/home/logo-egilia.png 22 rue du General Foy, 75008 PARIS +33 800 800 900 De 295€ à 15455€