A la découverte du Big Data…

La domotique c’est quoi? Parlons-en…
avril 26, 2017
Internet des Objets ou Web 3.0 , 3ème génération de l’Internet!
mai 2, 2017

Au commencement de l’informatique était la donnée. Avec l’expansion de l’internet, c’est un volume impressionnant de données qui est généré quotidiennement par les particuliers, les entreprises et maintenant les objets et les machines.

 


 

Chaque jour, nous générons 2,5 trillions d’octets de données (1 trillion= 1 milliard de milliards). 90% de ces données dans ont été créées au cours des deux dernières années et beaucoup d’entre elles sont non structurées. Comme exemple, nous pouvons citer les textes bureautiques, mails, SMS, les données provenant des caméras de vidéosurveillance ou compteurs intelligents ainsi qu’une masse considérable de données partagées par tous sur le web et les réseaux sociaux. La prolifération d’appareils connectés a largement contribué à l’explosion de l’univers numérique. Il a été multiplié par 2 pour atteindre la taille considérable de 2,8 Zo et devrait peser 40 Zo à l’horizon 2020. À titre de comparaison, 40 Zo de données équivaut à 57 fois la quantité de tous les grains de sable de toutes les plages de la Terre, sachant que leur nombre est estimé à 700 500 000 000 000 000 000 (soit sept cents trillions cinq cents billions).


De grandes quantités de données utiles sont perdues : la promesse du Big Data tient à l’extraction de valeur à partir de vastes ensembles de données inexploitées.

C’est quoi le Big data ?

Littéralement, ces termes signifient méga données, grosses données ou encore données massives. Ils désignent un ensemble très volumineux de données qu’aucun outil classique de gestion de base de données ou de gestion de l’information ne peut vraiment exploiter. Ces données sont baptisées Big Data ou volumes massifs de données.

Le Big Data couvre quatre dimensions : volume, vélocité, variété et véracité qui constituent les 4V :

  • Volume : les entreprises sont submergées de volumes de données croissants de tous types, qui se comptent en téraoctets, voire en pétaoctets. Il s’agit par exemple de transformer les 12 téraoctets de Tweets créés quotidiennement en analyse poussée des opinions sur un produit ou de convertir les 350 milliards de relevés annuels de compteurs afin de mieux prédire la consommation d’énergie.

 

  • Vélocité : Parfois, deux minutes c’est trop. Pour les processus chronosensibles tels que la détection de fraudes, le Big Data doit être utilisé au fil de l’eau. Autrement dit, pour une entreprise, les données doivent être traitées au fur et à mesure qu’elles arrivent afin d’en tirer le maximum de valeur.
  • Variété : le Big Data se présente sous la forme de données structurées ou non structurées (texte, données de capteurs, son, vidéo, données sur le parcours, etc.). De nouvelles connaissances sont issues de l’analyse collective de ces données :
    • Utiliser les centaines de flux vidéo des caméras de surveillance pour contrôler les points d’intérêt.
    • Tirer parti de la croissance de 80 % du volume de données image, vidéo et documentaires pour améliorer la satisfaction client.

 

  • Véracité : 1 décideur sur 3 ne fait pas confiance aux données sur lesquelles il se base pour prendre ses décisions. Comment pouvez-vous vous appuyer sur l’information si vous n’avez pas confiance en elles? Etablir la confiance dans les Big Data représente un défi d’autant plus important que la variété et le nombre de sources augmentent.

 

Quels sont les acteurs du Big Data?

La filière Big Data en a attiré plusieurs. Ces derniers se sont positionnés rapidement dans divers secteurs. Dans le secteur IT, on retrouve les fournisseurs historiques de solutions IT comme Oracle, HP, SAP ou encore IBM qui propose depuis fin 2011 InfoSphere BigInsights Basic pour SmartCloud Enterprise. Cette version pouvant gérer 10To de données est accessible gratuitement aux utilisateurs de Linux. Cependant, BigInsights Enterprise est payant.  

De son côté, Microsoft a privilégié l’utilisation du framework Hadoop en 2011 au détriment de LINQ to HPC. Le géant de l’informatique l’a ainsi utilisé pour développer Windows Azure et Windows Server.  Les grands acteurs du web, dont les moteurs de recherche Yahoo et Google, ainsi que les réseaux sociaux comme Facebook proposent également des solutions Big Data. Dès 2004, Google a proposé MapReduce, un algorithme capable de traiter et de stocker une grande quantité de données. En 2014, Google a annoncé son remplacement par Google Cloud Dataflow, une solution SaaS.  Pour sa part, Yahoo se consacre entièrement au développement de Hadoop. en embauchant Doug Cutting, son créateur.

En parallèle à ces principaux participants, de nombreuses PME spécialisées dans le Big Data sont apparues, sur toute la chaîne de valeur du secteur. En France, les pionniers ont été Hurence et Dataiku pour les équipements et logiciels de Big Data ; Criteo, Squid, Captain Dash et Tiny Clues pour l’analyse de données et Ysance pour le conseil.

 

Big Data : pour quoi faire ?

Les Big Data, c’est avant tout une formidable opportunité pour les entreprises d’innover, de développer leurs ventes, leurs bénéfices, leurs marchés, d’adresser de nouveaux clients, et de créer de nouvelles offres. Pour les clients de ces entreprises et les consommateurs, c’est l’assurance d’une meilleure expérience client dans toutes leurs interactions avec les marques que ce soit au niveau marketing, commercial ou au niveau du service client.

L’approche Big Data permet de sortir de l’analyse des moyennes et de trouver les artefacts et points de fuite. Autant d’apports très pertinents pour comprendre les comportements et actes d’achats de ses clients. Big Data permet d’identifier les comportements atypiques, les anomalies, les brèches dans une approche marketing. Ce que ne permettent pas les logiques analytiques précédentes.

D’autre part, les annonces Display font vivre le web, Facebook, Twitter, Google, Yahoo, Amazon, Lemonde.fr, etc. Tous les sites que nous parcourons chaque jour sont couverts d’annonces Display. Un marketing en temps réel qui fonctionne sur la base d’algorithmes nombreux et enrichis par les données personnelles de chacun d’entre nous.

Autres domaines d’applications phares:

  • Industrie 4.0, Urbanisation, maintenance predictice (vehicule connecte , …..) , Smart House , Smart cities.
  • Sante : Aide aux diagnostics médicales : IBM a réussi à extraire à partir des notes prises par des médecins pendant les consultations (notes électroniques), des critères pour diagnostiquer l’insuffisance cardiaque. Ils ont développé un algorithme de «Machine Learning» qui synthétise le texte en utilisant une technique appelée « Natural Language Processing» ( NLP )

 

Sika Technologie

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *