Le Big Data et le Right Data

Le Big Data désigne un ensemble très volumineux de données ou volume massif de données. Chaque jour, nous produisons de nombreuses données, comme les emails que nous envoyons, les messages sur les réseaux sociaux, les articles et les vidéos mis en ligne, les signaux GPS et autres. Cet ensemble de données est ainsi le Big Data.

Face à cette énorme masse de données, il faut pouvoir s’y retrouver et traiter les données.

Le Big Data est en fait la capacité à traiter de gros volumes d’informations avec des moyens informatiques de plus en plus standards.

Ces volumes d’informations ou de données intéressent de nombreux secteurs comme le tourisme, le commerce, la publicité, la génétique, l’astronomie ou les ressources humaines. On peut considérer que les données volumineuses sont le nouvel or noir de l’ère numérique.

Pour gérer le Big Data, il faut collecter, traiter, analyser ces données et prendre toutes les actions pertinentes suite à l’analyse de ces données.

Pour traiter le Big Data, on utilise des bases de données NoSQL qui sont plus performants que les bases de données classiques SQL (clé/valeur, colonne, ligne, table).

Le phénomène du Big Data peut être caractérisé par les 5V :

  1. Volume
  2. Vitesse
  3. Variété
  4. Véracité
  5. Valeur

1) Volume

Le Volume désigne la masse d’informations produite chaque seconde. En 2000, 20% des données étaient numériques et le reste était analogique. En 2015, 98% des données sont maintenant numériques et le reste est analogique. Ces données sont produites par les ordinateurs personnels, les smartphones, les tablettes et autres appareils.

Chaque minute, nous produisons :

  • 216000 photos sur instagram
  • 270000 tweets
  • 30 milliards de messages instantanés
  • 200 millions de mails

La plupart de ces données sont récoltées par deux entreprises qui sont :

  • Google avec Gmail, le moteur de recherche Google, Android et Youtube
  • Facebook avec instagram et WhatsApp

Ces deux entreprises accumulent ces données pour pouvoir les traiter avec pour objectif de fidéliser les utilisateurs afin d’accumuler le maximum de données à monétiser auprès de leurs annonceurs.

2) Vélocité

La Vélocité désigne la rapidité de l’élaboration et du déploiement des nouvelles données.

3) Variété

La Variété désigne les différent types de données comme des images, des vidéos, des textes, des voix, et autres. Dans l’ensemble de ces données, 80% de ces données sont non-structurées et les 20% restants sont des données structurées qui sont stockées dans des tables de données relationnelles.

4) Véracité

La Véracité représente la crédibilité et la fiabilité des données collectées. Comme une grande quantité de données est recueilli, tous les contenus ne sont pas toujours authentiques. Par exemple, sur Twitter, certains messages peuvent contenir des coquilles, des abréviations ou du langage familier.

5) Valeur

La Valeur est le profit que l’on puisse tirer de l’usage du Big Data.


Maintenant que nous savons ce que c’est que le Big Data, il faut savoir qu’en réalité, le volume de données n’est pas la priorité, la priorité, c’est d’avoir les bonnes données, on pourrait appeler cela, le Right Data.

Pour illustrer le Right Data, on peut citer deux entreprises qui utilisent ce principe qui sont Uber et Netflix.

Uber est une entreprise américaine qui développe des applications mobiles pour mettre en contact les utilisateurs et les conducteurs afin de réaliser des services de transport. Uber récolte un volume massif de données à partir de leur application mobile utilisée par leurs chauffeurs et leurs clients, mais il ne se contente pas que de recueillir ses données, il collecte surtout des données pertinentes qui lui permet de mettre en relation les clients (consommateurs) et les chauffeurs (fournisseurs de service). Identifier le besoin du client (avoir une voiture) et la position géographique du besoin du client (chercher le client à cet endroit) sont les deux Right Data qui ont permis à Uber de rendre les taxis obsolètes.

Netflix est une entreprise américaine qui propose une plateforme de films et séries télévisées en streaming sur internet. En 2016, 71 millions de personnes utilisaient le service de streaming Netflix, ces millions d’utilisateurs génèrent des données qui seront collectées et analysées pour mieux comprendre les habitudes des spectateurs. La préférence des utilisateurs pour tel type de film est la Right Data de Netflix, qui a ainsi mis en place un moteur de recommandation et des mots-clés pour chaque série télévisée. En fonction de ce que les utilisateurs ont le plus apprécié, des suggestions basées sur des mots-clés seront proposés aux utilisateurs.

 

Pour conclure, il vaut mieux récolter des données pertinentes pour pouvoir les traiter efficacement plutôt qu’une grande masse de données où toutes les données pertinentes et non pertinentes ont été mélangées.

A propos Nicolas Chen 63 Articles
Nicolas Chen est le Fondateur et Président de OpenDeepTech. Il est aussi un ingénieur développement logiciel qui a travaillé dans de nombreuses entreprises de divers secteurs tels que l'automobile, l'aéronautique, le médical, la robotique, la data science, le machine learning et le deep learning.

Soyez le premier à commenter

Laisser un commentaire