Page 2 - C2I big data
P. 2
I. Exploitation intensive des données numériques
La masse de données (A) qui transite chaque jour sur le web par le biais des utilisateurs est récoltée au travers
de plusieurs méthodes (B, C, D).
A. « Big Data »
1. Définition
Le « Big Data » est une notion récente qui émane de l’influence des TIC (Technologies de l'information et de la
communication) dans la société actuelle et ce depuis une vingtaine d’années. Selon les archives de la bibliothèque
numérique de l'Association for Computing Machinery (ACM), l’expression « Big Data » serait née en octobre 1997.
Les nouvelles technologies (internet, objets connectés, réseaux sociaux, etc.), permettent de mettre en circulation
de plus en plus de données qui seront ensuite collectées. La notion peut donc être traduite par « données massives »
ou encore « métadonnées ». Une fois les informations collectées elles seront ensuite analysées et stockées.
L’ensemble de ces données représentent le « big data ». Grâce à l’évolution de la capacité de nos outils numériques
toutes ces actions peuvent être étendues au monde entier. Le « Big Data » est devenu un outil de technologie de
l’information qui prend une place marquante dans le cyberespace.
La croissance des données peut se regarder sous trois dimensions (on l’appelle aussi règle des « 3V ») :
- Le volume : on note une forte évolution du nombre de données stockées.
- La vélocité : peut être renvoyé à la notion de vitesse et de direction. Il s’agit de la fréquence à laquelle les
données sont créées, collectées et partagées. La vitesse est un élément essentiel notamment au regard de
l’économie. Le monde de la bourse et des entreprises nécessite une vitesse toujours accrue. Ces différents
acteurs doivent être en capacité de traiter les données rapidement afin de maximiser leur profit. Prenons
l’exemple des trading haute fréquence, qui utilisent des opérateurs qui sont automatisés, les ordres d’achat-
vente peuvent être lancés à la nanoseconde par des « robots ».
- La variété : les données peuvent être de toutes sortes. Ainsi, les centres qui récoltent les données auront
une multitude d’informations différentes venant de diverses sources. Au départ les données sont brutes,
elles ne sont pas structurées, donc pour être exploitées elles devront être structurées voir classifiées.
Le volume de ces données étant important, de nouveaux modèles sont mis en place afin d’assurer l’efficacité et la
performance du traitement. Concernant le stockage, l’accroissement de la technologie ne sait répondre au caractère
exponentiel de celui des données. Il faut donc multiplier les lieux de stockage afin de faire face à ces quantités de
données.
2