Page 2 - C2I big data
P. 2

I.     Exploitation intensive des données numériques





           La masse de données (A) qui transite chaque jour sur le web par le biais des utilisateurs est récoltée au travers
        de plusieurs méthodes (B, C, D).





            A.  « Big Data »


                                 1.  Définition


        Le  « Big  Data »  est  une  notion  récente  qui  émane  de  l’influence  des  TIC  (Technologies  de  l'information  et  de  la

        communication) dans la société actuelle et ce depuis une vingtaine d’années. Selon les archives de la bibliothèque
        numérique de l'Association for Computing Machinery (ACM), l’expression « Big Data » serait née en octobre 1997.
        Les nouvelles technologies (internet, objets connectés, réseaux sociaux, etc.), permettent de mettre en circulation

        de plus en plus de données qui seront ensuite collectées. La notion peut donc être traduite par « données massives »

        ou  encore  « métadonnées ».  Une  fois  les  informations  collectées  elles  seront  ensuite  analysées  et  stockées.
        L’ensemble de ces données représentent le « big data ». Grâce à l’évolution de la capacité de nos outils numériques

        toutes ces actions peuvent être étendues au monde entier. Le « Big Data » est devenu un outil de technologie de
        l’information qui prend une place marquante dans le cyberespace.


        La croissance des données peut se regarder sous trois dimensions (on l’appelle aussi règle des « 3V ») :


            -   Le volume : on note une forte évolution du nombre de données stockées.


            -   La vélocité : peut être renvoyé à la notion de vitesse et de direction. Il s’agit de la fréquence à laquelle les

               données sont créées, collectées et partagées. La vitesse est un élément essentiel notamment au regard de
               l’économie. Le monde de la bourse et des entreprises nécessite une vitesse toujours accrue. Ces différents

               acteurs doivent être en capacité de traiter les données rapidement afin de maximiser leur profit. Prenons
               l’exemple des trading haute fréquence, qui utilisent des opérateurs qui sont automatisés, les ordres d’achat-

               vente peuvent être lancés à la nanoseconde par des « robots ».


            -   La variété : les données peuvent être de toutes sortes. Ainsi, les centres qui récoltent les données auront
               une multitude d’informations différentes venant de diverses sources. Au départ les données sont brutes,

               elles ne sont pas structurées, donc pour être exploitées elles devront être structurées voir classifiées.


        Le volume de ces données étant important, de nouveaux modèles sont mis en place afin d’assurer l’efficacité et la
        performance du traitement. Concernant le stockage, l’accroissement de la technologie ne sait répondre au caractère

        exponentiel de celui des données. Il faut donc multiplier les lieux de stockage afin de faire face à ces quantités de
        données.


                                                                                                                2
   1   2   3   4   5   6   7