DATA ANALYTIC | Partielo

L'évolution technique des bases de données

GBDR (Système de Gestion de Bases de Données Relationnelles) : C'est le type de logiciel de base de données qui a régné en maître pendant des décennies (exemples : MySQL, Oracle, SQLServer). Dans un SGBDR, les données sont sagement rangées dans des tableaux (comme sur Excel) qui possèdent des relations entre eux (par exemple, le tableau "Clients" est relié au tableau "Commandes" par un numéro d'identifiant unique).
SQL (Structured Query Language) : C'est la langue standard internationale que l'on utilise pour communiquer avec ces logiciels (SGBDR). C'est grâce au SQL qu'on écrit des requêtes pour demander à la base de données de chercher, modifier ou supprimer une information précise.
OLTP (Online Transaction Processing) : C'est l'utilisation de ces bases de données relationnelles pour la gestion du quotidien et du temps réel. Une "transaction" est une action informatique de base (comme une caissière qui scanne un produit, un client qui achète un article sur un site ou quelqu'un qui change son mot de passe). La base réagit instantanément pour valider cette opération unique.
La limite : Ce modèle classique est parfait pour les transactions du quotidien, mais il est limité à quelques Téraoctets tout au plus et devient extrêmement lent et lourd dès qu'on essaie de faire des analyses statistiques sur des millions de lignes en même temps.

L'étape intermédiaire : Les cubes OLAP

Le Cube OLAP (Online Analytical Processing) : C'est une technologie créée pour dépasser la lenteur du SQL classique et servir d'outil d'analyse stratégique pour les managers.
Contrairement à l'OLTP qui regarde les actions une par une, l'OLAP permet de croiser instantanément des millions de données selon plusieurs dimensions (l'image d'un Rubik's Cube où chaque face représente une dimension : le Temps, le Lieu, le Produit). Cela permet de savoir en 1 seconde combien de t-shirts rouges (Produit) ont été vendus à Paris (Lieu) en décembre (Temps).
Ces bases de données contiennent des agrégats, c'est-à-dire que tous les calculs (sommes, moyennes) sont pré-calculés à l'avance pour faire gagner du temps au décideur.
La limite : Les espaces de stockage dédiés à ces cubes (appelés datamarts) prennent beaucoup trop de temps à être conçus par les informaticiens par rapport aux besoins ultra-rapides des entreprises.

La révolution : Le NoSQL et les Bases Colonnes (L'ère du Big Data)

NoSQL (Not Only SQL) : Signifie "Pas Seulement SQL". C'est une toute nouvelle génération de bases de données née à la fin des années 1990 (avec l'explosion du web et de Google) pour gérer le Big Data.
Le NoSQL casse la structure rigide des tableaux classiques. Il permet de stocker des données massives qui ne rentrent pas dans des cases Excel : des textes de tweets, des vidéos, des logs de serveurs ou des fichiers audio.
Bases de type Colonne : Au lieu de stocker et lire les informations ligne par ligne (ce qui est très lent), ces technologies stockent les données par colonnes. Cela permet de compresser énormément les fichiers et surtout de paralléliser le travail (distribuer les calculs sur des milliers d'ordinateurs en même temps pour diviser le temps de traitement).
Le In-Memory : Pour atteindre une vitesse maximale, les données ne sont plus lues sur un disque dur classique (trop lent), mais chargées et traitées directement dans la mémoire vive de l'ordinateur (la RAM).