Les différentes bases de données proposées par AWS

Aux origines du Big Data, les bases de données relationnelles régnaient en maître. Des technologies robustes certes, mais inadaptées face à l'explosion des données non structurées et à la nécessité d'analyser des pétaoctets d'informations en temps réel. C'est dans ce contexte qu'Amazon jeta les bases de ses services de bases de données distribuées il y a 15 ans. Objectif : offrir rapidité, flexibilité et passage à l'échelle aux données des entreprises.

Aujourd'hui, le portefeuille de solutions de bases de données d'AWS s'est considérablement étoffé. On y trouve aussi bien des offres de stockage clé en main ultra rapides, que des services serverless capables de gérer des charges colossales. De quoi répondre, en principe, à tous les cas d'usage du traitement de données modernes.

Bases de données AWS : de quoi parle-t-on ?

Derrière l’appellation « base de données AWS » se cache en réalité une multitude de services distincts conçus pour répondre à des cas d’usage spécifiques.

On peut tout d’abord différencier les bases de données dites « utilisateur » des bases de données « système ».

Les bases « utilisateur » comme Amazon Aurora, DynamoDB ou DocumentDB sont des data stores optimisés pour stocker et interroger efficacement des données applicatives. Typiquement, il s’agit là des backends de nos sites web, applications mobiles ou logiciels d’entreprise.

De leur côté, les bases « système » telles qu’ElastiCache ou Neptune ont pour fonction de supporter des workloads analytiques ou des traitements automatisés. Par exemple, ElastiCache peut servir de cache ultra-rapide pour décharger les requêtes redondantes d’un site e-commerce.

On distingue également les bases de données dites « clé-en-main » (RDS, RedShift..) des bases de données « serverless ». Les premières tournent sur des serveurs dédiés qu’il faut provisionner alors que les secondes s’appuient sur l’infrastructure serverless d’AWS pour une scalabilité et une disponibilité intrinsèques.

Enfin, dernière dichotomie majeure : certaines bases sont relationnelles, quand d’autres adoptent des modèles de stockage NoSQL.

Amazon RDS

Lancé en 2009, Amazon RDS (Relational Database Service) fait figure de pionnier dans l'univers du Cloud Database-as-a-Service. Derrière un service entièrement managé par AWS, RDS propose de créer et scaler facilement des bases de données relationnelles hautement disponibles.

Plus concrètement, RDS permet de déployer en quelques clics des instances de moteurs de bases de données éprouvés comme PostgreSQL, MySQL, MariaDB, Oracle Database ou Microsoft SQL Server.

AWS se charge en sous-main de la résilience, des sauvegardes, des tâches d'administration ou encore des mises à jour.

Par ailleurs, les atouts clés d'Amazon RDS peuvent se résumer ainsi :

Automatisation poussée des tâches d'administration DBA chronophages (sauvegardes, mises à jour, sécurité...).
Haute disponibilité et résilience grâce à la réplication native des données sur plusieurs zones de disponibilité.
Scalabilité élastique pour ajuster finement les ressources allouées en fonction des besoins applicatifs.
Support officiel des moteurs de bases de données les plus plébiscités (PostgreSQL, MySQL, Oracle...).
Intégrations natives avec les autres services AWS comme Lambda, CloudWatch ou VPC.
Tarification à la seconde pour une optimisation des coûts en fonction de l'usage réel.
Chiffrement des données au repos et en transit pour répondre aux exigences de sécurité.
Interface de gestion intuitive et outillage complet pour superviser et optimiser les workloads.

Côté cas d'usage, RDS excelle sur les workloads transactionnels ou les applications web nécessitant un stockage de données structuré. Son modèle relationnel s'avère par exemple tout indiqué pour alimenter en data une plateforme e-commerce ou un CRM d'entreprise.

RDS brille aussi en tant que backend de sites à fort trafic grâce à sa haute disponibilité intégrée.

Amazon Redshift

Basé sur une architecture massivement parallèle, Amazon Redshift est le data warehouse fully managed de référence du marché. Commercialisé depuis 2012, ce service permet d'interroger et d’analyser de vastes jeux de données (big data) de manière ultra-rapide.

Ainsi, Redshift s’appuie sur une technologie de stockage et de traitement column-oriented. Les données sont distribuées sur plusieurs nœuds connectés par un réseau haut débit. Lorsqu'une requête est émise, celles-ci sont traitées en parallèle sur l’ensemble des nœuds du cluster Redshift.

Cette conception unique offre des performances d'analyse démultipliées comparé aux entrepôts de données traditionnels. On parle ici de dizaines voire centaines de To de données ingérées et restituées à la seconde !

Parmi les cas d'usage privilégiés de Redshift, on peut citer :

Analyses BI en temps réel sur des historiques massifs.
Restitutions agrégées pour le reporting métier et financier.
Analyse prédictive et machine learning à très grande échelle.
Traitement de logs applicatifs ou réseau pour la cyber-sécurité.

Amazon Redshift réduit ainsi drastiquement le temps de traitement des workloads analytiques les plus intensifs. Une aubaine pour les data scientists ou les analystes métiers !

Amazon Aurora

Présenté par AWS comme la prochaine génération de bases de données relationnelles pour le cloud, Amazon Aurora fait figure de choix par défaut pour les applications critiques nécessitant des performances extrêmes.

À la clé, des capacités de scaling inédites avec la possibilité de passer instantanément d'une dizaine de Go à 64 To de stockage. Idem pour la supervision avec un passage de quelques unités à 128 vCPUs fluides. De quoi absorber sans sourciller les pics d'activité les plus foudroyants.

Côté disponibilité, Aurora se hisse à 99,99% de temps de fonctionnement grâce à une architecture multi-AZs et une réplication synchrone des données sur 3 AZ. Ajoutez à cela une tolérance de panne d'une AZ totale sans interruption de service...

À noter qu'Aurora bénéficie également de fonctions d'auto-réparation, de chiffrement au repos et en transit, de snapshots DB intelligents ou encore de machine learning intégré pour l'optimisation des requêtes.

Sans surprise, Aurora s'impose comme l'option favorite des fintechs, sites e-commerces, EdTechs et places de marché en ligne à la recherche de performances record. Son tarif à la minute permet en outre d'ajuster précisément le coût d'utilisation.

Amazon DynamoDB

Passons à présent à un registre différent avec Amazon DynamoDB, la base de données NoSQL serverless vedette d'AWS pour les applications à très fort trafic.

DynamoDB est un store de paires clé-valeur qui se distingue par des performances de lecture/écriture intégralement découplées du volume de données. Autrement dit, le débit reste inchangé quelle que soit la taille de vos tables, jusqu'à des dizaines de millions de requêtes par seconde !

Cet exploit repose sur une architecture serverless intrinsèquement élastique. DynamoDB s'appuie sur les ressources infiniment flexibles d'AWS pour allouer automatiquement les ressources nécessaires à la volumétrie entrante. Plus besoin de pré-provisionner ni de gérer soi-même le partitioning.

Autres atouts de DynamoDB : une disponibilité de 99,99% sur l'ensemble des AZs d'une région, un SLA de 10 ms de latence sur les lectures et écritures, un chiffrement des données et une facturation à la demande, à la milliseconde près.

Du fait de ses caractéristiques, DynamoDB s'impose comme le backend de prédilection des applications à hyper-croissance comme les réseaux sociaux, les sites de streaming, les objets connectés ou les plateformes de jeu.

Amazon ElastiCache

Après ces bases de données « primaires », attardons-nous sur Amazon ElastiCache. Le principe d’ElastiCache ? Déporter les requêtes redondantes gourmandes en ressources vers un système de cache en mémoire hautes performances. Objectif : soulager les bases de données principales et accélérer les temps de réponse aux utilisateurs.

En pratique, ElastiCache déploie des clusters de cache clés en main basés sur Redis ou Memcached. Ces deux moteurs in-memory font référence pour leur rapidité d’exécution, leur faible consommation CPU et leur persistance en RAM.

Conclusion

À n’en pas douter, l’ère du « tout efficacement accessible » et de la valorisation de la data à très grande échelle ne fait que commencer. Les années à venir promettent encore de fulgurantes avancées dans ce domaine, portées par le flambeau de l’innovation AWS.