Décrire les meilleures pratiques pour la gestion des données et la surveillance des pipelines d'ingestion sur AWS.
Mettre en œuvre des mesures de sécurité pour protéger les données ingérées sur AWS.
Analyser et optimiser les performances d'un pipeline d'ingestion de données existant sur AWS.
Configurer et déployer un pipeline d'ingestion de données sur AWS utilisant au moins deux services différents.
Identifier et comparer les services AWS pertinents pour l'ingestion et la collecte de données.
Prérequis
Compréhension des concepts de bases de données et de stockage cloud
Notions sur les architectures de traitement de données (batch vs streaming)
Familiarité avec les services AWS de collecte et d’ingestion de données (Kinesis, AWS Glue, Data Pipeline, S3, RDS)
Connaissance des formats de données courants (JSON, Parquet, CSV, Avro)
Expérience en programmation avec Python ou SQL (souhaitable mais non obligatoire)
Contenu de la Formation
Total:
20 Chapitres
Total hours:
10
Introduction à l'ingestion de données sur AWS
Services d'ingestion de données: S3, Kinesis
Amazon SQS pour la mise en file d'attente des données
Cas d'utilisation et meilleures pratiques
Amazon Kinesis Data Streams: approfonissement
Amazon Kinesis Data Firehose: chargement dans des entrepôts de données
Amazon MSK (Kafka): intégration et traitement en temps réel
Gestion des erreurs et surveillance
Amazon Glue: ETL et transformation de données
Intégration avec des bases de données relationnelles (RDS, Aurora)
Utilisation de AWS Lambda pour le traitement de données
Optimisation des performances et des coûts
Sécurité et accès aux données sur AWS
Surveillance et journalisation des données
Architecture de référence pour l'ingestion de données