Amazon Web Services.
La plataforma cloud más grande del mundo. Más de 200 servicios gestionados para cómputo, almacenamiento, bases de datos, análisis, ML e infraestructura global.
Dominios de servicios
Máquinas virtuales, contenedores y funciones serverless para correr cualquier carga de trabajo a escala.
Almacenamiento de objetos, bloques y archivos con alta disponibilidad y durabilidad del 99.999999999%.
Relacionales, NoSQL, in-memory y de grafos. Gestionadas, con backups automáticos y alta disponibilidad.
Procesamiento de grandes volúmenes de datos, data warehousing, streaming y ETL gestionado en la nube.
Redes virtuales privadas, balanceo de carga, DNS y distribución de contenido global con baja latencia.
Gestión de identidades, cifrado, auditoría y cumplimiento normativo para proteger todos los recursos cloud.
Servicios esenciales para Data Engineering
El corazón de cualquier Data Lake en AWS. Almacena cantidades ilimitadas de datos en cualquier formato (CSV, JSON, Parquet, ORC) a un costo mínimo. Es el destino y origen de prácticamente todos los otros servicios de analytics en AWS.
Cluster gestionado de Spark, Hadoop, Hive y Presto en AWS. EMR provisiona, configura y afina el hardware automáticamente. Puedes levantar un cluster de 100 nodos en minutos, procesar terabytes y apagarlo cuando terminas — pagando solo por lo que usas.
Plataforma de streaming gestionada equivalente a Kafka. Permite ingestar y procesar millones de eventos por segundo en tiempo real. Kinesis Data Streams captura, Kinesis Firehose entrega y Kinesis Analytics procesa con SQL o Apache Flink.
Servicio de ETL serverless. Descubres, cataloga y transformas datos sin gestionar infraestructura. El Glue Data Catalog es el metastore central que comparten Athena, EMR y Redshift Spectrum para consultar datos en S3 como si fueran tablas.
Data Warehouse columnar completamente gestionado. Diseñado para consultas analíticas OLAP sobre terabytes o petabytes de datos. Compatible con SQL estándar y se integra directamente con S3 (Redshift Spectrum) para consultar el Data Lake sin moverlo.
Ejecuta código sin gestionar servidores. Lambda se activa con eventos: una subida a S3, un mensaje en SQS, un request a API Gateway o un trigger de Kinesis. Pagas solo por el tiempo de ejecución (medido en milisegundos). Perfecto para pipelines ligeros y microservicios.
Arquitecturas de referencia
Los datos crudos llegan a S3. Glue Crawlers los catalogan automáticamente. EMR ejecuta trabajos Spark para limpiar y transformar. El resultado se guarda de nuevo en S3 en formato Parquet. Athena permite consultas SQL ad-hoc y Redshift alimenta los dashboards.
Apps y sensores envían eventos a Kinesis Data Streams en tiempo real. Lambda se activa por cada batch de registros, los procesa y escribe a DynamoDB para acceso rápido o a S3 via Firehose para análisis histórico. QuickSight visualiza en tiempo real.
MWAA (Managed Airflow) orquesta los Glue Jobs con DAGs Python. Sin gestionar clusters ni servidores. Glue transforma, el Catalog registra el schema, Redshift sirve las consultas analíticas. Escala automáticamente según la carga de trabajo.
Arquitectura que combina procesamiento batch (EMR) para datos históricos precisos y streaming (Kinesis + Lambda) para baja latencia. Los resultados se fusionan en una capa de serving (DynamoDB o Redshift) que sirve a las aplicaciones con ambas perspectivas.
Certificaciones AWS
Punto de entrada al ecosistema AWS. Cubre conceptos fundamentales de cloud, servicios core y modelo de precios.
Global Infrastructure · Security
Diseña soluciones escalables, resilientes y seguras en AWS. La certificación más demandada del mercado cloud.
Load Balancing · Auto Scaling · IAM
Desarrollar, desplegar y depurar aplicaciones cloud-native en AWS. Foco en Lambda, DynamoDB y CI/CD.
API Gateway · SQS · SNS · SAM
Diseña, construye y mantiene pipelines de datos en AWS. La certificación específica para Data Engineering.
Redshift · Athena · Lake Formation
Construye, entrena y despliega modelos ML en AWS con SageMaker. Requiere sólidas bases de ML y estadística.
Comprehend · Feature Store · MLOps
El nivel más alto para arquitectos. Diseña soluciones complejas y multi-cuenta para organizaciones enterprise.
Transit Gateway · Multi-account · DR
Referencia rápida de servicios
| Servicio | Categoría | Costo base | Tier gratuito | Mejor para |
|---|---|---|---|---|
| S3 | Almacenamiento | $0.023 / GB·mes | 5 GB gratis | Data Lake, backups, archiving |
| EMR | Big Data | Desde $0.048 / hora por nodo | Solo pago | Spark / Hadoop en producción |
| Kinesis | Streaming | $0.015 / shard·hora | Solo pago | Eventos en tiempo real |
| Glue | ETL Serverless | $0.44 / DPU·hora | 1M solicitudes | ETL sin infraestructura |
| Redshift | Data Warehouse | Desde $0.25 / hora (dc2.large) | Solo pago | OLAP, BI, reportes |
| Lambda | Serverless | $0.20 / 1M requests | 1M calls/mes | Triggers, microservicios, automatización |
| Athena | Query S3 | $5 / TB escaneado | Primeros $1 crédito | SQL ad-hoc sobre Data Lake |
| EC2 | Cómputo | Desde $0.0116 / hora (t3.micro) | 750 h/mes t2.micro | Servidores, VMs, WordPress |
de datos en AWS juntos?
EMR, Glue, Kinesis, S3 — experiencia real en producción en AWS.
