AWS Services – Andres Rios Macias
Knowledge base

Amazon Web Services.

La plataforma cloud más grande del mundo. Más de 200 servicios gestionados para cómputo, almacenamiento, bases de datos, análisis, ML e infraestructura global.

200+
Servicios disponibles
33%
Market share cloud
105
Zonas de disponibilidad

01 /

Dominios de servicios

⚙️
Cómputo

Máquinas virtuales, contenedores y funciones serverless para correr cualquier carga de trabajo a escala.

EC2LambdaECSEKSFargate
🗄️
Almacenamiento

Almacenamiento de objetos, bloques y archivos con alta disponibilidad y durabilidad del 99.999999999%.

S3EBSEFSGlacierStorage Gateway
🗃️
Bases de datos

Relacionales, NoSQL, in-memory y de grafos. Gestionadas, con backups automáticos y alta disponibilidad.

RDSDynamoDBElastiCacheNeptuneAurora
📊
Analytics y Big Data

Procesamiento de grandes volúmenes de datos, data warehousing, streaming y ETL gestionado en la nube.

EMRKinesisRedshiftGlueAthena
🌐
Redes y CDN

Redes virtuales privadas, balanceo de carga, DNS y distribución de contenido global con baja latencia.

VPCCloudFrontRoute 53ELBAPI Gateway
🔐
Seguridad e Identidad

Gestión de identidades, cifrado, auditoría y cumplimiento normativo para proteger todos los recursos cloud.

IAMKMSCloudTrailWAFSecrets Manager

02 /

Servicios esenciales para Data Engineering

S3
🪣
Amazon S3
Simple Storage Service · Object Storage

El corazón de cualquier Data Lake en AWS. Almacena cantidades ilimitadas de datos en cualquier formato (CSV, JSON, Parquet, ORC) a un costo mínimo. Es el destino y origen de prácticamente todos los otros servicios de analytics en AWS.

Úsalo para
Data Lake Raw / Processed zone Backups Archiving (Glacier) Static websites
Ejemplo — upload y lectura con Python
import boto3 s3 = boto3.client('s3') # Subir archivo s3.upload_file( 'data.parquet', 'my-data-lake', 'processed/2026/04/data.parquet' ) # Leer con PySpark df = spark.read.parquet( "s3://my-data-lake/processed/2026/04/" ) df.printSchema()
EMR
🔥
Amazon EMR
Elastic MapReduce · Spark / Hadoop gestionado

Cluster gestionado de Spark, Hadoop, Hive y Presto en AWS. EMR provisiona, configura y afina el hardware automáticamente. Puedes levantar un cluster de 100 nodos en minutos, procesar terabytes y apagarlo cuando terminas — pagando solo por lo que usas.

Úsalo para
Spark en producción Hadoop / Hive ETL masivos ML a escala
Ejemplo — submit job con AWS CLI
# Crear cluster y correr job Spark aws emr create-cluster \ --name "etl-cluster" \ --release-label emr-6.15.0 \ --applications Name=Spark \ --instance-type m5.xlarge \ --instance-count 3 \ --steps '[{ "Name": "ETL Job", "ActionOnFailure": "TERMINATE_CLUSTER", "HadoopJarStep": { "Jar": "command-runner.jar", "Args": ["spark-submit", "s3://bucket/scripts/etl.py"] } }]' \ --auto-terminate
KNS
📡
Amazon Kinesis
Streaming de datos en tiempo real

Plataforma de streaming gestionada equivalente a Kafka. Permite ingestar y procesar millones de eventos por segundo en tiempo real. Kinesis Data Streams captura, Kinesis Firehose entrega y Kinesis Analytics procesa con SQL o Apache Flink.

Componentes
Data Streams Firehose Data Analytics Video Streams
Ejemplo — producer en Python
import boto3, json kinesis = boto3.client('kinesis', region_name='us-east-1') evento = { "user_id": "u_12345", "action": "purchase", "amount": 349.99, "ts": "2026-04-02T10:30:00Z" } kinesis.put_record( StreamName='eventos-ecommerce', Data=json.dumps(evento), PartitionKey=evento['user_id'] )
GLU
🔗
AWS Glue
ETL Serverless · Data Catalog

Servicio de ETL serverless. Descubres, cataloga y transformas datos sin gestionar infraestructura. El Glue Data Catalog es el metastore central que comparten Athena, EMR y Redshift Spectrum para consultar datos en S3 como si fueran tablas.

Componentes clave
Glue Jobs Data Catalog Crawlers Glue Studio DataBrew
Ejemplo — Glue Job básico
from awsglue.context import GlueContext from awsglue.job import Job from pyspark.context import SparkContext sc = SparkContext() glueContext = GlueContext(sc) # Leer del catálogo df = glueContext.create_dynamic_frame .from_catalog( database="raw_db", table_name="ventas" ) # Escribir a S3 como Parquet glueContext.write_dynamic_frame .from_options(df, connection_type="s3", format="parquet", connection_options={"path": "s3://bucket/out/"} )
RS
🏛️
Amazon Redshift
Data Warehouse · Columnar · Petabyte-scale

Data Warehouse columnar completamente gestionado. Diseñado para consultas analíticas OLAP sobre terabytes o petabytes de datos. Compatible con SQL estándar y se integra directamente con S3 (Redshift Spectrum) para consultar el Data Lake sin moverlo.

Úsalo para
BI / Reporting OLAP queries Tableau / QuickSight Redshift Spectrum
Ejemplo — COPY desde S3
-- Cargar datos desde S3 a Redshift COPY ventas_2026 FROM 's3://my-bucket/ventas/2026/' IAM_ROLE 'arn:aws:iam::123:role/RedshiftRole' FORMAT AS PARQUET; -- Query analítica SELECT DATE_TRUNC('month', fecha) AS mes, region, SUM(monto) AS total_ventas, COUNT(*) AS num_transacciones FROM ventas_2026 GROUP BY 1, 2 ORDER BY mes, total_ventas DESC;
λ
λ
AWS Lambda
Serverless · Event-driven · FaaS

Ejecuta código sin gestionar servidores. Lambda se activa con eventos: una subida a S3, un mensaje en SQS, un request a API Gateway o un trigger de Kinesis. Pagas solo por el tiempo de ejecución (medido en milisegundos). Perfecto para pipelines ligeros y microservicios.

Triggers comunes
S3 Events API Gateway Kinesis SQS / SNS EventBridge CloudWatch
Ejemplo — trigger al subir a S3
import json, boto3 def lambda_handler(event, context): s3 = boto3.client('s3') # Obtener el archivo recién subido bucket = event['Records'][0]['s3']['bucket']['name'] key = event['Records'][0]['s3']['object']['key'] obj = s3.get_object(Bucket=bucket, Key=key) data = obj['Body'].read().decode('utf-8') print(f"Procesado: {key} ({len(data)} bytes)") return {'statusCode': 200}

03 /

Arquitecturas de referencia

Batch Pipeline
Data Lake clásico con EMR
S3 Raw AWS Glue Crawler EMR Spark S3 Processed Athena / Redshift

Los datos crudos llegan a S3. Glue Crawlers los catalogan automáticamente. EMR ejecuta trabajos Spark para limpiar y transformar. El resultado se guarda de nuevo en S3 en formato Parquet. Athena permite consultas SQL ad-hoc y Redshift alimenta los dashboards.

Real-time Pipeline
Streaming con Kinesis y Lambda
Producers Kinesis Streams Lambda DynamoDB / S3 QuickSight

Apps y sensores envían eventos a Kinesis Data Streams en tiempo real. Lambda se activa por cada batch de registros, los procesa y escribe a DynamoDB para acceso rápido o a S3 via Firehose para análisis histórico. QuickSight visualiza en tiempo real.

Serverless ETL
Pipeline con Glue y Airflow (MWAA)
S3 / RDS Glue Jobs Glue Catalog Redshift BI Tool

MWAA (Managed Airflow) orquesta los Glue Jobs con DAGs Python. Sin gestionar clusters ni servidores. Glue transforma, el Catalog registra el schema, Redshift sirve las consultas analíticas. Escala automáticamente según la carga de trabajo.

Lambda Architecture
Batch + Streaming combinados
Kinesis Speed Layer+ EMR Batch Serving Layer Apps

Arquitectura que combina procesamiento batch (EMR) para datos históricos precisos y streaming (Kinesis + Lambda) para baja latencia. Los resultados se fusionan en una capa de serving (DynamoDB o Redshift) que sirve a las aplicaciones con ambas perspectivas.


04 /

Certificaciones AWS

☁️
Foundational
Cloud Practitioner

Punto de entrada al ecosistema AWS. Cubre conceptos fundamentales de cloud, servicios core y modelo de precios.

Compute · Storage · Pricing
Global Infrastructure · Security
🏗️
Associate
Solutions Architect Associate

Diseña soluciones escalables, resilientes y seguras en AWS. La certificación más demandada del mercado cloud.

VPC · EC2 · RDS · S3
Load Balancing · Auto Scaling · IAM
👨‍💻
Associate
Developer Associate

Desarrollar, desplegar y depurar aplicaciones cloud-native en AWS. Foco en Lambda, DynamoDB y CI/CD.

Lambda · DynamoDB · CodePipeline
API Gateway · SQS · SNS · SAM
📊
Associate
Data Engineer Associate

Diseña, construye y mantiene pipelines de datos en AWS. La certificación específica para Data Engineering.

S3 · Glue · EMR · Kinesis
Redshift · Athena · Lake Formation
🧠
Specialty
Machine Learning Specialty

Construye, entrena y despliega modelos ML en AWS con SageMaker. Requiere sólidas bases de ML y estadística.

SageMaker · Rekognition
Comprehend · Feature Store · MLOps
🏛️
Professional
Solutions Architect Pro

El nivel más alto para arquitectos. Diseña soluciones complejas y multi-cuenta para organizaciones enterprise.

Organizations · Control Tower
Transit Gateway · Multi-account · DR

05 /

Referencia rápida de servicios

Servicio Categoría Costo base Tier gratuito Mejor para
S3 Almacenamiento $0.023 / GB·mes 5 GB gratis Data Lake, backups, archiving
EMR Big Data Desde $0.048 / hora por nodo Spark / Hadoop en producción
Kinesis Streaming $0.015 / shard·hora Eventos en tiempo real
Glue ETL Serverless $0.44 / DPU·hora 1M solicitudes ETL sin infraestructura
Redshift Data Warehouse Desde $0.25 / hora (dc2.large) OLAP, BI, reportes
Lambda Serverless $0.20 / 1M requests 1M calls/mes Triggers, microservicios, automatización
Athena Query S3 $5 / TB escaneado Primeros $1 crédito SQL ad-hoc sobre Data Lake
EC2 Cómputo Desde $0.0116 / hora (t3.micro) 750 h/mes t2.micro Servidores, VMs, WordPress

¿Construimos tu infraestructura
de datos en AWS juntos?

EMR, Glue, Kinesis, S3 — experiencia real en producción en AWS.

© 2026 Andres Rios Macias me@andresriosmacias.com