AWS Services – Andres Rios Macias

Knowledge base

Amazon Web Services.

La plataforma cloud más grande del mundo. Más de 200 servicios gestionados para cómputo, almacenamiento, bases de datos, análisis, ML e infraestructura global.

200+

Servicios disponibles

33%

Market share cloud

105

Zonas de disponibilidad

01 /

Dominios de servicios

⚙️

Cómputo

Máquinas virtuales, contenedores y funciones serverless para correr cualquier carga de trabajo a escala.

EC2LambdaECSEKSFargate

🗄️

Almacenamiento

Almacenamiento de objetos, bloques y archivos con alta disponibilidad y durabilidad del 99.999999999%.

S3EBSEFSGlacierStorage Gateway

🗃️

Bases de datos

Relacionales, NoSQL, in-memory y de grafos. Gestionadas, con backups automáticos y alta disponibilidad.

RDSDynamoDBElastiCacheNeptuneAurora

📊

Analytics y Big Data

Procesamiento de grandes volúmenes de datos, data warehousing, streaming y ETL gestionado en la nube.

EMRKinesisRedshiftGlueAthena

🌐

Redes y CDN

Redes virtuales privadas, balanceo de carga, DNS y distribución de contenido global con baja latencia.

VPCCloudFrontRoute 53ELBAPI Gateway

🔐

Seguridad e Identidad

Gestión de identidades, cifrado, auditoría y cumplimiento normativo para proteger todos los recursos cloud.

IAMKMSCloudTrailWAFSecrets Manager

02 /

Servicios esenciales para Data Engineering

🪣

Amazon S3

Simple Storage Service · Object Storage

El corazón de cualquier Data Lake en AWS. Almacena cantidades ilimitadas de datos en cualquier formato (CSV, JSON, Parquet, ORC) a un costo mínimo. Es el destino y origen de prácticamente todos los otros servicios de analytics en AWS.

Úsalo para

Data Lake Raw / Processed zone Backups Archiving (Glacier) Static websites

Ejemplo — upload y lectura con Python

import boto3

s3 = boto3.client('s3')

# Subir archivo
s3.upload_file(
    'data.parquet',
    'my-data-lake',
    'processed/2026/04/data.parquet'
)

# Leer con PySpark
df = spark.read.parquet(
    "s3://my-data-lake/processed/2026/04/"
)
df.printSchema()

EMR

🔥

Amazon EMR

Elastic MapReduce · Spark / Hadoop gestionado

Cluster gestionado de Spark, Hadoop, Hive y Presto en AWS. EMR provisiona, configura y afina el hardware automáticamente. Puedes levantar un cluster de 100 nodos en minutos, procesar terabytes y apagarlo cuando terminas — pagando solo por lo que usas.

Úsalo para

Spark en producción Hadoop / Hive ETL masivos ML a escala

Ejemplo — submit job con AWS CLI

# Crear cluster y correr job Spark
aws emr create-cluster \
  --name "etl-cluster" \
  --release-label emr-6.15.0 \
  --applications Name=Spark \
  --instance-type m5.xlarge \
  --instance-count 3 \
  --steps '[{
    "Name": "ETL Job",
    "ActionOnFailure": "TERMINATE_CLUSTER",
    "HadoopJarStep": {
      "Jar": "command-runner.jar",
      "Args": ["spark-submit",
        "s3://bucket/scripts/etl.py"]
    }
  }]' \
  --auto-terminate

KNS

📡

Amazon Kinesis

Streaming de datos en tiempo real

Plataforma de streaming gestionada equivalente a Kafka. Permite ingestar y procesar millones de eventos por segundo en tiempo real. Kinesis Data Streams captura, Kinesis Firehose entrega y Kinesis Analytics procesa con SQL o Apache Flink.

Componentes

Data Streams Firehose Data Analytics Video Streams

Ejemplo — producer en Python

import boto3, json

kinesis = boto3.client('kinesis',
    region_name='us-east-1')

evento = {
    "user_id": "u_12345",
    "action": "purchase",
    "amount": 349.99,
    "ts": "2026-04-02T10:30:00Z"
}

kinesis.put_record(
    StreamName='eventos-ecommerce',
    Data=json.dumps(evento),
    PartitionKey=evento['user_id']
)

GLU

🔗

AWS Glue

ETL Serverless · Data Catalog

Servicio de ETL serverless. Descubres, cataloga y transformas datos sin gestionar infraestructura. El Glue Data Catalog es el metastore central que comparten Athena, EMR y Redshift Spectrum para consultar datos en S3 como si fueran tablas.

Componentes clave

Glue Jobs Data Catalog Crawlers Glue Studio DataBrew

Ejemplo — Glue Job básico

from awsglue.context import GlueContext
from awsglue.job import Job
from pyspark.context import SparkContext

sc = SparkContext()
glueContext = GlueContext(sc)

# Leer del catálogo
df = glueContext.create_dynamic_frame
  .from_catalog(
    database="raw_db",
    table_name="ventas"
  )

# Escribir a S3 como Parquet
glueContext.write_dynamic_frame
  .from_options(df,
    connection_type="s3",
    format="parquet",
    connection_options={"path": "s3://bucket/out/"}
  )

🏛️

Amazon Redshift

Data Warehouse · Columnar · Petabyte-scale

Data Warehouse columnar completamente gestionado. Diseñado para consultas analíticas OLAP sobre terabytes o petabytes de datos. Compatible con SQL estándar y se integra directamente con S3 (Redshift Spectrum) para consultar el Data Lake sin moverlo.

Úsalo para

BI / Reporting OLAP queries Tableau / QuickSight Redshift Spectrum

Ejemplo — COPY desde S3

-- Cargar datos desde S3 a Redshift
COPY ventas_2026
FROM 's3://my-bucket/ventas/2026/'
IAM_ROLE 'arn:aws:iam::123:role/RedshiftRole'
FORMAT AS PARQUET;

-- Query analítica
SELECT
  DATE_TRUNC('month', fecha) AS mes,
  region,
  SUM(monto) AS total_ventas,
  COUNT(*) AS num_transacciones
FROM ventas_2026
GROUP BY 1, 2
ORDER BY mes, total_ventas DESC;

AWS Lambda

Serverless · Event-driven · FaaS

Ejecuta código sin gestionar servidores. Lambda se activa con eventos: una subida a S3, un mensaje en SQS, un request a API Gateway o un trigger de Kinesis. Pagas solo por el tiempo de ejecución (medido en milisegundos). Perfecto para pipelines ligeros y microservicios.

Triggers comunes

S3 Events API Gateway Kinesis SQS / SNS EventBridge CloudWatch

Ejemplo — trigger al subir a S3

import json, boto3

def lambda_handler(event, context):
    s3 = boto3.client('s3')

    # Obtener el archivo recién subido
    bucket = event['Records'][0]['s3']['bucket']['name']
    key    = event['Records'][0]['s3']['object']['key']

    obj = s3.get_object(Bucket=bucket, Key=key)
    data = obj['Body'].read().decode('utf-8')

    print(f"Procesado: {key} ({len(data)} bytes)")
    return {'statusCode': 200}

03 /

Arquitecturas de referencia

Batch Pipeline

Data Lake clásico con EMR

S3 Raw→ AWS Glue Crawler→ EMR Spark→ S3 Processed→ Athena / Redshift

Los datos crudos llegan a S3. Glue Crawlers los catalogan automáticamente. EMR ejecuta trabajos Spark para limpiar y transformar. El resultado se guarda de nuevo en S3 en formato Parquet. Athena permite consultas SQL ad-hoc y Redshift alimenta los dashboards.

Real-time Pipeline

Streaming con Kinesis y Lambda

Producers→ Kinesis Streams→ Lambda→ DynamoDB / S3→ QuickSight

Apps y sensores envían eventos a Kinesis Data Streams en tiempo real. Lambda se activa por cada batch de registros, los procesa y escribe a DynamoDB para acceso rápido o a S3 via Firehose para análisis histórico. QuickSight visualiza en tiempo real.

Serverless ETL

Pipeline con Glue y Airflow (MWAA)

S3 / RDS→ Glue Jobs→ Glue Catalog→ Redshift→ BI Tool

MWAA (Managed Airflow) orquesta los Glue Jobs con DAGs Python. Sin gestionar clusters ni servidores. Glue transforma, el Catalog registra el schema, Redshift sirve las consultas analíticas. Escala automáticamente según la carga de trabajo.

Lambda Architecture

Batch + Streaming combinados

Kinesis→ Speed Layer+ EMR Batch→ Serving Layer→ Apps

Arquitectura que combina procesamiento batch (EMR) para datos históricos precisos y streaming (Kinesis + Lambda) para baja latencia. Los resultados se fusionan en una capa de serving (DynamoDB o Redshift) que sirve a las aplicaciones con ambas perspectivas.

04 /

Certificaciones AWS

☁️

Foundational

Cloud Practitioner

Punto de entrada al ecosistema AWS. Cubre conceptos fundamentales de cloud, servicios core y modelo de precios.

Compute · Storage · Pricing
Global Infrastructure · Security

🏗️

Associate

Solutions Architect Associate

Diseña soluciones escalables, resilientes y seguras en AWS. La certificación más demandada del mercado cloud.

VPC · EC2 · RDS · S3
Load Balancing · Auto Scaling · IAM

👨‍💻

Associate

Developer Associate

Desarrollar, desplegar y depurar aplicaciones cloud-native en AWS. Foco en Lambda, DynamoDB y CI/CD.

Lambda · DynamoDB · CodePipeline
API Gateway · SQS · SNS · SAM

📊

Associate

Data Engineer Associate

Diseña, construye y mantiene pipelines de datos en AWS. La certificación específica para Data Engineering.

S3 · Glue · EMR · Kinesis
Redshift · Athena · Lake Formation

🧠

Specialty

Machine Learning Specialty

Construye, entrena y despliega modelos ML en AWS con SageMaker. Requiere sólidas bases de ML y estadística.

SageMaker · Rekognition
Comprehend · Feature Store · MLOps

🏛️

Professional

Solutions Architect Pro

El nivel más alto para arquitectos. Diseña soluciones complejas y multi-cuenta para organizaciones enterprise.

Organizations · Control Tower
Transit Gateway · Multi-account · DR

05 /

Referencia rápida de servicios

Servicio	Categoría	Costo base	Tier gratuito	Mejor para
S3	Almacenamiento	$0.023 / GB·mes	5 GB gratis	Data Lake, backups, archiving
EMR	Big Data	Desde $0.048 / hora por nodo	Solo pago	Spark / Hadoop en producción
Kinesis	Streaming	$0.015 / shard·hora	Solo pago	Eventos en tiempo real
Glue	ETL Serverless	$0.44 / DPU·hora	1M solicitudes	ETL sin infraestructura
Redshift	Data Warehouse	Desde $0.25 / hora (dc2.large)	Solo pago	OLAP, BI, reportes
Lambda	Serverless	$0.20 / 1M requests	1M calls/mes	Triggers, microservicios, automatización
Athena	Query S3	$5 / TB escaneado	Primeros $1 crédito	SQL ad-hoc sobre Data Lake
EC2	Cómputo	Desde $0.0116 / hora (t3.micro)	750 h/mes t2.micro	Servidores, VMs, WordPress

¿Construimos tu infraestructura
de datos en AWS juntos?

EMR, Glue, Kinesis, S3 — experiencia real en producción en AWS.

Contáctame → Ver Big Data →

Amazon Web Services.

Dominios de servicios

Servicios esenciales para Data Engineering

Arquitecturas de referencia

Certificaciones AWS

Referencia rápida de servicios

follow

contact