Big Data – Andres Rios Macias
Knowledge base

Big Data.

Volúmenes masivos de información que superan la capacidad de las herramientas tradicionales. Aprende cómo se captura, procesa y convierte en valor real.

5Vs
Dimensiones clave
2.5EB
Datos generados / día
90%
Datos creados en 2 años

01 /

¿Qué es Big Data?

Definición

Big Data es el conjunto de tecnologías, arquitecturas y prácticas diseñadas para capturar, almacenar, procesar y analizar conjuntos de datos que son demasiado grandes, rápidos o complejos para las bases de datos relacionales convencionales.

El problema que resuelve

Las bases de datos tradicionales (MySQL, PostgreSQL) escalan verticalmente: más RAM, más CPU en un solo servidor. Big Data escala horizontalmente: distribuye el trabajo entre decenas o miles de nodos en paralelo, haciendo posible procesar petabytes en minutos.

De dónde vienen los datos

Registros de servidores y aplicaciones, transacciones financieras, dispositivos IoT y sensores, redes sociales, imágenes y video en streaming, datos de genoma y laboratorios, logs de comportamiento de usuario en apps.


02 /

Las 5 Vs del Big Data

📦
V
Volumen

Terabytes y petabytes de datos generados constantemente. Amazon, Google y Meta procesan exabytes cada año.

V
Velocidad

Los datos llegan en tiempo real: sensores IoT, transacciones bancarias, feeds de redes sociales.

🗂️
V
Variedad

Estructurados (tablas), semiestructurados (JSON, XML) y no estructurados (texto, audio, video, imágenes).

V
Veracidad

La calidad e incertidumbre de los datos. Datos sucios o inconsistentes producen análisis sin valor.

💡
V
Valor

El objetivo final: transformar datos crudos en insights accionables que impacten decisiones de negocio.


03 /

El ecosistema tecnológico

🐘
Apache Hadoop
FUNDAMENTO

Framework open-source para almacenamiento distribuido (HDFS) y procesamiento en paralelo (MapReduce). La base sobre la que se construyó el ecosistema Big Data.

HDFSMapReduceYARN
Apache Spark
PROCESAMIENTO

Motor de procesamiento en memoria, hasta 100x más rápido que MapReduce. Soporta batch, streaming, machine learning y SQL en un solo framework unificado.

PySparkSpark SQLMLlibStreaming
📨
Apache Kafka
STREAMING

Plataforma de mensajería distribuida para streaming de eventos en tiempo real. Puede manejar millones de mensajes por segundo con baja latencia.

TopicsProducersConsumersKafka Streams
🐝
Apache Hive
SQL SOBRE HDFS

Permite escribir consultas SQL (HiveQL) sobre datos almacenados en HDFS o S3. Ideal para analistas que no conocen MapReduce ni Spark.

HiveQLMetastorePartitioning
☁️
AWS Big Data
CLOUD MANAGED

AWS ofrece servicios gestionados que eliminan la operación de clusters: EMR (Spark/Hadoop), Kinesis (streaming), Redshift (DW), Glue (ETL).

EMRKinesisRedshiftGlue
🔄
Apache Airflow
ORQUESTACIÓN

Herramienta para definir, programar y monitorear pipelines de datos como código Python (DAGs). Estándar de la industria para orquestación de ETL.

DAGsOperatorsSchedulerXComs

04 /

Cómo fluyen los datos

01 / INGESTIÓN
Captura
Kafka
Kinesis
Flume
APIs REST
02 / ALMACENAMIENTO
Data Lake
HDFS
S3
Azure ADLS
GCS
03 / PROCESAMIENTO
Transformación
Spark
MapReduce
AWS Glue
dbt
04 / CONSULTA
Data Warehouse
Hive
Redshift
BigQuery
Snowflake
05 / CONSUMO
Valor
Dashboards
ML Models
Reportes
APIs

05 /

Casos de uso real

01

Detección de fraude bancario

Los bancos analizan millones de transacciones en milisegundos usando streaming con Kafka + modelos ML para detectar patrones anómalos antes de que el fraude se consume.

02

Sistemas de recomendación

Netflix, Spotify y Amazon procesan el historial de comportamiento de millones de usuarios con Spark para generar recomendaciones personalizadas en tiempo real.

03

IoT y manufactura inteligente

Sensores industriales generan miles de lecturas por segundo. Hadoop y Spark permiten detectar fallos de maquinaria antes de que ocurran (mantenimiento predictivo).

04

Análisis de redes sociales

Grafos de relaciones entre millones de usuarios procesados con GraphX (Spark) para detectar comunidades, influencers y campañas de desinformación.

05

Genomics y salud

El genoma humano tiene ~3 billones de pares de bases. Analizar miles de genomas en paralelo para encontrar marcadores de enfermedades requiere infraestructura Big Data.

06

Logística y supply chain

Amazon y FedEx optimizan rutas de entrega procesando datos de tráfico, clima, inventario y demanda en tiempo real para minimizar costos y tiempos.


¿Trabajamos juntos
en tu pipeline de datos?

Experiencia real con Spark, Hadoop, Kafka, Hive, Airflow y AWS.

© 2026 Andres Rios Macias me@andresriosmacias.com