Hadoop a good solution - Andres Rios Macias

00 /

¿Qué es Apache Hadoop?

Apache Hadoop es un framework open-source para el almacenamiento distribuido y procesamiento paralelo de grandes volúmenes de datos sobre clusters de hardware commodity. Está compuesto por cuatro módulos principales: HDFS (sistema de archivos distribuido), MapReduce (motor de procesamiento), YARN (gestión de recursos) y Hadoop Common (utilidades compartidas).

Fue creado a partir de los papers de Google sobre GFS y MapReduce (2003–2004) y se convirtió en el estándar de facto para Big Data durante la década de 2010. Hoy convive con Apache Spark, que ofrece procesamiento en memoria significativamente más rápido, pero Hadoop sigue siendo relevante por su ecosistema maduro, su modelo de almacenamiento y su costo.

Contexto Cloudera y HortonWorks fueron las distribuciones empresariales más populares de Hadoop. Ambas se fusionaron en 2019 formando Cloudera Data Platform (CDP). En AWS, la forma gestionada de correr Hadoop es Amazon EMR.

01 /

Las 6 ventajas principales

Hadoop brilla en escenarios específicos. Estas son las razones técnicas por las que sigue siendo una opción sólida para arquitecturas de datos a gran escala:

01 / VOLUMEN

Soporte para volúmenes masivos

HDFS escala a petabytes distribuyendo bloques de datos (128 MB por defecto) entre cientos o miles de nodos. No hay límite práctico de almacenamiento: agregas nodos y el sistema crece linealmente.

02 / STORAGE

Eficiencia de almacenamiento

Al usar hardware commodity (servidores estándar baratos en lugar de SANs especializadas), el costo por TB almacenado es entre 5x y 30x menor que en soluciones tradicionales. Los formatos columnar (ORC, Parquet) optimizan aún más la compresión.

03 / RECOVERY

Recuperación de datos robusta

HDFS replica cada bloque de datos 3 veces por defecto en nodos diferentes. Si un DataNode falla, el NameNode detecta la pérdida y ordena replicar los bloques afectados desde las copias disponibles — sin intervención manual.

04 / SCALING

Escalado horizontal (scale-out)

A diferencia del escalado vertical (más RAM/CPU en un servidor), Hadoop escala agregando nodos al cluster. Este modelo es más económico, elimina el single point of failure y permite crecer gradualmente según la demanda real.

05 / COST

Costo efectivo a escala

El licenciamiento es open-source (cero costo de software base). El modelo de hardware commodity y la capacidad de usar instancias Spot en AWS EMR hacen que el costo de procesamiento de un TB pueda ser hasta 90% menor que en un data warehouse tradicional.

06 / ACCESO

Accesible para programadores y analistas

Hadoop expone interfaces de alto nivel: HiveQL permite que analistas con SQL accedan a datos en HDFS sin escribir código Java. Pig ofrece un lenguaje de scripting para ETL. MapReduce es la capa baja para desarrolladores que necesitan control total.

02 /

Soporte para volumen masivo

El sistema de archivos HDFS divide los archivos en bloques y los distribuye entre los DataNodes del cluster. El NameNode mantiene el árbol de metadatos y sabe dónde está cada bloque. Esta arquitectura permite que un job de MapReduce o Spark procese los datos localmente en cada nodo donde residen, evitando el costoso movimiento de datos por la red.

Ejemplo — verificar bloques de un archivo en HDFS

# Ver cómo HDFS distribuyó un archivo en bloques
hdfs fsck /user/data/ventas_2026.parquet \
  -files -blocks -locations

# Output típico:
# /user/data/ventas_2026.parquet: 3.2 GB, 26 block(s)
# Block 0: 128 MB → [node-01, node-07, node-13]
# Block 1: 128 MB → [node-02, node-08, node-14]
# ...

# Verificar salud del cluster
hdfs dfsadmin -report

Tip de producción El tamaño de bloque óptimo en HDFS para jobs analíticos es 256 MB o 512 MB (no el default de 128 MB). Bloques más grandes reducen el overhead del NameNode y mejoran el throughput en lecturas secuenciales de archivos grandes.

03 /

Eficiencia de almacenamiento

Hadoop almacena datos en su formato original (raw) en HDFS. Esto lo hace ideal como Data Lake: ingesta cualquier tipo de dato (estructurado, semiestructurado, no estructurado) sin necesidad de definir un schema previo — el schema se aplica al momento de leer (schema-on-read).

Los formatos de almacenamiento columnar como Apache Parquet y ORC son los más eficientes en este ecosistema: comprimen los datos entre 4x y 10x respecto a CSV, y permiten que queries SQL solo lean las columnas necesarias en lugar del archivo completo.

Ejemplo — convertir CSV a Parquet con Hive

-- Crear tabla externa sobre CSV en HDFS
CREATE EXTERNAL TABLE ventas_raw (
  id        INT,
  fecha     STRING,
  monto     DOUBLE,
  region    STRING
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION '/user/data/raw/ventas/';

-- Guardar como Parquet con compresión Snappy
CREATE TABLE ventas_parquet
STORED AS PARQUET
TBLPROPERTIES("parquet.compression"="SNAPPY")
AS SELECT * FROM ventas_raw;

04 /

Recuperación de datos automática

El factor de replicación de HDFS (por defecto 3) garantiza que cada bloque de datos exista en al menos 3 DataNodes distintos, idealmente distribuidos entre diferentes racks físicos. El NameNode monitorea constantemente los heartbeats de los DataNodes: si un nodo deja de responder después del timeout configurado (10 minutos por defecto), el NameNode marca sus bloques como bajo-replicados e inicia el proceso de re-replicación automática desde las copias disponibles.

Punto de fallo a considerar El NameNode es un Single Point of Failure en Hadoop. En producción siempre se configura NameNode HA (High Availability) con un Standby NameNode y ZooKeeper para failover automático. Cloudera y HortonWorks incluyen esta configuración por defecto.

05 /

Escalado horizontal

Cuando el cluster necesita más capacidad, simplemente se agregan DataNodes nuevos. YARN (el resource manager de Hadoop) detecta los nodos disponibles y comienza a asignarles containers para los jobs. HDFS detecta el nuevo DataNode y el balancer puede redistribuir bloques hacia él para equilibrar la utilización del cluster.

Ejemplo — agregar nodo y rebalancear HDFS

# En el nuevo nodo: arrancar el DataNode
$HADOOP_HOME/sbin/hadoop-daemon.sh start datanode

# Verificar que el NameNode lo detectó
hdfs dfsadmin -report | grep "Live datanodes"

# Rebalancear bloques al nuevo nodo (threshold 10%)
$HADOOP_HOME/sbin/start-balancer.sh -threshold 10

# En YARN: el nodo ya aparece automáticamente
yarn node -list -all

06 /

Costo efectivo

El modelo económico de Hadoop es radicalmente diferente al de los data warehouses tradicionales (Teradata, Oracle Exadata): en lugar de hardware especializado de alto costo y licencias propietarias caras, usa servidores commodity estándar y software open-source. En AWS, Amazon EMR gestiona el cluster y permite usar instancias Spot para los nodos de trabajo (Task Nodes), reduciendo el costo de cómputo hasta un 90% respecto a instancias On-Demand.

Arquitectura recomendada en AWS EMR Master Node (On-Demand) + Core Nodes (On-Demand, 2–3) + Task Nodes (Spot, escalan según carga). Esta configuración garantiza que el cluster no pierda datos si los Spot son interrumpidos, mientras maximiza el ahorro en cómputo.

07 /

Accesible para distintos perfiles

Una de las fortalezas del ecosistema Hadoop es que ofrece capas de abstracción para distintos niveles técnicos. No es necesario escribir jobs en Java para obtener valor del cluster:

ANALISTAS SQL

Apache Hive / HiveQL

Escribe SQL estándar y Hive lo traduce a jobs de MapReduce o Spark sobre HDFS. La curva de aprendizaje es mínima para alguien que ya sabe SQL.

DATA ENGINEERS

PySpark / Scala Spark

Spark corre sobre YARN (el resource manager de Hadoop) y puede leer y escribir HDFS nativamente. Es la forma moderna de procesar datos en un cluster Hadoop.

DATA SCIENTISTS

Jupyter + PySpark

Notebook interactivo conectado a un cluster Spark/Hadoop. Permite exploración iterativa de grandes datasets sin mover datos fuera del cluster.

DEVELOPERS

MapReduce API (Java)

Para casos muy específicos donde se necesita control total del procesamiento. Hoy en día MapReduce casi siempre se reemplaza por Spark, que es más rápido y más fácil de escribir.

08 /

¿Cuándo usarlo y cuándo no?

✓

Hadoop es la respuesta cuando…

Tienes datos que superan los 10–50 TB
Necesitas almacenar datos en múltiples formatos (logs, JSON, Parquet)
Tu carga de trabajo es principalmente batch (no tiempo real)
Quieres construir un Data Lake con schema-on-read
El presupuesto limita el uso de data warehouses cloud premium
Ya tienes un equipo con experiencia en el ecosistema Hadoop

✗

Considera alternativas cuando…

Tus datos son menores a 1–2 TB (una sola máquina es suficiente)
Necesitas baja latencia o procesamiento en tiempo real
Tu equipo no tiene experiencia con clusters distribuidos
La velocidad de iteración importa más que el costo de infraestructura
Prefieres SQL interactivo (Redshift, BigQuery o Athena son mejores)
Usas AWS y quieres cero gestión de infraestructura (usa Glue + S3)

09 /

Hadoop vs alternativas

Característica	Hadoop + HDFS	Spark standalone	AWS Glue + S3	Redshift
Escala de datos	PB	PB	PB (S3)	TB–PB
Velocidad de procesamiento	Lento (disco)	Rápido (memoria)	Moderado	Muy rápido (OLAP)
Tiempo real / streaming	No nativo	Spark Streaming	No nativo	No
Gestión de infraestructura	Alta (cluster propio)	Media	Cero (serverless)	Mínima (gestionado)
Costo a escala	Muy bajo	Bajo	Moderado	Alto
Curva de aprendizaje	Alta	Media	Baja	Baja (SQL)

── /

Resumen de comandos esenciales

#	Operación	Comando
01	Listar HDFS	`hdfs dfs -ls /user/data/`
02	Subir archivo a HDFS	`hdfs dfs -put local.csv /user/data/`
03	Descargar de HDFS	`hdfs dfs -get /user/data/file.csv .`
04	Ver uso de espacio	`hdfs dfs -du -h /user/data/`
05	Estado del cluster	`hdfs dfsadmin -report`
06	Ver jobs YARN	`yarn application -list`
07	Lanzar job Spark en YARN	`spark-submit --master yarn etl.py`
08	Rebalancear HDFS	`start-balancer.sh -threshold 10`

¿Cuándo Hadoop es
una buena solución?

¿Qué es Apache Hadoop?

Las 6 ventajas principales

Soporte para volumen masivo

Eficiencia de almacenamiento

Recuperación de datos automática

Escalado horizontal

Costo efectivo

Accesible para distintos perfiles

¿Cuándo usarlo y cuándo no?

Hadoop vs alternativas

Resumen de comandos esenciales

follow

contact