Curso de IA — De la Lógica a la Autonomía

Historia y evolución: de los sistemas expertos a los LLMs

De la Lógica
a la Autonomía

Historia, fundamentos y práctica de la Inteligencia Artificial — desde Dartmouth 1956 hasta los agentes autónomos de 2026.

Historia Asistentes Transformers 4 Eras LLMs Modelos

Módulo 01

La Montaña Rusa
de la IA

Historia de inviernos y primaveras — cómo la IA pasó de la euforia al abandono y volvió más fuerte cada vez.

1956

El Nacimiento en Dartmouth

Se acuña el término "Inteligencia Artificial" bajo un optimismo desbordado sobre simular la mente. Pioneros como McCarthy y Minsky establecen que cualquier aspecto del aprendizaje podía describirse con precisión para ser simulado por una máquina.

1974 — 1980

El Primer Invierno de la IA

El Informe Lighthill (1973) critica la falta de resultados, provocando recortes masivos de financiamiento. La explosión combinatoria demuestra que la complejidad del mundo real superaba exponencialmente la capacidad computacional de las reglas lógicas.

1987 — 1994

El Segundo Invierno de la IA

Los sistemas expertos (programados en LISP) fallan por su fragilidad y el mercado de hardware especializado colapsa. La recuperación vendría del surgimiento del Machine Learning estadístico.

2012

La Explosión del Deep Learning

AlexNet gana ImageNet usando GPUs, demostrando que más datos + más potencia computacional superan al software programado manualmente. Es el punto de inflexión moderno — las GPUs permiten entrenar redes neuronales profundas hasta 20 veces más rápido.

2022

El Big Bang de la IA Generativa

ChatGPT alcanza 100 millones de usuarios en ~60 días — más rápido que TikTok (200 días), Instagram (900 días) o Netflix (3,500 días). La IA deja de ser herramienta técnica y se vuelve cotidiana.

2024+

De la Lógica a la Autonomía

La IA evoluciona de reglas rígidas a agentes autónomos que aprenden de la experiencia. El paradigma pasa de "responder" a "hacer".

Módulo 02

El Ascenso de los
Asistentes Virtuales

La revolución de los 2010 — cómo los asistentes de voz evolucionaron de comandos básicos a comprensión profunda.

2011–2013

El Nacimiento de la Ubicuidad

Apple integra Siri en iOS — primera adopción masiva de interfaz de lenguaje natural
Los sistemas comienzan a usar ML para adaptarse a patrones de voz individuales
Watson gana Jeopardy!, demostrando que la IA puede procesar lenguaje complejo más rápido que los humanos
Capacidad 2011: comandos básicos y recordatorios (aprendizaje estadístico)

2014–2016

La Explosión del Deep Learning

GPUs + Big Data permiten entrenar redes neuronales 20× más rápido
Amazon lanza Alexa, desplazando la IA del teléfono al hogar inteligente
Baidu y Google logran precisión sobrehumana en reconocimiento de voz e imágenes
Capacidad 2015: redes neuronales profundas superan al humano en tareas perceptuales

2017–2019

Madurez y Nuevas Arquitecturas

Los asistentes comienzan a procesar texto, voz e imágenes simultáneamente
Los Transformers (2017) revolucionan el procesamiento de lenguaje natural
El mecanismo de auto-atención permite comprender contexto y dependencias largas
Capacidad 2017: los modelos entienden contexto complejo a larga distancia

Módulo 03

De los Transformers
a la Autonomía

2017–2026: cómo la arquitectura Transformer permitió el paso de modelos básicos a sistemas multimodales y agentes autónomos.

La arquitectura Transformer rompió las limitaciones del procesamiento secuencial de RNN/LSTM. Este cambio técnico permitió un escalado masivo de datos y parámetros, llevando la IA de ser una herramienta predictiva a una infraestructura cognitiva generativa y autónoma.

RNN vs Transformer

Dimensión	RNN (pre-2017)	Transformer
Procesamiento	Secuencial	En paralelo
Escalabilidad	Limitada por memoria	Altamente escalable
Contexto	Dificultad en secuencias largas	Relaciones globales eficientes

Hitos clave

2017 — "Attention Is All You Need": introduce auto-atención, procesa secuencias completas en paralelo
2020 — GPT-3: 175 mil millones de parámetros, capacidades emergentes sin entrenamiento específico
2022 — ChatGPT: democratiza el acceso a LLMs para el público general
2023+ — Convergencia Multimodal: Gemini y Sora integran texto, imagen y video en un espacio latente
2024+ — IA Agéntica: agentes que planifican y ejecutan tareas autónomamente

Módulo 04

Evolución de la IA:
Las 4 Eras

De herramienta de consulta basada en reglas a tejido operativo capaz de razonar y ejecutar tareas.

Era 1

📋

IA Simbólica — Sistemas de Reglas

Programas basados en lógica "SI-ENTONCES" que codifican el conocimiento de expertos para tareas específicas. Explicable y controlable, pero frágil. Falló por la explosión combinatoria — el mundo real es demasiado complejo para capturarlo en reglas.

Ejemplos: MYCIN, XCON, ELIZA, Logic Theorist

Era 2

📊

IA Predictiva — Aprendizaje de Datos

Algoritmos que identifican patrones en datos históricos para clasificar o predecir. El humano ya no escribe reglas, pero sí diseña las features. Mejor generalización, pero dependiente de calidad de datos y con falta de explicabilidad.

Ejemplos: scoring crediticio, detección de fraude, SVM, Redes Neuronales

Era 3

✨

IA Generativa — Creación de Contenido

Modelos LLM que generan texto, imágenes y código original mediante redes neuronales profundas. El salto: de clasificar lo existente a sintetizar algo nuevo. Democratizó la IA pero introdujo las alucinaciones.

Ejemplos: ChatGPT, Claude, DALL-E, Midjourney, Sora

Era 4

🤖

IA Agéntica — Autonomía en Acción

Sistemas que planifican, utilizan herramientas externas y ejecutan flujos de trabajo completos con supervisión humana mínima. El cambio más radical: pasa de "responder" a "hacer". Requiere regulación estricta.

Ejemplos: Claude con computer use, Devin, agentes empresariales

Tabla comparativa completa

Era	Dónde reside la inteligencia	Mecanismo dominante	Ventaja	Límite
Simbólica	Reglas, hechos, ontologías	Encadenamiento lógico IF-THEN	Explicabilidad, control	Fragilidad, explosión combinatoria
ML Clásico	Patrones + features humanas	Estimación estadística	Generalización en tareas medibles	Dependencia de calidad de datos
Deep Learning	Representaciones jerárquicas	Backpropagation multicapa	Aprendizaje end-to-end	Hambre de datos y cómputo
Transformers / MF	Preentrenamiento a gran escala	Auto-atención, prompting, RAG	Reutilización multi-tarea	Alucinaciones, gobernanza

Módulo 05

Elementos
de la IA

La IA no es una tecnología — es un paraguas de múltiples tecnologías con propósitos distintos.

🔵 Generative AI

LLM → genera texto
Multimodal Foundation Model → genera texto, imágenes, audio y video

🔵 Machine Learning

Deep Learning → redes neuronales profundas
Supervised Learning → aprende con datos etiquetados
Unsupervised Learning → encuentra patrones sin etiquetas

⚫ NLP

Natural Language Understanding → comprende el lenguaje
Natural Language Generation → produce texto coherente
Question & Answering → responde preguntas concretas

🔴 Computer Vision

Object detection
Scene understanding
Face detection and recognition
Motion analysis
Text recognition (OCR)

Módulo 06

Large Language
Models

Modelo fundacional enfocado específicamente en lenguaje — cómo funciona, qué puede hacer y qué no.

"Un LLM es un modelo que aprende a predecir lenguaje a gran escala, capturando patrones semánticos y contextuales del conocimiento humano. No sabe — probabiliza en base a patrones aprendidos."

¿Cómo funciona internamente?

Texto de entrada

→

Tokenización

→

Embeddings

→

Transformer (auto-atención)

→

Probabilidades del siguiente token

→

Respuesta generada

Technology Stack

Applications

Chatbots · Content Generation · Code Assistants · Search · Analytics

Fine-tuning Layer

Domain Adaptation · Task-specific Training · RLHF · LoRA · Quantization

Foundation Models

GPT-4 · Claude · LLaMA · Gemini · PaLM · Mistral

Infrastructure

GPUs · Cloud Services · Training Pipelines · Networking · Storage

Capacidades y Limitaciones

✅ Puede hacer

Generar texto — informes, emails, código
Resumir, traducir, clasificar
Responder preguntas complejas
Razonar limitadamente sobre información

❌ No hace

No es una base de datos fiable
No garantiza veracidad (alucinaciones)
No "entiende" como un humano
No tiene conocimiento actualizado por defecto

Regla práctica: úsalo para generar y transformar texto. No lo uses como fuente única de hechos verificables. Siempre valida información crítica en fuentes primarias.

Módulo 07

LLM
Multimodal

Cómo un modelo procesa imagen, texto, audio y video en un solo sistema integrado.

📷 Imagen

📝 Texto

🔊 Audio

🎬 Video

→

Input Tokenization

↓

Embedding Layer

→

Cross-Modal Fusion

→

Neural Network Processing

↓

Insights

Contenido Generado

Respuestas

El paso crítico es el Cross-Modal Fusion — conectar información de diferentes modalidades en un espacio compartido de significado. Eso es lo que permite a Gemini o GPT-4o responder preguntas sobre imágenes, describir audio o generar video desde texto.

Módulo 08

Modelos
Fundacionales

El cambio de paradigma: de modelos especializados a una plataforma universal adaptable.

Traditional ML

Modelos individuales aislados — AI1 para texto, AI2 para música, AI3 para imágenes... Cada uno requiere entrenamiento específico desde cero con supervisión humana extensiva.

Individual siloed models
Require task-specific training
Lots of human supervised training

Foundation Models

Un modelo masivo que absorbe todos los tipos de datos. Dos modos de uso: prompting directo o fine-tuning con datos propietarios.

Massive multi-tasking model
Adaptable with little or no training
Pre-trained unsupervised learning

La analogía: Traditional ML = contratar 6 especialistas distintos. Foundation Model = contratar 1 experto generalista que se adapta a cualquier tarea con solo cambiar el prompt.

Módulo 09

LLMs Abiertos
vs Cerrados

La decisión práctica más importante al elegir un modelo para tu negocio o proyecto.

Abiertos / Open-weight

LLaMA (Meta)
Mistral / Mixtral
Falcon
Gemma (Google, parcialmente)

Cerrados / Propietarios

GPT (OpenAI)
Claude (Anthropic)
Gemini API (Google)
Copilot (Microsoft)

Dimensión	Abiertos	Cerrados
Acceso al modelo	Pesos disponibles	Solo vía API
Control	Alto — modificas, afinas, despliegas	Bajo — dependes del proveedor
Personalización	Muy alta (fine-tuning interno)	Limitada (prompting, RAG, tools)
Costo	Alto upfront, bajo marginal	Pago por uso (OPEX)
Infraestructura	Necesitas cloud propia	No necesaria
Rendimiento	Bueno, suele ir por detrás	El mejor disponible
Velocidad de evolución	Depende de la comunidad	Muy rápida (big tech invierte)
Privacidad / datos	Máximo control (on-premise)	Riesgo percibido
Transparencia	Mayor, auditable	Caja negra
Dependencia proveedor	Baja	Alta (lock-in)

Elige abierto si tienes datos sensibles, quieres control total, o necesitas fine-tuning profundo. Elige cerrado si quieres arrancar rápido, necesitas el mejor rendimiento hoy, o tu equipo es pequeño. Para la mayoría de negocios, los modelos cerrados vía API son la opción práctica.

El Prompt — La Interfaz Universal

Nos comunicamos con el LLM a través del "PROMPT" — la instrucción en lenguaje natural.

Tu PROMPT

→

Transformer Model

→

Content Generation

Summarization

Translation

Classification

Chatbots

La barrera de entrada es mínima — no necesitas saber programar. Solo necesitas saber formular bien lo que quieres. Esa habilidad de escribir buenos prompts es la competencia más valiosa de la era actual.

De la Lógicaa la Autonomía

La Montaña Rusade la IA

El Ascenso de losAsistentes Virtuales

De los Transformersa la Autonomía

RNN vs Transformer

Hitos clave

Evolución de la IA:Las 4 Eras

Tabla comparativa completa

Elementosde la IA

Large LanguageModels

¿Cómo funciona internamente?

Technology Stack

Capacidades y Limitaciones

✅ Puede hacer

❌ No hace

LLMMultimodal

ModelosFundacionales

Traditional ML

Foundation Models

LLMs Abiertosvs Cerrados

El Prompt — La Interfaz Universal

De la Lógica
a la Autonomía

La Montaña Rusa
de la IA

El Ascenso de los
Asistentes Virtuales

De los Transformers
a la Autonomía

Evolución de la IA:
Las 4 Eras

Elementos
de la IA

Large Language
Models

LLM
Multimodal

Modelos
Fundacionales

LLMs Abiertos
vs Cerrados