Curso de IA — De la Lógica a la Autonomía

Historia y evolución: de los sistemas expertos a los LLMs

De la Lógica
a la Autonomía

Historia, fundamentos y práctica de la Inteligencia Artificial — desde Dartmouth 1956 hasta los agentes autónomos de 2026.

La Montaña Rusa
de la IA

Historia de inviernos y primaveras — cómo la IA pasó de la euforia al abandono y volvió más fuerte cada vez.

1956
El Nacimiento en Dartmouth

Se acuña el término "Inteligencia Artificial" bajo un optimismo desbordado sobre simular la mente. Pioneros como McCarthy y Minsky establecen que cualquier aspecto del aprendizaje podía describirse con precisión para ser simulado por una máquina.

1974 — 1980
El Primer Invierno de la IA

El Informe Lighthill (1973) critica la falta de resultados, provocando recortes masivos de financiamiento. La explosión combinatoria demuestra que la complejidad del mundo real superaba exponencialmente la capacidad computacional de las reglas lógicas.

1987 — 1994
El Segundo Invierno de la IA

Los sistemas expertos (programados en LISP) fallan por su fragilidad y el mercado de hardware especializado colapsa. La recuperación vendría del surgimiento del Machine Learning estadístico.

2012
La Explosión del Deep Learning

AlexNet gana ImageNet usando GPUs, demostrando que más datos + más potencia computacional superan al software programado manualmente. Es el punto de inflexión moderno — las GPUs permiten entrenar redes neuronales profundas hasta 20 veces más rápido.

2022
El Big Bang de la IA Generativa

ChatGPT alcanza 100 millones de usuarios en ~60 días — más rápido que TikTok (200 días), Instagram (900 días) o Netflix (3,500 días). La IA deja de ser herramienta técnica y se vuelve cotidiana.

2024+
De la Lógica a la Autonomía

La IA evoluciona de reglas rígidas a agentes autónomos que aprenden de la experiencia. El paradigma pasa de "responder" a "hacer".

El Ascenso de los
Asistentes Virtuales

La revolución de los 2010 — cómo los asistentes de voz evolucionaron de comandos básicos a comprensión profunda.

2011–2013
El Nacimiento de la Ubicuidad
  • Apple integra Siri en iOS — primera adopción masiva de interfaz de lenguaje natural
  • Los sistemas comienzan a usar ML para adaptarse a patrones de voz individuales
  • Watson gana Jeopardy!, demostrando que la IA puede procesar lenguaje complejo más rápido que los humanos
  • Capacidad 2011: comandos básicos y recordatorios (aprendizaje estadístico)
2014–2016
La Explosión del Deep Learning
  • GPUs + Big Data permiten entrenar redes neuronales 20× más rápido
  • Amazon lanza Alexa, desplazando la IA del teléfono al hogar inteligente
  • Baidu y Google logran precisión sobrehumana en reconocimiento de voz e imágenes
  • Capacidad 2015: redes neuronales profundas superan al humano en tareas perceptuales
2017–2019
Madurez y Nuevas Arquitecturas
  • Los asistentes comienzan a procesar texto, voz e imágenes simultáneamente
  • Los Transformers (2017) revolucionan el procesamiento de lenguaje natural
  • El mecanismo de auto-atención permite comprender contexto y dependencias largas
  • Capacidad 2017: los modelos entienden contexto complejo a larga distancia

De los Transformers
a la Autonomía

2017–2026: cómo la arquitectura Transformer permitió el paso de modelos básicos a sistemas multimodales y agentes autónomos.

La arquitectura Transformer rompió las limitaciones del procesamiento secuencial de RNN/LSTM. Este cambio técnico permitió un escalado masivo de datos y parámetros, llevando la IA de ser una herramienta predictiva a una infraestructura cognitiva generativa y autónoma.

RNN vs Transformer

DimensiónRNN (pre-2017)Transformer
ProcesamientoSecuencialEn paralelo
EscalabilidadLimitada por memoriaAltamente escalable
ContextoDificultad en secuencias largasRelaciones globales eficientes

Hitos clave

  • 2017 — "Attention Is All You Need": introduce auto-atención, procesa secuencias completas en paralelo
  • 2020 — GPT-3: 175 mil millones de parámetros, capacidades emergentes sin entrenamiento específico
  • 2022 — ChatGPT: democratiza el acceso a LLMs para el público general
  • 2023+ — Convergencia Multimodal: Gemini y Sora integran texto, imagen y video en un espacio latente
  • 2024+ — IA Agéntica: agentes que planifican y ejecutan tareas autónomamente

Evolución de la IA:
Las 4 Eras

De herramienta de consulta basada en reglas a tejido operativo capaz de razonar y ejecutar tareas.

Era 1
📋
IA Simbólica — Sistemas de Reglas

Programas basados en lógica "SI-ENTONCES" que codifican el conocimiento de expertos para tareas específicas. Explicable y controlable, pero frágil. Falló por la explosión combinatoria — el mundo real es demasiado complejo para capturarlo en reglas.

Ejemplos: MYCIN, XCON, ELIZA, Logic Theorist

Era 2
📊
IA Predictiva — Aprendizaje de Datos

Algoritmos que identifican patrones en datos históricos para clasificar o predecir. El humano ya no escribe reglas, pero sí diseña las features. Mejor generalización, pero dependiente de calidad de datos y con falta de explicabilidad.

Ejemplos: scoring crediticio, detección de fraude, SVM, Redes Neuronales

Era 3
IA Generativa — Creación de Contenido

Modelos LLM que generan texto, imágenes y código original mediante redes neuronales profundas. El salto: de clasificar lo existente a sintetizar algo nuevo. Democratizó la IA pero introdujo las alucinaciones.

Ejemplos: ChatGPT, Claude, DALL-E, Midjourney, Sora

Era 4
🤖
IA Agéntica — Autonomía en Acción

Sistemas que planifican, utilizan herramientas externas y ejecutan flujos de trabajo completos con supervisión humana mínima. El cambio más radical: pasa de "responder" a "hacer". Requiere regulación estricta.

Ejemplos: Claude con computer use, Devin, agentes empresariales

Tabla comparativa completa

Era Dónde reside la inteligencia Mecanismo dominante Ventaja Límite
Simbólica Reglas, hechos, ontologías Encadenamiento lógico IF-THEN Explicabilidad, control Fragilidad, explosión combinatoria
ML Clásico Patrones + features humanas Estimación estadística Generalización en tareas medibles Dependencia de calidad de datos
Deep Learning Representaciones jerárquicas Backpropagation multicapa Aprendizaje end-to-end Hambre de datos y cómputo
Transformers / MF Preentrenamiento a gran escala Auto-atención, prompting, RAG Reutilización multi-tarea Alucinaciones, gobernanza

Elementos
de la IA

La IA no es una tecnología — es un paraguas de múltiples tecnologías con propósitos distintos.

🔵 Generative AI
  • LLM → genera texto
  • Multimodal Foundation Model → genera texto, imágenes, audio y video
🔵 Machine Learning
  • Deep Learning → redes neuronales profundas
  • Supervised Learning → aprende con datos etiquetados
  • Unsupervised Learning → encuentra patrones sin etiquetas
⚫ NLP
  • Natural Language Understanding → comprende el lenguaje
  • Natural Language Generation → produce texto coherente
  • Question & Answering → responde preguntas concretas
🔴 Computer Vision
  • Object detection
  • Scene understanding
  • Face detection and recognition
  • Motion analysis
  • Text recognition (OCR)

Large Language
Models

Modelo fundacional enfocado específicamente en lenguaje — cómo funciona, qué puede hacer y qué no.

"Un LLM es un modelo que aprende a predecir lenguaje a gran escala, capturando patrones semánticos y contextuales del conocimiento humano. No sabe — probabiliza en base a patrones aprendidos."

¿Cómo funciona internamente?

Texto de entrada
Tokenización
Embeddings
Transformer (auto-atención)
Probabilidades del siguiente token
Respuesta generada

Technology Stack

Applications
Chatbots · Content Generation · Code Assistants · Search · Analytics
Fine-tuning Layer
Domain Adaptation · Task-specific Training · RLHF · LoRA · Quantization
Foundation Models
GPT-4 · Claude · LLaMA · Gemini · PaLM · Mistral
Infrastructure
GPUs · Cloud Services · Training Pipelines · Networking · Storage

Capacidades y Limitaciones

✅ Puede hacer

  • Generar texto — informes, emails, código
  • Resumir, traducir, clasificar
  • Responder preguntas complejas
  • Razonar limitadamente sobre información

❌ No hace

  • No es una base de datos fiable
  • No garantiza veracidad (alucinaciones)
  • No "entiende" como un humano
  • No tiene conocimiento actualizado por defecto

Regla práctica: úsalo para generar y transformar texto. No lo uses como fuente única de hechos verificables. Siempre valida información crítica en fuentes primarias.

LLM
Multimodal

Cómo un modelo procesa imagen, texto, audio y video en un solo sistema integrado.

📷 Imagen
📝 Texto
🔊 Audio
🎬 Video
Input Tokenization
Embedding Layer
Cross-Modal Fusion
Neural Network Processing
Insights
Contenido Generado
Respuestas

El paso crítico es el Cross-Modal Fusion — conectar información de diferentes modalidades en un espacio compartido de significado. Eso es lo que permite a Gemini o GPT-4o responder preguntas sobre imágenes, describir audio o generar video desde texto.

Modelos
Fundacionales

El cambio de paradigma: de modelos especializados a una plataforma universal adaptable.

Traditional ML

Modelos individuales aislados — AI1 para texto, AI2 para música, AI3 para imágenes... Cada uno requiere entrenamiento específico desde cero con supervisión humana extensiva.

  • Individual siloed models
  • Require task-specific training
  • Lots of human supervised training

Foundation Models

Un modelo masivo que absorbe todos los tipos de datos. Dos modos de uso: prompting directo o fine-tuning con datos propietarios.

  • Massive multi-tasking model
  • Adaptable with little or no training
  • Pre-trained unsupervised learning

La analogía: Traditional ML = contratar 6 especialistas distintos. Foundation Model = contratar 1 experto generalista que se adapta a cualquier tarea con solo cambiar el prompt.

LLMs Abiertos
vs Cerrados

La decisión práctica más importante al elegir un modelo para tu negocio o proyecto.

Abiertos / Open-weight
  • LLaMA (Meta)
  • Mistral / Mixtral
  • Falcon
  • Gemma (Google, parcialmente)
Cerrados / Propietarios
  • GPT (OpenAI)
  • Claude (Anthropic)
  • Gemini API (Google)
  • Copilot (Microsoft)
DimensiónAbiertosCerrados
Acceso al modeloPesos disponiblesSolo vía API
ControlAlto — modificas, afinas, despliegasBajo — dependes del proveedor
PersonalizaciónMuy alta (fine-tuning interno)Limitada (prompting, RAG, tools)
CostoAlto upfront, bajo marginalPago por uso (OPEX)
InfraestructuraNecesitas cloud propiaNo necesaria
RendimientoBueno, suele ir por detrásEl mejor disponible
Velocidad de evoluciónDepende de la comunidadMuy rápida (big tech invierte)
Privacidad / datosMáximo control (on-premise)Riesgo percibido
TransparenciaMayor, auditableCaja negra
Dependencia proveedorBajaAlta (lock-in)

Elige abierto si tienes datos sensibles, quieres control total, o necesitas fine-tuning profundo. Elige cerrado si quieres arrancar rápido, necesitas el mejor rendimiento hoy, o tu equipo es pequeño. Para la mayoría de negocios, los modelos cerrados vía API son la opción práctica.

El Prompt — La Interfaz Universal

Nos comunicamos con el LLM a través del "PROMPT" — la instrucción en lenguaje natural.

Tu PROMPT
Transformer Model
Content Generation
Summarization
Translation
Classification
Chatbots

La barrera de entrada es mínima — no necesitas saber programar. Solo necesitas saber formular bien lo que quieres. Esa habilidad de escribir buenos prompts es la competencia más valiosa de la era actual.

Curso IA · Visual Business School · Resumen generado con Claude · 2026