Entendiendo Tipos de Modelos

Diferentes tareas de IA requieren diferentes arquitecturas de modelos. Piensa en ello como elegir la herramienta correcta para el trabajo - no usarías un martillo para pintar una pared.

Language Models (LLMs)

Los modelos más versátiles que entienden y generan lenguaje humano.

Qué Hacen

Los modelos de lenguaje pueden:

Responder preguntas
Escribir contenido
Traducir idiomas
Resumir texto
Generar código
Seguir instrucciones

Modelos Comunes

Modelo	Tamaño	Bueno Para	Tiempo de Entrenamiento
GPT-2	124M-1.5B	Punto de partida, experimentos rápidos	Minutos a horas
BERT	110M-340M	Entender texto, clasificación	Horas
T5	60M-11B	Tareas texto-para-texto	Horas a días
LLaMA	7B-70B	Propósito general, chat	Días a semanas
Mistral	7B	Rendimiento eficiente y equilibrado	Horas a días

Cuándo Usar

Elige modelos de lenguaje cuando necesites:

Entendimiento de lenguaje natural
Generación de texto
Respuesta a preguntas
IA conversacional
Generación de código

Modelos de Clasificación

Especializados para clasificar cosas en categorías.

Text Classification

Categoriza texto en grupos predefinidos:

Análisis de sentimiento (positivo/negativo)
Clasificación de temas
Detección de intención
Detección de idioma

Mejores modelos: BERT, DistilBERT, RoBERTa

Image Classification

Identifica qué hay en una imagen:

Reconocimiento de objetos
Diagnóstico médico
Control de calidad
Moderación de contenido

Mejores modelos: ResNet, EfficientNet, Vision Transformer (ViT)

Multimodal Classification

Maneja tanto texto como imágenes:

Entendimiento de memes
Análisis de documentos
Categorización de productos

Mejores modelos: CLIP, LayoutLM, ALIGN

Token Classification

Etiqueta palabras individuales o tokens en texto.

Named Entity Recognition (NER)

Encuentra y etiqueta información específica:

Nombres de personas, lugares, organizaciones
Fechas y horas
Nombres de productos
Términos médicos

Part-of-Speech Tagging

Identifica roles gramaticales:

Sustantivos, verbos, adjetivos
Análisis de estructura de oraciones

Mejores modelos: BERT-NER, RoBERTa-token, SpaCy transformers

Sequence-to-Sequence

Transforma una secuencia en otra.

Translation

Convierte texto entre idiomas:

Traducción de documentos
Traducción de chat en tiempo real
Traducción de código

Summarization

Condensa texto largo:

Resúmenes de artículos
Notas de reuniones
Resúmenes de informes

Question Answering

Extrae respuestas del contexto:

Atención al cliente
Q&A de documentos
Herramientas educativas

Mejores modelos: T5, BART, mT5 (multilingüe)

Modelos de Computer Vision

Procesan y entienden imágenes.

Object Detection

Encuentra y localiza objetos en imágenes:

Bounding boxes alrededor de objetos
Contar elementos
Rastrear movimiento

Mejores modelos: YOLO, Faster R-CNN, DETR

Image Segmentation

Entendimiento a nivel de píxel:

Imágenes médicas
Conducción autónoma
Edición de fotos

Mejores modelos: U-Net, Mask R-CNN, SAM

Image Generation

Crea nuevas imágenes:

Generación de arte
Visualización de productos
Aumento de datos

Mejores modelos: Stable Diffusion, DALL-E, Midjourney

Modelos Tabulares

Trabajan con datos estructurados como hojas de cálculo.

Regression

Predice valores continuos:

Predicción de precios
Pronóstico de ventas
Puntuación de riesgo

Classification

Categoriza filas:

Churn de clientes
Detección de fraude
Diagnóstico de enfermedades

Mejores modelos: XGBoost, CatBoost, TabNet

Eligiendo el Modelo Correcto

Considera Tus Datos

Tipo de Dato	Modelos Recomendados
Texto corto (< 512 tokens)	BERT, DistilBERT
Texto largo (> 512 tokens)	Longformer, BigBird
Conversaciones	DialoGPT, Blenderbot
Código	CodeBERT, CodeT5
Múltiples idiomas	mBERT, XLM-RoBERTa
Imágenes	ResNet, EfficientNet
Imágenes + Texto	CLIP, ALIGN
Datos estructurados	XGBoost, CatBoost

Considera Tus Recursos

Recursos Limitados (< 8GB GPU)

DistilBERT (66M parámetros)
MobileBERT (25M parámetros)
TinyBERT (15M parámetros)

Recursos Moderados (8-16GB GPU)

BERT-base (110M parámetros)
GPT-2 small (124M parámetros)
RoBERTa-base (125M parámetros)

Buenos Recursos (24GB+ GPU)

GPT-2 large (774M parámetros)
T5-large (770M parámetros)
LLaMA 7B (7B parámetros)

Considera Tus Necesidades de Precisión

Velocidad sobre precisión

Usa modelos destilados (DistilBERT, DistilGPT-2)
Arquitecturas más pequeñas
Modelos cuantizados

Precisión sobre velocidad

Usa modelos más grandes
Ensemble de múltiples modelos
Tiempos de entrenamiento más largos

Tamaños de Modelos y Trade-offs

Conteo de Parámetros

Los parámetros son las partes ajustables de un modelo. Más parámetros generalmente significan:

Mejor entendimiento
Mayor precisión
Más memoria necesaria
Inferencia más lenta

Directrices de Tamaño

Tamaño	Parámetros	Caso de Uso	Datos de Entrenamiento Necesarios
Tiny	< 50M	Apps móviles, tiempo real	100s ejemplos
Small	50M-150M	Aplicaciones estándar	1000s ejemplos
Base	150M-500M	Sistemas de producción	10,000s ejemplos
Large	500M-3B	Necesidades de alta precisión	100,000s ejemplos
XL	3B+	State-of-the-art	Millones ejemplos

Pre-entrenado vs Desde Cero

Usa Modelos Pre-entrenados

99% del tiempo, comienza con un modelo pre-entrenado:

Ya entiende lenguaje/imágenes
Necesita menos datos de entrenamiento
Más rápido de entrenar
Mejores resultados

Entrena Desde Cero Solo Cuando

Trabajas con tipos de datos únicos
Dominio especial (médico, legal)
Arquitecturas personalizadas
Propósitos de investigación

Estrategias de Fine-tuning

Full Fine-tuning

Actualiza todos los parámetros del modelo:

Mejor precisión
Necesita más memoria
Riesgo de overfitting

LoRA (Low-Rank Adaptation)

Actualiza solo pequeños adaptadores:

90% menos memoria
Entrenamiento más rápido
Precisión ligeramente menor
Perfecto para modelos grandes

Prompt Tuning

Entrena solo embeddings de prompt:

Memoria mínima
Muy rápido
Bueno para few-shot learning

Estrategias de Freeze

Congela algunas capas:

Freeze early layers: Mantiene características generales
Freeze late layers: Mantiene características específicas de tarea
Gradual unfreezing: Comienza congelado, descongela lentamente

Modelos Multi-tarea

Algunos modelos pueden manejar múltiples tareas:

Familia T5

Resumen de texto
Traducción
Respuesta a preguntas
Clasificación

Solo cambia el prefijo del prompt:

“summarize: …”
“translate English to French: …”
“question: … context: …”

Modelos FLAN

Pre-entrenados en muchas tareas:

Mejor rendimiento zero-shot
Más flexibles
Buen seguimiento de instrucciones

Arquitecturas Especializadas

Transformers

El estándar actual:

Procesamiento paralelo
Dependencias de largo alcance
La mayoría de modelos modernos

CNNs (Convolutional Neural Networks)

Todavía geniales para imágenes:

Eficientes
Bien entendidos
Buenos para dispositivos edge

RNNs (Recurrent Neural Networks)

Más antiguos pero todavía útiles:

Datos secuenciales
Series temporales
Aplicaciones streaming

Escucha: Más Allá de LLMs - Una Inmersión Profunda

Una conversación de 45 minutos sobre tipos de modelos más allá de modelos de lenguaje, cubriendo visión, tabular y arquitecturas especializadas.

Próximos Pasos

¿Listo para comenzar a entrenar?

Inicio Rápido

Entrena tu primer modelo en 10 minutos

Elige Interfaz

Elige UI, CLI o API

Comenzando

Fundamentos de Entrenamiento IA

Conceptos Básicos

Selección de Interfaz

Documentation Index

​Entendiendo Tipos de Modelos

​Language Models (LLMs)

​Qué Hacen

​Modelos Comunes

​Cuándo Usar

​Modelos de Clasificación

​Text Classification

​Image Classification

​Multimodal Classification

​Token Classification

​Named Entity Recognition (NER)

​Part-of-Speech Tagging

​Sequence-to-Sequence

​Translation

​Summarization

​Question Answering

​Modelos de Computer Vision

​Object Detection

​Image Segmentation

​Image Generation

​Modelos Tabulares

​Regression

​Classification

​Eligiendo el Modelo Correcto

​Considera Tus Datos

​Considera Tus Recursos

​Considera Tus Necesidades de Precisión

​Tamaños de Modelos y Trade-offs

​Conteo de Parámetros

​Directrices de Tamaño

​Pre-entrenado vs Desde Cero

​Usa Modelos Pre-entrenados

​Entrena Desde Cero Solo Cuando

​Estrategias de Fine-tuning

​Full Fine-tuning

​LoRA (Low-Rank Adaptation)

​Prompt Tuning

​Estrategias de Freeze

​Modelos Multi-tarea

​Familia T5

​Modelos FLAN

​Arquitecturas Especializadas

​Transformers

​CNNs (Convolutional Neural Networks)

​RNNs (Recurrent Neural Networks)

​Escucha: Más Allá de LLMs - Una Inmersión Profunda

​Próximos Pasos