Saltar al contenido principal

Documentation Index

Fetch the complete documentation index at: https://docs.monostate.ai/llms.txt

Use this file to discover all available pages before exploring further.

Entendiendo Tipos de Modelos

Diferentes tareas de IA requieren diferentes arquitecturas de modelos. Piensa en ello como elegir la herramienta correcta para el trabajo - no usarías un martillo para pintar una pared.

Language Models (LLMs)

Los modelos más versátiles que entienden y generan lenguaje humano.

Qué Hacen

Los modelos de lenguaje pueden:
  • Responder preguntas
  • Escribir contenido
  • Traducir idiomas
  • Resumir texto
  • Generar código
  • Seguir instrucciones

Modelos Comunes

ModeloTamañoBueno ParaTiempo de Entrenamiento
GPT-2124M-1.5BPunto de partida, experimentos rápidosMinutos a horas
BERT110M-340MEntender texto, clasificaciónHoras
T560M-11BTareas texto-para-textoHoras a días
LLaMA7B-70BPropósito general, chatDías a semanas
Mistral7BRendimiento eficiente y equilibradoHoras a días

Cuándo Usar

Elige modelos de lenguaje cuando necesites:
  • Entendimiento de lenguaje natural
  • Generación de texto
  • Respuesta a preguntas
  • IA conversacional
  • Generación de código

Modelos de Clasificación

Especializados para clasificar cosas en categorías.

Text Classification

Categoriza texto en grupos predefinidos:
  • Análisis de sentimiento (positivo/negativo)
  • Clasificación de temas
  • Detección de intención
  • Detección de idioma
Mejores modelos: BERT, DistilBERT, RoBERTa

Image Classification

Identifica qué hay en una imagen:
  • Reconocimiento de objetos
  • Diagnóstico médico
  • Control de calidad
  • Moderación de contenido
Mejores modelos: ResNet, EfficientNet, Vision Transformer (ViT)

Multimodal Classification

Maneja tanto texto como imágenes:
  • Entendimiento de memes
  • Análisis de documentos
  • Categorización de productos
Mejores modelos: CLIP, LayoutLM, ALIGN

Token Classification

Etiqueta palabras individuales o tokens en texto.

Named Entity Recognition (NER)

Encuentra y etiqueta información específica:
  • Nombres de personas, lugares, organizaciones
  • Fechas y horas
  • Nombres de productos
  • Términos médicos

Part-of-Speech Tagging

Identifica roles gramaticales:
  • Sustantivos, verbos, adjetivos
  • Análisis de estructura de oraciones
Mejores modelos: BERT-NER, RoBERTa-token, SpaCy transformers

Sequence-to-Sequence

Transforma una secuencia en otra.

Translation

Convierte texto entre idiomas:
  • Traducción de documentos
  • Traducción de chat en tiempo real
  • Traducción de código

Summarization

Condensa texto largo:
  • Resúmenes de artículos
  • Notas de reuniones
  • Resúmenes de informes

Question Answering

Extrae respuestas del contexto:
  • Atención al cliente
  • Q&A de documentos
  • Herramientas educativas
Mejores modelos: T5, BART, mT5 (multilingüe)

Modelos de Computer Vision

Procesan y entienden imágenes.

Object Detection

Encuentra y localiza objetos en imágenes:
  • Bounding boxes alrededor de objetos
  • Contar elementos
  • Rastrear movimiento
Mejores modelos: YOLO, Faster R-CNN, DETR

Image Segmentation

Entendimiento a nivel de píxel:
  • Imágenes médicas
  • Conducción autónoma
  • Edición de fotos
Mejores modelos: U-Net, Mask R-CNN, SAM

Image Generation

Crea nuevas imágenes:
  • Generación de arte
  • Visualización de productos
  • Aumento de datos
Mejores modelos: Stable Diffusion, DALL-E, Midjourney

Modelos Tabulares

Trabajan con datos estructurados como hojas de cálculo.

Regression

Predice valores continuos:
  • Predicción de precios
  • Pronóstico de ventas
  • Puntuación de riesgo

Classification

Categoriza filas:
  • Churn de clientes
  • Detección de fraude
  • Diagnóstico de enfermedades
Mejores modelos: XGBoost, CatBoost, TabNet

Eligiendo el Modelo Correcto

Considera Tus Datos

Tipo de DatoModelos Recomendados
Texto corto (< 512 tokens)BERT, DistilBERT
Texto largo (> 512 tokens)Longformer, BigBird
ConversacionesDialoGPT, Blenderbot
CódigoCodeBERT, CodeT5
Múltiples idiomasmBERT, XLM-RoBERTa
ImágenesResNet, EfficientNet
Imágenes + TextoCLIP, ALIGN
Datos estructuradosXGBoost, CatBoost

Considera Tus Recursos

Recursos Limitados (< 8GB GPU)
  • DistilBERT (66M parámetros)
  • MobileBERT (25M parámetros)
  • TinyBERT (15M parámetros)
Recursos Moderados (8-16GB GPU)
  • BERT-base (110M parámetros)
  • GPT-2 small (124M parámetros)
  • RoBERTa-base (125M parámetros)
Buenos Recursos (24GB+ GPU)
  • GPT-2 large (774M parámetros)
  • T5-large (770M parámetros)
  • LLaMA 7B (7B parámetros)

Considera Tus Necesidades de Precisión

Velocidad sobre precisión
  • Usa modelos destilados (DistilBERT, DistilGPT-2)
  • Arquitecturas más pequeñas
  • Modelos cuantizados
Precisión sobre velocidad
  • Usa modelos más grandes
  • Ensemble de múltiples modelos
  • Tiempos de entrenamiento más largos

Tamaños de Modelos y Trade-offs

Conteo de Parámetros

Los parámetros son las partes ajustables de un modelo. Más parámetros generalmente significan:
  • Mejor entendimiento
  • Mayor precisión
  • Más memoria necesaria
  • Inferencia más lenta

Directrices de Tamaño

TamañoParámetrosCaso de UsoDatos de Entrenamiento Necesarios
Tiny< 50MApps móviles, tiempo real100s ejemplos
Small50M-150MAplicaciones estándar1000s ejemplos
Base150M-500MSistemas de producción10,000s ejemplos
Large500M-3BNecesidades de alta precisión100,000s ejemplos
XL3B+State-of-the-artMillones ejemplos

Pre-entrenado vs Desde Cero

Usa Modelos Pre-entrenados

99% del tiempo, comienza con un modelo pre-entrenado:
  • Ya entiende lenguaje/imágenes
  • Necesita menos datos de entrenamiento
  • Más rápido de entrenar
  • Mejores resultados

Entrena Desde Cero Solo Cuando

  • Trabajas con tipos de datos únicos
  • Dominio especial (médico, legal)
  • Arquitecturas personalizadas
  • Propósitos de investigación

Estrategias de Fine-tuning

Full Fine-tuning

Actualiza todos los parámetros del modelo:
  • Mejor precisión
  • Necesita más memoria
  • Riesgo de overfitting

LoRA (Low-Rank Adaptation)

Actualiza solo pequeños adaptadores:
  • 90% menos memoria
  • Entrenamiento más rápido
  • Precisión ligeramente menor
  • Perfecto para modelos grandes

Prompt Tuning

Entrena solo embeddings de prompt:
  • Memoria mínima
  • Muy rápido
  • Bueno para few-shot learning

Estrategias de Freeze

Congela algunas capas:
  • Freeze early layers: Mantiene características generales
  • Freeze late layers: Mantiene características específicas de tarea
  • Gradual unfreezing: Comienza congelado, descongela lentamente

Modelos Multi-tarea

Algunos modelos pueden manejar múltiples tareas:

Familia T5

  • Resumen de texto
  • Traducción
  • Respuesta a preguntas
  • Clasificación
Solo cambia el prefijo del prompt:
  • “summarize: …”
  • “translate English to French: …”
  • “question: … context: …”

Modelos FLAN

Pre-entrenados en muchas tareas:
  • Mejor rendimiento zero-shot
  • Más flexibles
  • Buen seguimiento de instrucciones

Arquitecturas Especializadas

Transformers

El estándar actual:
  • Procesamiento paralelo
  • Dependencias de largo alcance
  • La mayoría de modelos modernos

CNNs (Convolutional Neural Networks)

Todavía geniales para imágenes:
  • Eficientes
  • Bien entendidos
  • Buenos para dispositivos edge

RNNs (Recurrent Neural Networks)

Más antiguos pero todavía útiles:
  • Datos secuenciales
  • Series temporales
  • Aplicaciones streaming

Escucha: Más Allá de LLMs - Una Inmersión Profunda

Una conversación de 45 minutos sobre tipos de modelos más allá de modelos de lenguaje, cubriendo visión, tabular y arquitecturas especializadas.

Próximos Pasos

¿Listo para comenzar a entrenar?

Inicio Rápido

Entrena tu primer modelo en 10 minutos

Elige Interfaz

Elige UI, CLI o API