Documentation Index
Fetch the complete documentation index at: https://docs.monostate.ai/llms.txt
Use this file to discover all available pages before exploring further.
Entendiendo Tipos de Modelos
Diferentes tareas de IA requieren diferentes arquitecturas de modelos. Piensa en ello como elegir la herramienta correcta para el trabajo - no usarías un martillo para pintar una pared.Language Models (LLMs)
Los modelos más versátiles que entienden y generan lenguaje humano.Qué Hacen
Los modelos de lenguaje pueden:- Responder preguntas
- Escribir contenido
- Traducir idiomas
- Resumir texto
- Generar código
- Seguir instrucciones
Modelos Comunes
| Modelo | Tamaño | Bueno Para | Tiempo de Entrenamiento |
|---|---|---|---|
| GPT-2 | 124M-1.5B | Punto de partida, experimentos rápidos | Minutos a horas |
| BERT | 110M-340M | Entender texto, clasificación | Horas |
| T5 | 60M-11B | Tareas texto-para-texto | Horas a días |
| LLaMA | 7B-70B | Propósito general, chat | Días a semanas |
| Mistral | 7B | Rendimiento eficiente y equilibrado | Horas a días |
Cuándo Usar
Elige modelos de lenguaje cuando necesites:- Entendimiento de lenguaje natural
- Generación de texto
- Respuesta a preguntas
- IA conversacional
- Generación de código
Modelos de Clasificación
Especializados para clasificar cosas en categorías.Text Classification
Categoriza texto en grupos predefinidos:- Análisis de sentimiento (positivo/negativo)
- Clasificación de temas
- Detección de intención
- Detección de idioma
Image Classification
Identifica qué hay en una imagen:- Reconocimiento de objetos
- Diagnóstico médico
- Control de calidad
- Moderación de contenido
Multimodal Classification
Maneja tanto texto como imágenes:- Entendimiento de memes
- Análisis de documentos
- Categorización de productos
Token Classification
Etiqueta palabras individuales o tokens en texto.Named Entity Recognition (NER)
Encuentra y etiqueta información específica:- Nombres de personas, lugares, organizaciones
- Fechas y horas
- Nombres de productos
- Términos médicos
Part-of-Speech Tagging
Identifica roles gramaticales:- Sustantivos, verbos, adjetivos
- Análisis de estructura de oraciones
Sequence-to-Sequence
Transforma una secuencia en otra.Translation
Convierte texto entre idiomas:- Traducción de documentos
- Traducción de chat en tiempo real
- Traducción de código
Summarization
Condensa texto largo:- Resúmenes de artículos
- Notas de reuniones
- Resúmenes de informes
Question Answering
Extrae respuestas del contexto:- Atención al cliente
- Q&A de documentos
- Herramientas educativas
Modelos de Computer Vision
Procesan y entienden imágenes.Object Detection
Encuentra y localiza objetos en imágenes:- Bounding boxes alrededor de objetos
- Contar elementos
- Rastrear movimiento
Image Segmentation
Entendimiento a nivel de píxel:- Imágenes médicas
- Conducción autónoma
- Edición de fotos
Image Generation
Crea nuevas imágenes:- Generación de arte
- Visualización de productos
- Aumento de datos
Modelos Tabulares
Trabajan con datos estructurados como hojas de cálculo.Regression
Predice valores continuos:- Predicción de precios
- Pronóstico de ventas
- Puntuación de riesgo
Classification
Categoriza filas:- Churn de clientes
- Detección de fraude
- Diagnóstico de enfermedades
Eligiendo el Modelo Correcto
Considera Tus Datos
| Tipo de Dato | Modelos Recomendados |
|---|---|
| Texto corto (< 512 tokens) | BERT, DistilBERT |
| Texto largo (> 512 tokens) | Longformer, BigBird |
| Conversaciones | DialoGPT, Blenderbot |
| Código | CodeBERT, CodeT5 |
| Múltiples idiomas | mBERT, XLM-RoBERTa |
| Imágenes | ResNet, EfficientNet |
| Imágenes + Texto | CLIP, ALIGN |
| Datos estructurados | XGBoost, CatBoost |
Considera Tus Recursos
Recursos Limitados (< 8GB GPU)- DistilBERT (66M parámetros)
- MobileBERT (25M parámetros)
- TinyBERT (15M parámetros)
- BERT-base (110M parámetros)
- GPT-2 small (124M parámetros)
- RoBERTa-base (125M parámetros)
- GPT-2 large (774M parámetros)
- T5-large (770M parámetros)
- LLaMA 7B (7B parámetros)
Considera Tus Necesidades de Precisión
Velocidad sobre precisión- Usa modelos destilados (DistilBERT, DistilGPT-2)
- Arquitecturas más pequeñas
- Modelos cuantizados
- Usa modelos más grandes
- Ensemble de múltiples modelos
- Tiempos de entrenamiento más largos
Tamaños de Modelos y Trade-offs
Conteo de Parámetros
Los parámetros son las partes ajustables de un modelo. Más parámetros generalmente significan:- Mejor entendimiento
- Mayor precisión
- Más memoria necesaria
- Inferencia más lenta
Directrices de Tamaño
| Tamaño | Parámetros | Caso de Uso | Datos de Entrenamiento Necesarios |
|---|---|---|---|
| Tiny | < 50M | Apps móviles, tiempo real | 100s ejemplos |
| Small | 50M-150M | Aplicaciones estándar | 1000s ejemplos |
| Base | 150M-500M | Sistemas de producción | 10,000s ejemplos |
| Large | 500M-3B | Necesidades de alta precisión | 100,000s ejemplos |
| XL | 3B+ | State-of-the-art | Millones ejemplos |
Pre-entrenado vs Desde Cero
Usa Modelos Pre-entrenados
99% del tiempo, comienza con un modelo pre-entrenado:- Ya entiende lenguaje/imágenes
- Necesita menos datos de entrenamiento
- Más rápido de entrenar
- Mejores resultados
Entrena Desde Cero Solo Cuando
- Trabajas con tipos de datos únicos
- Dominio especial (médico, legal)
- Arquitecturas personalizadas
- Propósitos de investigación
Estrategias de Fine-tuning
Full Fine-tuning
Actualiza todos los parámetros del modelo:- Mejor precisión
- Necesita más memoria
- Riesgo de overfitting
LoRA (Low-Rank Adaptation)
Actualiza solo pequeños adaptadores:- 90% menos memoria
- Entrenamiento más rápido
- Precisión ligeramente menor
- Perfecto para modelos grandes
Prompt Tuning
Entrena solo embeddings de prompt:- Memoria mínima
- Muy rápido
- Bueno para few-shot learning
Estrategias de Freeze
Congela algunas capas:- Freeze early layers: Mantiene características generales
- Freeze late layers: Mantiene características específicas de tarea
- Gradual unfreezing: Comienza congelado, descongela lentamente
Modelos Multi-tarea
Algunos modelos pueden manejar múltiples tareas:Familia T5
- Resumen de texto
- Traducción
- Respuesta a preguntas
- Clasificación
- “summarize: …”
- “translate English to French: …”
- “question: … context: …”
Modelos FLAN
Pre-entrenados en muchas tareas:- Mejor rendimiento zero-shot
- Más flexibles
- Buen seguimiento de instrucciones
Arquitecturas Especializadas
Transformers
El estándar actual:- Procesamiento paralelo
- Dependencias de largo alcance
- La mayoría de modelos modernos
CNNs (Convolutional Neural Networks)
Todavía geniales para imágenes:- Eficientes
- Bien entendidos
- Buenos para dispositivos edge
RNNs (Recurrent Neural Networks)
Más antiguos pero todavía útiles:- Datos secuenciales
- Series temporales
- Aplicaciones streaming
Escucha: Más Allá de LLMs - Una Inmersión Profunda
Una conversación de 45 minutos sobre tipos de modelos más allá de modelos de lenguaje, cubriendo visión, tabular y arquitecturas especializadas.Próximos Pasos
¿Listo para comenzar a entrenar?Inicio Rápido
Entrena tu primer modelo en 10 minutos
Elige Interfaz
Elige UI, CLI o API