Documentation Index
Fetch the complete documentation index at: https://docs.monostate.ai/llms.txt
Use this file to discover all available pages before exploring further.
Cuantización
La cuantización reduce el uso de memoria usando menor precisión para pesos del modelo.Inicio Rápido
Python API
Opciones de Cuantización
| Opción | Reducción de Memoria | Calidad |
|---|---|---|
| None | 0% | Mejor |
| int8 | ~50% | Muy Buena |
| int4 | ~75% | Buena |
Tareas Soportadas
La cuantización está disponible para:| Tarea | Clase Params | Notas |
|---|---|---|
| LLM | LLMTrainingParams | Soporte completo |
| VLM | VLMTrainingParams | Soporte completo |
| Seq2Seq | Seq2SeqParams | Soporte completo |
4-bit (QLoRA)
Máximo ahorro de memoria:8-bit
Mejor calidad, menos ahorro:Requisitos de Memoria
Llama 3.2 8B
| Config | VRAM Requerido |
|---|---|
| Precisión completa | ~64 GB |
| LoRA (fp16) | ~18 GB |
| LoRA + 8bit | ~12 GB |
| LoRA + 4bit | ~8 GB |
Gemma 2 27B
| Config | VRAM Requerido |
|---|---|
| Precisión completa | ~108 GB |
| LoRA + 4bit | ~20 GB |
Mejores Prácticas
Usa con LoRA
La cuantización requiere que PEFT/LoRA esté habilitado:Ajusta la Tasa de Aprendizaje
El entrenamiento cuantizado a menudo se beneficia de una tasa de aprendizaje mayor que la por defecto (3e-5):
Usa Flash Attention
Combina con Flash Attention para velocidad:Inferencia con Modelos Cuantizados
Carga modelos cuantizados para inferencia:Requisitos de Plataforma
Nota sobre Apple Silicon (MPS)
La cuantización no es compatible con Apple Silicon MPS. Cuando usas cuantización en un Mac con M1/M2/M3:- El entrenamiento automáticamente vuelve a CPU
- Verás un mensaje de advertencia explicando esto
- Para entrenamiento más rápido en Mac, omite la cuantización y usa solo LoRA
AUTOTRAIN_DISABLE_MPS=1- Forzar entrenamiento en CPUAUTOTRAIN_ENABLE_MPS=1- Forzar MPS incluso con cuantización (puede fallar)
Consideraciones de Calidad
La cuantización reduce ligeramente la calidad. Para aplicaciones críticas:- Prueba en tu tarea específica
- Compara con línea base de precisión completa
- Considera 8-bit si la calidad importa más
Próximos Pasos
LoRA/PEFT
Fine-tuning eficiente
Flash Attention
Optimizaciones de velocidad