Documentation Index
Fetch the complete documentation index at: https://docs.monostate.ai/llms.txt
Use this file to discover all available pages before exploring further.
Quantização
A quantização reduz o uso de memória usando precisão menor para pesos do modelo.Início Rápido
Python API
Opções de Quantização
| Opção | Redução de Memória | Qualidade |
|---|---|---|
| None | 0% | Melhor |
| int8 | ~50% | Muito Boa |
| int4 | ~75% | Boa |
Tarefas Suportadas
A quantização está disponível para:| Tarefa | Classe Params | Notas |
|---|---|---|
| LLM | LLMTrainingParams | Suporte completo |
| VLM | VLMTrainingParams | Suporte completo |
| Seq2Seq | Seq2SeqParams | Suporte completo |
4-bit (QLoRA)
Máxima economia de memória:8-bit
Melhor qualidade, menos economia:Requisitos de Memória
Llama 3.2 8B
| Config | VRAM Necessário |
|---|---|
| Precisão completa | ~64 GB |
| LoRA (fp16) | ~18 GB |
| LoRA + 8bit | ~12 GB |
| LoRA + 4bit | ~8 GB |
Gemma 2 27B
| Config | VRAM Necessário |
|---|---|
| Precisão completa | ~108 GB |
| LoRA + 4bit | ~20 GB |
Melhores Práticas
Use com LoRA
A quantização requer que PEFT/LoRA esteja habilitado:Ajuste a Taxa de Aprendizado
O treinamento quantizado geralmente se beneficia de uma taxa de aprendizado maior que o padrão (3e-5):
Use Flash Attention
Combine com Flash Attention para velocidade:Inferência com Modelos Quantizados
Carregue modelos quantizados para inferência:Requisitos de Plataforma
Nota sobre Apple Silicon (MPS)
A quantização não é compatível com Apple Silicon MPS. Quando você usa quantização em um Mac com M1/M2/M3:- O treinamento automaticamente volta para CPU
- Você verá uma mensagem de aviso explicando isso
- Para treinamento mais rápido no Mac, pule a quantização e use apenas LoRA
AUTOTRAIN_DISABLE_MPS=1- Forçar treinamento em CPUAUTOTRAIN_ENABLE_MPS=1- Forçar MPS mesmo com quantização (pode travar)
Considerações de Qualidade
A quantização reduz ligeiramente a qualidade. Para aplicações críticas:- Teste em sua tarefa específica
- Compare com baseline de precisão completa
- Considere 8-bit se qualidade importar mais
Próximos Passos
LoRA/PEFT
Fine-tuning eficiente
Flash Attention
Otimizações de velocidade