Documentation Index
Fetch the complete documentation index at: https://docs.monostate.ai/llms.txt
Use this file to discover all available pages before exploring further.
Hyperparâmetros
Hyperparâmetros controlam como seu modelo aprende. Pense neles como as configurações do seu treinamento.Os Três Essenciais
Learning Rate
Quão grandes são os passos ao atualizar o modelo.- Muito alto (0.01): Modelo pula ao redor, nunca converge
- Muito baixo (0.00001): Leva uma eternidade para treinar
- Perfeito (0.00002): Melhoria constante
- Fine-tuning: 2e-5 a 5e-5
- Treinamento do zero: 1e-4 a 1e-3
Batch Size
Quantos exemplos processar antes de atualizar pesos.- Pequeno (8): Mais atualizações, menos estável, precisa de menos memória
- Grande (128): Menos atualizações, mais estável, precisa de mais memória
- GPU limitada: 8-16
- Boa GPU: 32-64
- Múltiplas GPUs: 128+
Epochs
Quantas vezes passar por todo seu dataset.- Muito poucos (1): Underfitting, modelo não aprendeu o suficiente
- Muitos (100): Overfitting, memorizou dados de treinamento
- Perfeito (3-10): Bom equilíbrio
Configurações Secundárias
Warmup Steps
Aumentar learning rate gradualmente no início.Weight Decay
Regularização que impede pesos de ficarem muito grandes.- Padrão: 0.0 (para fine-tuning LLM)
- Sem regularização: 0
- Regularização forte: 0.1
Gradient Accumulation
Simular batches maiores em hardware limitado.Padrões Específicos por Tarefa
Text Classification
Language Model Fine-tuning
Image Classification
Quando Ajustar
Learning rate muito alto?- Loss explode ou vira NaN
- Accuracy pula ao redor selvagemente
- Nunca converge
- Loss mal diminui
- Treinamento leva uma eternidade
- Preso em desempenho ruim
- Sem memória → reduza batch size
- Treinamento instável → aumente batch size
- Use gradient accumulation se memória limitada
Valores de Início Rápido
Não tem certeza por onde começar? Experimente estes:Configurações de Avaliação
Controle quando e como seu modelo é avaliado durante o treinamento:| Parâmetro | Descrição | Padrão |
|---|---|---|
eval_strategy | Quando avaliar (epoch, steps, no) | epoch |
eval_batch_size | Tamanho do batch para avaliação | 8 |
use_enhanced_eval | Habilitar métricas avançadas (BLEU, ROUGE, etc.) | False |
eval_metrics | Métricas para computar (separadas por vírgula) | perplexity |
eval_save_predictions | Salvar previsões do modelo | False |
eval_benchmark | Executar benchmark padrão (mmlu, hellaswag, arc, truthfulqa) | None |
Dicas Pro
- Comece com padrões - Não pense demais inicialmente
- Mude um de cada vez - Mais fácil ver o que ajuda
- Registre tudo - Rastreie o que funciona para seus dados
- Use conjunto de validação - Monitore overfitting
Próximos Passos
Métricas de Avaliação
Meça seu sucesso
Como o Treinamento Funciona
Entenda o processo