Pular para o conteúdo principal

Documentation Index

Fetch the complete documentation index at: https://docs.monostate.ai/llms.txt

Use this file to discover all available pages before exploring further.

Hyperparâmetros

Hyperparâmetros controlam como seu modelo aprende. Pense neles como as configurações do seu treinamento.

Os Três Essenciais

Learning Rate

Quão grandes são os passos ao atualizar o modelo.
  • Muito alto (0.01): Modelo pula ao redor, nunca converge
  • Muito baixo (0.00001): Leva uma eternidade para treinar
  • Perfeito (0.00002): Melhoria constante
Valores comuns:
  • Fine-tuning: 2e-5 a 5e-5
  • Treinamento do zero: 1e-4 a 1e-3

Batch Size

Quantos exemplos processar antes de atualizar pesos.
  • Pequeno (8): Mais atualizações, menos estável, precisa de menos memória
  • Grande (128): Menos atualizações, mais estável, precisa de mais memória
Valores comuns:
  • GPU limitada: 8-16
  • Boa GPU: 32-64
  • Múltiplas GPUs: 128+

Epochs

Quantas vezes passar por todo seu dataset.
  • Muito poucos (1): Underfitting, modelo não aprendeu o suficiente
  • Muitos (100): Overfitting, memorizou dados de treinamento
  • Perfeito (3-10): Bom equilíbrio
Acompanhe validation loss - quando parar de melhorar ou piorar, pare.

Configurações Secundárias

Warmup Steps

Aumentar learning rate gradualmente no início.
Steps 0-500: Learning rate vai de 0 → 2e-5
Steps 500+: Learning rate permanece em 2e-5
Previne instabilidade inicial.

Weight Decay

Regularização que impede pesos de ficarem muito grandes.
  • Padrão: 0.0 (para fine-tuning LLM)
  • Sem regularização: 0
  • Regularização forte: 0.1

Gradient Accumulation

Simular batches maiores em hardware limitado.
Tamanho efetivo do batch = batch_size × gradient_accumulation_steps
Exemplo: batch_size=4, accumulation=8 → age como batch_size=32

Padrões Específicos por Tarefa

Text Classification

learning_rate = 5e-5
batch_size = 8
epochs = 3
warmup_ratio = 0.1

Language Model Fine-tuning

learning_rate = 3e-5  # Padrão AITraining
batch_size = 2
epochs = 1
warmup_ratio = 0.1
weight_decay = 0.0
gradient_accumulation = 4

Image Classification

learning_rate = 1e-4
batch_size = 32
epochs = 10
warmup_ratio = 0.05

Quando Ajustar

Learning rate muito alto?
  • Loss explode ou vira NaN
  • Accuracy pula ao redor selvagemente
  • Nunca converge
Learning rate muito baixo?
  • Loss mal diminui
  • Treinamento leva uma eternidade
  • Preso em desempenho ruim
Problemas com batch size?
  • Sem memória → reduza batch size
  • Treinamento instável → aumente batch size
  • Use gradient accumulation se memória limitada

Valores de Início Rápido

Não tem certeza por onde começar? Experimente estes:
# Padrões seguros para a maioria das tarefas
learning_rate = 2e-5
batch_size = 16
epochs = 3
warmup_ratio = 0.1
weight_decay = 0.0
Então ajuste com base no que você vê.

Configurações de Avaliação

Controle quando e como seu modelo é avaliado durante o treinamento:
ParâmetroDescriçãoPadrão
eval_strategyQuando avaliar (epoch, steps, no)epoch
eval_batch_sizeTamanho do batch para avaliação8
use_enhanced_evalHabilitar métricas avançadas (BLEU, ROUGE, etc.)False
eval_metricsMétricas para computar (separadas por vírgula)perplexity
eval_save_predictionsSalvar previsões do modeloFalse
eval_benchmarkExecutar benchmark padrão (mmlu, hellaswag, arc, truthfulqa)None

Dicas Pro

  1. Comece com padrões - Não pense demais inicialmente
  2. Mude um de cada vez - Mais fácil ver o que ajuda
  3. Registre tudo - Rastreie o que funciona para seus dados
  4. Use conjunto de validação - Monitore overfitting

Próximos Passos

Métricas de Avaliação

Meça seu sucesso

Como o Treinamento Funciona

Entenda o processo