Documentation Index
Fetch the complete documentation index at: https://docs.monostate.ai/llms.txt
Use this file to discover all available pages before exploring further.
Treinamento Distribuído
O AITraining suporta treinamento multi-GPU através do Accelerate, com otimização opcional DeepSpeed Zero-3 para modelos grandes.Requisitos
| Componente | Obrigatório | Instalar |
|---|---|---|
| Accelerate | Sim (incluído) | Incluído com AITraining |
| DeepSpeed | Opcional | pip install deepspeed |
| Múltiplas GPUs | Sim | GPUs NVIDIA CUDA |
Backends de Distribuição
| Backend | Valor | Descrição |
|---|---|---|
| DDP | ddp ou None | PyTorch Distributed Data Parallel (padrão) |
| DeepSpeed | deepspeed | DeepSpeed Zero-3 com fragmentação automática |
Início Rápido
DDP (Padrão)
Com múltiplas GPUs, DDP é usado automaticamente:DeepSpeed
Para modelos grandes, use DeepSpeed Zero-3:Python API
Configuração YAML
Como Funciona
Launch Accelerate
O treinamento é iniciado através do Accelerate:- AITraining detecta GPUs disponíveis
- Inicia treinamento via
accelerate launch - Para DeepSpeed, adiciona flags
--use_deepspeede Zero-3 - Registra
accelerate envpara depuração
Configurações DDP
Ao usar DDP:ddp_find_unused_parameters=Falseé definido para performance- Cada GPU processa uma porção do batch
- Gradientes são sincronizados entre GPUs
DeepSpeed Zero-3
Ao usar DeepSpeed:- Parâmetros do modelo são fragmentados entre GPUs
- Usa
--deepspeed_multinode_launcher standardpara multi-nó - Configuração Zero-3 é aplicada automaticamente
- Salvamento de modelo usa
accelerator.get_state_dict()com unwrapping
Treinamento Multi-Nó
Para treinamento DeepSpeed multi-nó:--deepspeed_multinode_launcher standard é passada automaticamente.
Comportamento Específico por Tarefa
Treinamento LLM
- Padrão: DDP quando múltiplas GPUs detectadas
- DeepSpeed: Definir explicitamente
--distributed-backend deepspeed
Seq2Seq e VLM
- Seleciona automaticamente DeepSpeed para casos de muitas GPUs
- Usa DDP multi-GPU para combinações PEFT + quantização + bf16
Checkpointing com DeepSpeed
Seleção de GPU
Controle quais GPUs usar:Solução de Problemas
Verificar Ambiente Accelerate
Problemas Comuns
| Problema | Solução |
|---|---|
| DeepSpeed não encontrado | pip install deepspeed |
| Erros NCCL | Verifique conectividade GPU e versão CUDA |
| Erros OOM | Reduza tamanho do batch ou use DeepSpeed |
| Treinamento lento | Certifique-se de que GPUs estão no mesmo barramento PCIe |
Próximos Passos
LoRA/PEFT
Fine-tuning eficiente
Quantization
Reduzir uso de memória