Documentation Index
Fetch the complete documentation index at: https://docs.monostate.ai/llms.txt
Use this file to discover all available pages before exploring further.
Flash Attention
O Flash Attention 2 fornece acelerações significativas para o treinamento de transformers otimizando padrões de acesso à memória.Requisitos
Início Rápido
Python API
Parâmetros
| Parâmetro | Flag CLI | Padrão | Descrição |
|---|---|---|---|
use_flash_attention_2 | --use-flash-attention-2 | False | Habilitar Flash Attention 2 |
attn_implementation | --attn-implementation | None | Sobrescrever atenção: eager, sdpa, flash_attention_2 |
Opções de Implementação de Atenção
| Opção | Descrição |
|---|---|
eager | Atenção padrão PyTorch (padrão para alguns modelos) |
sdpa | Scaled Dot Product Attention (PyTorch 2.0+) |
flash_attention_2 | Flash Attention 2 (mais rápido, requer flash-attn) |
Compatibilidade de Modelos
Modelos Suportados
| Família de Modelo | Flash Attention 2 | Notas |
|---|---|---|
| Llama | Sim | Suporte completo |
| Mistral | Sim | Suporte completo |
| Qwen | Sim | Suporte completo |
| Phi | Sim | Suporte completo |
| Gemma | Não | Usa atenção eager |
Com Quantização
Combine Flash Attention com quantização para máxima eficiência:Com Sequence Packing
Flash Attention permite sequence packing eficiente:Sequence packing requer que Flash Attention esteja habilitado.
Benefícios de Performance
| Configuração | Memória | Velocidade |
|---|---|---|
| Atenção padrão | Baseline | Baseline |
| SDPA | ~15% menos | ~20% mais rápido |
| Flash Attention 2 | ~40% menos | ~2x mais rápido |
Solução de Problemas
Erros de Instalação
Sepip install flash-attn falhar:
Erros de Runtime
“Flash Attention não está disponível”- Verifique se flash-attn está instalado:
python -c "import flash_attn" - Certifique-se de estar no Linux com CUDA
- Verifique capacidade de computação da GPU (requer SM 80+, ex: A100, H100)
- Alguns modelos (como Gemma) forçam atenção eager
- Verifique documentação do modelo para compatibilidade
Próximos Passos
Quantization
Combine com otimização de memória
LoRA/PEFT
Fine-tuning eficiente