Documentation Index
Fetch the complete documentation index at: https://docs.monostate.ai/llms.txt
Use this file to discover all available pages before exploring further.
Flash Attention
Flash Attention 2 proporciona aceleraciones significativas para el entrenamiento de transformers optimizando patrones de acceso a memoria.Requisitos
Inicio Rápido
Python API
Parámetros
| Parámetro | Flag CLI | Por Defecto | Descripción |
|---|---|---|---|
use_flash_attention_2 | --use-flash-attention-2 | False | Habilitar Flash Attention 2 |
attn_implementation | --attn-implementation | None | Sobrescribir atención: eager, sdpa, flash_attention_2 |
Opciones de Implementación de Atención
| Opción | Descripción |
|---|---|
eager | Atención estándar PyTorch (por defecto para algunos modelos) |
sdpa | Scaled Dot Product Attention (PyTorch 2.0+) |
flash_attention_2 | Flash Attention 2 (más rápido, requiere flash-attn) |
Compatibilidad de Modelos
Modelos Soportados
| Familia de Modelo | Flash Attention 2 | Notas |
|---|---|---|
| Llama | Sí | Soporte completo |
| Mistral | Sí | Soporte completo |
| Qwen | Sí | Soporte completo |
| Phi | Sí | Soporte completo |
| Gemma | No | Usa atención eager |
Con Cuantización
Combina Flash Attention con cuantización para máxima eficiencia:Con Sequence Packing
Flash Attention permite sequence packing eficiente:Sequence packing requiere que Flash Attention esté habilitado.
Beneficios de Rendimiento
| Configuración | Memoria | Velocidad |
|---|---|---|
| Atención estándar | Línea base | Línea base |
| SDPA | ~15% menos | ~20% más rápido |
| Flash Attention 2 | ~40% menos | ~2x más rápido |
Solución de Problemas
Errores de Instalación
Sipip install flash-attn falla:
Errores de Runtime
“Flash Attention no está disponible”- Verifica que flash-attn está instalado:
python -c "import flash_attn" - Asegúrate de estar en Linux con CUDA
- Verifica capacidad de computación de GPU (requiere SM 80+, ej: A100, H100)
- Algunos modelos (como Gemma) fuerzan atención eager
- Verifica documentación del modelo para compatibilidad
Próximos Pasos
Quantization
Combina con optimización de memoria
LoRA/PEFT
Fine-tuning eficiente