Documentation Index
Fetch the complete documentation index at: https://docs.monostate.ai/llms.txt
Use this file to discover all available pages before exploring further.
Métricas de Evaluación
No puedes mejorar lo que no mides. Aquí está cómo decir si tu modelo está realmente funcionando.Métricas de Clasificación
Accuracy
La métrica más simple - ¿qué porcentaje acertaste?Precision & Recall
Precision: De las que predijiste como positivas, ¿cuántas eran realmente positivas? Recall: De todas las positivas reales, ¿cuántas encontraste? Ejemplo para detección de spam:- Precision: De los emails marcados como spam, ¿cuántos eran realmente spam?
- Recall: De todos los emails spam, ¿cuántos atrapaste?
F1 Score
Combina precision y recall en un número.Métricas de Generación
Perplexity
Qué tan sorprendido está el modelo por los datos de prueba. Menor es mejor.- Modelo bueno: Perplexity = 10-50
- Modelo malo: Perplexity = 100+
BLEU Score
Compara texto generado con texto de referencia. Usado para traducción, resumen.- BLEU = 0: Sin superposición
- BLEU = 1: Coincidencia perfecta
- BLEU > 0.3: Generalmente decente
Evaluación Humana
A veces la mejor métrica es preguntar a humanos:- ¿Esta respuesta es útil?
- ¿Este resumen captura los puntos principales?
- ¿Esta traducción es natural?
Curvas de Loss
Training Loss vs Validation Loss
Observa ambos durante el entrenamiento: Patrón bueno:- Ambos disminuyen
- Permanecen cerca
- Se estabilizan eventualmente
- Training loss sigue cayendo
- Validation loss aumenta
- Brecha se amplía
- Ambos permanecen altos
- Poca mejora
- Necesita más capacidad o datos
Métricas Específicas por Tarea
Image Classification
- Top-1 Accuracy: La clase correcta es la predicción principal
- Top-5 Accuracy: La clase correcta en las top 5 predicciones
- Confusion Matrix: Ve qué clases se confunden
Object Detection
- mAP (mean Average Precision): Calidad general de detección
- IoU (Intersection over Union): Qué tan bien se superponen las cajas
NER/Token Classification
- F1 a nivel de entidad: Entidades completas correctas
- Accuracy a nivel de token: Tokens individuales correctos
Referencia Rápida
| Tarea | Métrica Principal | Buena Puntuación |
|---|---|---|
| Clasificación Binaria | F1 Score | > 0.8 |
| Clasificación Multi-clase | Accuracy | > 0.9 |
| Generación | Perplexity | < 50 |
| Traducción | BLEU | > 0.3 |
| Resumen | ROUGE | > 0.4 |
| Q&A | Exact Match | > 0.7 |
Evaluación Mejorada en AITraining
AITraining soporta evaluación mejorada con múltiples métricas integradas y personalizadas.Habilitar Evaluación Mejorada
Métricas Disponibles
| Métrica | Descripción |
|---|---|
perplexity | Incertidumbre del modelo (menor es mejor) |
bleu | Superposición N-gram con referencia |
rouge | Evaluación orientada a recall para resumen |
accuracy | Accuracy de clasificación |
f1 | F1 score para clasificación |
API Python
Métricas Personalizadas
Registra métricas personalizadas para evaluación especializada:Consejos Prácticos
- Siempre usa conjunto de validación - Nunca evalúes en datos de entrenamiento
- Considera la tarea - Accuracy no siempre es mejor
- Observa tendencias - Mejorar es más importante que números absolutos
- Múltiples métricas - Ninguna métrica única cuenta toda la historia
Señales de Alerta
- Accuracy de entrenamiento 100%, validación 60% → Overfitting
- Todas las métricas atascadas → Learning rate podría estar mal
- Métricas saltando alrededor → Batch size demasiado pequeño
- Puntuaciones perfectas inmediatamente → Fuga de datos o bug
Próximos Pasos
Fine-tuning vs Entrenamiento Completo
Elige tu enfoque
Hyperparámetros
Optimiza tus configuraciones