Documentation Index
Fetch the complete documentation index at: https://docs.monostate.ai/llms.txt
Use this file to discover all available pages before exploring further.
Tareas de Visión
Entrena modelos para clasificación de imagen, detección de objetos y tareas visión-lenguaje.
Clasificación de Imagen
Inicio Rápido
aitraining image-classification \
--model google/vit-base-patch16-224 \
--data-path ./images/ \
--project-name image-classifier
Parameters
| Parameter | Description | Default |
|---|
--model | Base model | google/vit-base-patch16-224 |
--data-path | Path to image folder | None (required) |
--project-name | Output directory | project-name |
--image-column | Image column name | image |
--target-column | Label column name | target |
--epochs | Training epochs | 3 |
--batch-size | Batch size | 8 |
--lr | Learning rate | 5e-5 |
Estructura de carpetas:
images/
├── cat/
│ ├── cat1.jpg
│ └── cat2.jpg
├── dog/
│ ├── dog1.jpg
│ └── dog2.jpg
Or CSV with paths:
image,label
/path/to/cat1.jpg,cat
/path/to/dog1.jpg,dog
Ejemplo: Clasificador Personalizado
aitraining image-classification \
--model microsoft/resnet-50 \
--data-path ./product_images/ \
--project-name product-classifier \
--epochs 10 \
--batch-size 32 \
--lr 5e-5
Regresión de Imagen
Para predecir valores continuos a partir de imágenes.
Inicio Rápido
aitraining image-regression \
--model google/vit-base-patch16-224 \
--data-path ./images.csv \
--image-column image \
--target-column score \
--project-name quality-scorer
Parameters
| Parameter | Description | Default |
|---|
--model | Base model | google/vit-base-patch16-224 |
--data-path | Path to data | None (required) |
--project-name | Output directory | project-name |
--image-column | Image column name | image |
--target-column | Target value column | target |
--epochs | Training epochs | 3 |
--batch-size | Batch size | 8 |
--lr | Learning rate | 5e-5 |
Ejemplo: Predicción de Edad
aitraining image-regression \
--model microsoft/resnet-50 \
--data-path ./faces.csv \
--image-column photo \
--target-column age \
--project-name age-predictor \
--epochs 20
Detección de Objetos
Inicio Rápido
aitraining object-detection \
--model facebook/detr-resnet-50 \
--data-path ./coco_format/ \
--project-name detector
COCO-style format:
{
"image": "image.jpg",
"objects": {
"bbox": [[x, y, width, height], ...],
"categories": [0, 1, ...]
}
}
Parameters
| Parameter | Description | Default |
|---|
--image-column | Image column | image |
--objects-column | Objects column | objects |
--image-square-size | Square size for images | 600 |
Ejemplo: Detección Personalizada
aitraining object-detection \
--model facebook/detr-resnet-50 \
--data-path ./annotations/ \
--project-name custom-detector \
--epochs 50 \
--batch-size 8
Modelos Visión-Lenguaje (VLM)
Entrena modelos que entienden tanto imágenes como texto.
Inicio Rápido
aitraining vlm \
--model google/paligemma-3b-pt-224 \
--data-path ./image_captions.jsonl \
--project-name vlm-model
{
"image": "image.jpg",
"conversations": [
{"role": "user", "content": "What's in this image?"},
{"role": "assistant", "content": "A cat sitting on a couch."}
]
}
Parameters
| Parameter | Description | Default |
|---|
--model | Base model | google/paligemma-3b-pt-224 |
--image-column | Image column | image |
--text-column | Text/answer column | text |
--prompt-text-column | Prompt/prefix column | prompt |
--trainer | Training mode (vqa, captioning, segmentation, detection) | vqa |
--epochs | Training epochs | 3 |
--batch-size | Batch size | 2 |
--lr | Learning rate | 5e-5 |
--gradient-accumulation | Gradient accumulation steps | 4 |
--peft | Enable LoRA | False |
--lora-r | LoRA rank | 16 |
--lora-alpha | LoRA alpha | 32 |
Ejemplo: Generación de Subtítulos de Imagen
aitraining vlm \
--model Qwen/Qwen2-VL-2B-Instruct \
--data-path ./captions.jsonl \
--project-name captioner \
--epochs 3 \
--batch-size 2 \
--peft \
--lora-r 16
Modelos Comunes
Clasificación de Imagen
| Model | Parameters | Best For |
|---|
google/vit-base-patch16-224 | 86M | General purpose |
microsoft/resnet-50 | 25M | Fast inference |
facebook/convnext-base-224 | 89M | High accuracy |
Detección de Objetos
| Model | Parameters | Best For |
|---|
facebook/detr-resnet-50 | 41M | General detection |
facebook/detr-resnet-101 | 60M | Higher accuracy |
Visión-Lenguaje
| Model | Parameters | Best For |
|---|
Qwen/Qwen2-VL-2B-Instruct | 2B | Balanced |
llava-hf/llava-1.5-7b-hf | 7B | High quality |
Consejos de Memoria GPU
- Usa tamaños de batch más pequeños para imágenes grandes
- Habilita gradient checkpointing para VLMs
- Usa LoRA para entrenamiento VLM:
aitraining vlm \
--model Qwen/Qwen2-VL-2B-Instruct \
--data-path ./data.jsonl \
--project-name vlm \
--peft \
--lora-r 16 \
--batch-size 1 \
--gradient-accumulation 8
Próximos Pasos
Tareas de Texto
Clasificación de texto y NER
Datos Tabulares
Entrenar en datos estructurados