Documentation Index
Fetch the complete documentation index at: https://docs.monostate.ai/llms.txt
Use this file to discover all available pages before exploring further.
Modo de Inferencia
Ejecuta inferencia usando tus modelos entrenados desde el CLI.Inferencia LLM
Uso Básico
Múltiples Prompts
Separados por comas:Parámetros de Generación
Parameters
| Parameter | Description | Default |
|---|---|---|
--inference-prompts | Prompts (text or file path) | Required |
--inference-max-tokens | Max tokens to generate | 256 |
--inference-temperature | Sampling temperature | 1.0 |
--inference-top-p | Nucleus sampling | 1.0 |
--inference-top-k | Top-k sampling | 50 |
--inference-output | Output file path | Auto |
Los valores predeterminados de CLI vs Chat UI difieren: CLI usa temperature=1.0 y top_p=1.0 para salida más determinística, mientras que Chat UI usa temperature=0.7 y top_p=0.95 por defecto para conversación más natural.
Salida
Los resultados se guardan en JSON:Interfaz de Chat
Para pruebas interactivas, usa la interfaz de Chat:http://localhost:7860/inference en tu navegador. El Chat UI te permite cargar y probar cualquier modelo local o del Hub de forma interactiva.
Usando Modelos del Hub
Prueba modelos de Hugging Face directamente:Inferencia via API
La API de AITraining proporciona endpoints de inferencia por lotes:Solicitud de Inferencia por Lotes
Parámetros de la API
| Parameter | Description | Default |
|---|---|---|
model_path | Path to model | Required |
prompts | List of prompts | Required |
max_new_tokens | Max tokens to generate | 100 |
temperature | Sampling temperature | 0.7 |
top_p | Nucleus sampling | 0.95 |
top_k | Top-k sampling | 50 |
do_sample | Use sampling | True |
device | Device to use (cuda/cpu) | Auto |
Los valores predeterminados de la API difieren del CLI: La API usa max_new_tokens=100 (no 256) y temperature=0.7 (no 1.0) por defecto.
Inferencia por Lotes
Ejemplo de Script
Consejos de Rendimiento
Aceleración GPU
Asegúrate de que CUDA esté disponible:Optimización de Memoria
Para modelos grandes:Procesamiento por Lotes
Para muchos prompts, el procesamiento por lotes es más rápido:Próximos Pasos
Servir Modelos
Servir modelos como API
Interfaz de Chat
Pruebas interactivas