Documentation Index
Fetch the complete documentation index at: https://docs.monostate.ai/llms.txt
Use this file to discover all available pages before exploring further.
Modo de Inferência
Execute inferência usando seus modelos treinados a partir do CLI.Inferência LLM
Uso Básico
Múltiplos Prompts
Separados por vírgula:Parâmetros de Geração
Parameters
| Parameter | Description | Default |
|---|---|---|
--inference-prompts | Prompts (text or file path) | Required |
--inference-max-tokens | Max tokens to generate | 256 |
--inference-temperature | Sampling temperature | 1.0 |
--inference-top-p | Nucleus sampling | 1.0 |
--inference-top-k | Top-k sampling | 50 |
--inference-output | Output file path | Auto |
Padrões CLI vs Chat UI diferem: CLI usa temperature=1.0 e top_p=1.0 para saída mais determinística, enquanto o Chat UI usa temperature=0.7 e top_p=0.95 por padrão para conversação mais natural.
Saída
Os resultados são salvos em JSON:Interface de Chat
Para testes interativos, use a interface de Chat:http://localhost:7860/inference no seu navegador. O Chat UI permite carregar e testar qualquer modelo local ou do Hub interativamente.
Usando Modelos do Hub
Teste modelos do Hugging Face diretamente:Inferência via API
A API do AITraining fornece endpoints de inferência em lote:Requisição de Inferência em Lote
Parâmetros da API
| Parameter | Description | Default |
|---|---|---|
model_path | Path to model | Required |
prompts | List of prompts | Required |
max_new_tokens | Max tokens to generate | 100 |
temperature | Sampling temperature | 0.7 |
top_p | Nucleus sampling | 0.95 |
top_k | Top-k sampling | 50 |
do_sample | Use sampling | True |
device | Device to use (cuda/cpu) | Auto |
Padrões da API diferem do CLI: A API usa max_new_tokens=100 (não 256) e temperature=0.7 (não 1.0) por padrão.
Inferência em Lote
Exemplo de Script
Dicas de Performance
Aceleração GPU
Certifique-se de que CUDA está disponível:Otimização de Memória
Para modelos grandes:Processamento em Lote
Para muitos prompts, o processamento em lote é mais rápido:Próximos Passos
Servir Modelos
Servir modelos como API
Interface de Chat
Testes interativos