5 Modelos de Precificacao para Agentes de IA que Realmente Funcionam
Descubra qual modelo de pricing funciona melhor para seu agente: per-token, per-request, tiered, credit-based ou hybrid.
Definir o preco certo para um agente de IA e um dos desafios mais subestimados por developers. Cobre demais e ninguem usa. Cobre de menos e voce paga pra trabalhar.
Vamos analisar 5 modelos que empresas reais estao usando com sucesso.
Antes de Tudo: Entenda seus Custos
Antes de definir qualquer preco, calcule seu custo por request:
Custo por request =
Custo de tokens (input + output) +
Custo de infra (hosting/request) +
Custo de contexto (embeddings, RAG) +
Margem de erro (10-20%)
Exemplo para um chatbot com GPT-4o:
- Input: ~800 tokens * $0.0025/1K = $0.002
- Output: ~400 tokens * $0.01/1K = $0.004
- Infra: ~$0.001/request
- Contexto (RAG): ~$0.001/request
= $0.008 por request
Com esse custo base, vamos aos modelos.
1. Per-Token Pricing
Como funciona: Cobra diretamente pela quantidade de tokens consumidos.
Quem usa: OpenAI, Anthropic, Google AI
Exemplo:
- Input tokens: $0.005 / 1K tokens
- Output tokens: $0.015 / 1K tokens
Usuario que consome 100K input + 30K output/mes:
= (100 * $0.005) + (30 * $0.015) = $0.50 + $0.45 = $0.95/mes
Pros:
- Alinhamento perfeito entre uso e custo
- Transparente: usuario sabe exatamente pelo que paga
- Escala naturalmente com o uso
Contras:
- Dificil de prever custo (para o usuario)
- Pode desencorajar uso (medo de conta alta)
- Requer tracking preciso de tokens
Ideal para: APIs, plataformas developer-focused, alto volume.
Implementacao com Infinitum:
import { Pulse } from '@beinfi/pulse-sdk'
import { pulseMiddleware } from '@beinfi/pulse-sdk/ai'
const pulse = new Pulse(process.env.PULSE_API_KEY!)
// Crie meters separados para input e output
const middleware = pulseMiddleware({
pulse,
customerId: user.id,
meters: {
input: 'input_tokens', // $0.005/1K
output: 'output_tokens', // $0.015/1K
},
})
2. Per-Request Pricing
Como funciona: Cobra um valor fixo por chamada, independente do tamanho.
Quem usa: Muitos wrappers de IA, chatbots verticais
Exemplo:
- $0.05 por mensagem
- ou $0.10 por analise de documento
- ou $1.00 por geracao de relatorio
Usuario que faz 200 requests/mes:
= 200 * $0.05 = $10/mes
Pros:
- Simples de entender
- Previsivel para o usuario
- Facil de implementar
Contras:
- Requests curtos e longos custam igual (injusto)
- Pode ter margem negativa em requests pesados
- Menos granular
Ideal para: Produtos consumer, chatbots simples, acoes discretas.
Implementacao com Infinitum:
// Tracking por request (valor fixo por chamada)
const pulse = new Pulse(process.env.PULSE_API_KEY!)
// Apos cada request:
await pulse.metering.track({
meterId: 'requests',
customerId: user.id,
value: 1,
})
3. Tiered Pricing (Planos com Limites)
Como funciona: Planos fixos com limites de uso. Excedente cobrado a parte.
Quem usa: ChatGPT Plus, Jasper, Copy.ai
Exemplo:
┌────────────┬──────────┬───────────────┬────────────┐
│ Plano │ Preco │ Limite │ Excedente │
├────────────┼──────────┼───────────────┼────────────┤
│ Free │ $0 │ 50 msgs/dia │ Bloqueado │
│ Pro │ $20/mes │ 2.000 msgs │ $0.02/msg │
│ Business │ $99/mes │ 15.000 msgs │ $0.01/msg │
│ Enterprise │ Custom │ Ilimitado │ N/A │
└────────────┴──────────┴───────────────┴────────────┘
Pros:
- Familiar: usuarios entendem planos
- Receita previsivel (base fixa + upside)
- Upsell natural (free -> pro -> business)
- Facil de comunicar em landing page
Contras:
- Complexidade na logica de billing
- Usuarios ficam frustrados ao bater limite
- Precisa definir limites “certos” (tentativa e erro)
Ideal para: Produtos B2C, SaaS com crescimento por planos, apps com freemium.
4. Credit-Based Pricing
Como funciona: Usuario compra creditos upfront e gasta conforme usa.
Quem usa: Midjourney, RunwayML, muitos apps de IA generativa
Exemplo:
- Pack Starter: 500 creditos por $10
- Pack Pro: 2.500 creditos por $40 (desconto 20%)
- Pack Business: 10.000 creditos por $120 (desconto 40%)
Custos por acao:
- Mensagem simples: 1 credito
- Analise de documento: 5 creditos
- Geracao de imagem: 10 creditos
- Relatorio completo: 25 creditos
Pros:
- Cash flow positivo (usuario paga antes de usar)
- Gamificacao natural (creditos restantes)
- Flexivel: diferentes acoes custam creditos diferentes
- Sem surpresa na fatura
Contras:
- Pode parecer manipulativo (ofuscacao de preco real)
- Creditos expirados = frustacao
- Mais complexo de implementar que per-token
Ideal para: Produtos visuais/criativos, apps mobile, mercado consumer.
5. Hybrid Pricing (Base + Usage)
Como funciona: Assinatura mensal fixa + cobranca por uso excedente.
Quem usa: Vercel, AWS, a maioria dos provedores cloud
Exemplo:
- Base: $29/mes (inclui 1M tokens)
- Excedente input: $0.003/1K tokens
- Excedente output: $0.008/1K tokens
Usuario medio (1.5M tokens/mes):
= $29 + (500K * $0.005/1K) = $29 + $2.50 = $31.50/mes
Heavy user (10M tokens/mes):
= $29 + (9M * $0.005/1K) = $29 + $45 = $74/mes
Pros:
- Receita base previsivel
- Upside ilimitado com heavy users
- Justo: quem usa mais, paga mais
- Melhor LTV que pure usage-based
Contras:
- Mais complexo de comunicar
- Precisa definir “included usage” certo
- Invoice pode variar (incomodo para alguns)
Ideal para: SaaS B2B, plataformas developer, produtos com uso variavel.
Qual Modelo Escolher?
Fluxograma rapido:
Seu produto e uma API?
→ Sim → Per-Token Pricing
→ Nao ↓
Seus usuarios sao developers?
→ Sim → Hybrid Pricing (base + usage)
→ Nao ↓
Seu produto tem acoes discretas (gerar imagem, analisar doc)?
→ Sim → Credit-Based
→ Nao ↓
Voce quer simplicidade maxima?
→ Sim → Tiered Pricing com planos
→ Nao → Per-Request Pricing
Benchmarks de Preco por Vertical
┌────────────────────────┬──────────────────┬─────────────┐
│ Vertical │ Modelo Comum │ ARPU Medio │
├────────────────────────┼──────────────────┼─────────────┤
│ AI Chatbot (B2C) │ Tiered/Credits │ $15-30/mes │
│ AI Coding Assistant │ Hybrid │ $20-50/mes │
│ AI Writing Tool │ Credits │ $25-60/mes │
│ AI Data Analysis │ Per-request │ $50-200/mes │
│ AI API Platform │ Per-token │ $100-1K/mes │
│ AI Customer Support │ Hybrid │ $200-500/mes│
└────────────────────────┴──────────────────┴─────────────┘
Dicas Finais
- Comece simples: Per-token ou per-request. Voce sempre pode complicar depois.
- Free tier generoso: Deixe as pessoas experimentarem antes de pagar.
- Transparencia: Mostre exatamente como o preco e calculado.
- Monitore margem: Revise precos mensalmente vs custo real dos providers.
- A/B teste: Teste modelos diferentes com cohorts pequenos antes de escalar.
O modelo de precificacao certo pode ser a diferenca entre um side project e um negocio de $1M ARR.
Pronto para transformar seus dados?
A infi ajuda você a tomar decisões mais inteligentes com dados em tempo real.
Começar grátis