infi Começar grátis
5 Modelos de Precificacao para Agentes de IA que Realmente Funcionam
Precificacao IA Agentes Estrategia Monetizacao

5 Modelos de Precificacao para Agentes de IA que Realmente Funcionam

Descubra qual modelo de pricing funciona melhor para seu agente: per-token, per-request, tiered, credit-based ou hybrid.

E
Equipe Infi Pulse · · 6 min de leitura

Definir o preco certo para um agente de IA e um dos desafios mais subestimados por developers. Cobre demais e ninguem usa. Cobre de menos e voce paga pra trabalhar.

Vamos analisar 5 modelos que empresas reais estao usando com sucesso.

Antes de Tudo: Entenda seus Custos

Antes de definir qualquer preco, calcule seu custo por request:

Custo por request =
  Custo de tokens (input + output) +
  Custo de infra (hosting/request) +
  Custo de contexto (embeddings, RAG) +
  Margem de erro (10-20%)

Exemplo para um chatbot com GPT-4o:
- Input: ~800 tokens * $0.0025/1K = $0.002
- Output: ~400 tokens * $0.01/1K = $0.004
- Infra: ~$0.001/request
- Contexto (RAG): ~$0.001/request
= $0.008 por request

Com esse custo base, vamos aos modelos.

1. Per-Token Pricing

Como funciona: Cobra diretamente pela quantidade de tokens consumidos.

Quem usa: OpenAI, Anthropic, Google AI

Exemplo:
- Input tokens: $0.005 / 1K tokens
- Output tokens: $0.015 / 1K tokens

Usuario que consome 100K input + 30K output/mes:
= (100 * $0.005) + (30 * $0.015) = $0.50 + $0.45 = $0.95/mes

Pros:

  • Alinhamento perfeito entre uso e custo
  • Transparente: usuario sabe exatamente pelo que paga
  • Escala naturalmente com o uso

Contras:

  • Dificil de prever custo (para o usuario)
  • Pode desencorajar uso (medo de conta alta)
  • Requer tracking preciso de tokens

Ideal para: APIs, plataformas developer-focused, alto volume.

Implementacao com Infinitum:

import { Pulse } from '@beinfi/pulse-sdk'
import { pulseMiddleware } from '@beinfi/pulse-sdk/ai'

const pulse = new Pulse(process.env.PULSE_API_KEY!)

// Crie meters separados para input e output
const middleware = pulseMiddleware({
  pulse,
  customerId: user.id,
  meters: {
    input: 'input_tokens',   // $0.005/1K
    output: 'output_tokens', // $0.015/1K
  },
})

2. Per-Request Pricing

Como funciona: Cobra um valor fixo por chamada, independente do tamanho.

Quem usa: Muitos wrappers de IA, chatbots verticais

Exemplo:
- $0.05 por mensagem
- ou $0.10 por analise de documento
- ou $1.00 por geracao de relatorio

Usuario que faz 200 requests/mes:
= 200 * $0.05 = $10/mes

Pros:

  • Simples de entender
  • Previsivel para o usuario
  • Facil de implementar

Contras:

  • Requests curtos e longos custam igual (injusto)
  • Pode ter margem negativa em requests pesados
  • Menos granular

Ideal para: Produtos consumer, chatbots simples, acoes discretas.

Implementacao com Infinitum:

// Tracking por request (valor fixo por chamada)
const pulse = new Pulse(process.env.PULSE_API_KEY!)

// Apos cada request:
await pulse.metering.track({
  meterId: 'requests',
  customerId: user.id,
  value: 1,
})

3. Tiered Pricing (Planos com Limites)

Como funciona: Planos fixos com limites de uso. Excedente cobrado a parte.

Quem usa: ChatGPT Plus, Jasper, Copy.ai

Exemplo:
┌────────────┬──────────┬───────────────┬────────────┐
│ Plano      │ Preco    │ Limite        │ Excedente  │
├────────────┼──────────┼───────────────┼────────────┤
│ Free       │ $0       │ 50 msgs/dia   │ Bloqueado  │
│ Pro        │ $20/mes  │ 2.000 msgs    │ $0.02/msg  │
│ Business   │ $99/mes  │ 15.000 msgs   │ $0.01/msg  │
│ Enterprise │ Custom   │ Ilimitado     │ N/A        │
└────────────┴──────────┴───────────────┴────────────┘

Pros:

  • Familiar: usuarios entendem planos
  • Receita previsivel (base fixa + upside)
  • Upsell natural (free -> pro -> business)
  • Facil de comunicar em landing page

Contras:

  • Complexidade na logica de billing
  • Usuarios ficam frustrados ao bater limite
  • Precisa definir limites “certos” (tentativa e erro)

Ideal para: Produtos B2C, SaaS com crescimento por planos, apps com freemium.

4. Credit-Based Pricing

Como funciona: Usuario compra creditos upfront e gasta conforme usa.

Quem usa: Midjourney, RunwayML, muitos apps de IA generativa

Exemplo:
- Pack Starter: 500 creditos por $10
- Pack Pro: 2.500 creditos por $40 (desconto 20%)
- Pack Business: 10.000 creditos por $120 (desconto 40%)

Custos por acao:
- Mensagem simples: 1 credito
- Analise de documento: 5 creditos
- Geracao de imagem: 10 creditos
- Relatorio completo: 25 creditos

Pros:

  • Cash flow positivo (usuario paga antes de usar)
  • Gamificacao natural (creditos restantes)
  • Flexivel: diferentes acoes custam creditos diferentes
  • Sem surpresa na fatura

Contras:

  • Pode parecer manipulativo (ofuscacao de preco real)
  • Creditos expirados = frustacao
  • Mais complexo de implementar que per-token

Ideal para: Produtos visuais/criativos, apps mobile, mercado consumer.

5. Hybrid Pricing (Base + Usage)

Como funciona: Assinatura mensal fixa + cobranca por uso excedente.

Quem usa: Vercel, AWS, a maioria dos provedores cloud

Exemplo:
- Base: $29/mes (inclui 1M tokens)
- Excedente input: $0.003/1K tokens
- Excedente output: $0.008/1K tokens

Usuario medio (1.5M tokens/mes):
= $29 + (500K * $0.005/1K) = $29 + $2.50 = $31.50/mes

Heavy user (10M tokens/mes):
= $29 + (9M * $0.005/1K) = $29 + $45 = $74/mes

Pros:

  • Receita base previsivel
  • Upside ilimitado com heavy users
  • Justo: quem usa mais, paga mais
  • Melhor LTV que pure usage-based

Contras:

  • Mais complexo de comunicar
  • Precisa definir “included usage” certo
  • Invoice pode variar (incomodo para alguns)

Ideal para: SaaS B2B, plataformas developer, produtos com uso variavel.

Qual Modelo Escolher?

Fluxograma rapido:

Seu produto e uma API?
  → Sim → Per-Token Pricing
  → Nao ↓

Seus usuarios sao developers?
  → Sim → Hybrid Pricing (base + usage)
  → Nao ↓

Seu produto tem acoes discretas (gerar imagem, analisar doc)?
  → Sim → Credit-Based
  → Nao ↓

Voce quer simplicidade maxima?
  → Sim → Tiered Pricing com planos
  → Nao → Per-Request Pricing

Benchmarks de Preco por Vertical

┌────────────────────────┬──────────────────┬─────────────┐
│ Vertical               │ Modelo Comum     │ ARPU Medio  │
├────────────────────────┼──────────────────┼─────────────┤
│ AI Chatbot (B2C)       │ Tiered/Credits   │ $15-30/mes  │
│ AI Coding Assistant    │ Hybrid           │ $20-50/mes  │
│ AI Writing Tool        │ Credits          │ $25-60/mes  │
│ AI Data Analysis       │ Per-request      │ $50-200/mes │
│ AI API Platform        │ Per-token        │ $100-1K/mes │
│ AI Customer Support    │ Hybrid           │ $200-500/mes│
└────────────────────────┴──────────────────┴─────────────┘

Dicas Finais

  1. Comece simples: Per-token ou per-request. Voce sempre pode complicar depois.
  2. Free tier generoso: Deixe as pessoas experimentarem antes de pagar.
  3. Transparencia: Mostre exatamente como o preco e calculado.
  4. Monitore margem: Revise precos mensalmente vs custo real dos providers.
  5. A/B teste: Teste modelos diferentes com cohorts pequenos antes de escalar.

O modelo de precificacao certo pode ser a diferenca entre um side project e um negocio de $1M ARR.

Pronto para transformar seus dados?

A infi ajuda você a tomar decisões mais inteligentes com dados em tempo real.

Começar grátis