Novo Austral 1 — 70B parâmetros · 1M de contexto

Modelos de IA de fronteira
para tudo que você imaginar.

Raciocínio, código, voz e imagens — com entrada de vídeo e 1 milhão de tokens de contexto. Treinado no maior supercomputador do Hemisfério Sul, com fluência nativa na nossa língua e cultura.

Conversar com o Austral Acessar API
quasar/austral

Conheça o Austral.
O modelo de fronteira da Quasar.

A Quasar é a plataforma brasileira de IA. O Austral é a nossa família de modelos — e o Austral 1 é o modelo principal: multimodal de verdade, focado em raciocínio, código, contexto longo e o melhor preço/performance da categoria.

Austral 1

Modelo atual

Entende texto, imagem, voz e vídeo. Gera texto, imagens e voz — tudo em um único modelo de 70B parâmetros com 1 milhão de tokens de contexto.

Entrada T
Saída T

O Austral 1 gera imagens nativamente, mas ainda não gera vídeos — geração de vídeo chega com o Austral 1.5, o próximo modelo da família.

Raciocínio

Pensamento profundo para problemas complexos, matemática e análise multi-etapas.

Código

Geração e revisão de código em nível expert, de scripts a sistemas completos.

Contexto longo

1 milhão de tokens: livros inteiros, codebases completos e históricos extensos.

Preço/performance

Atenção esparsa proprietária: 1/20 do custo por token, sem abrir mão de qualidade.

Modelos e ferramentas
para cada necessidade.

Do modelo mais leve ao nosso flagship de 70B parâmetros. A família Austral cobre desde prototipação rápida até sistemas de produção de escala planetária.

Austral 0.5

12B parâmetros · 128K contexto

O equilíbrio perfeito entre performance e custo. Ideal para agentes, aplicações e workflows que exigem raciocínio consistente.

  • Supera Qwen 3.6 27B MoE
  • Raciocínio e coding aprimorados
  • Multilíngue com foco em português
Ver preços

Austral 0.1

4B parâmetros · 32K contexto

Compacto e surpreendentemente capaz. Inferência ultra-rápida, perfeito para edge computing e tarefas leves em tempo real.

  • Próximo ao Qwen 3.6 8B
  • Inferência local eficiente
  • Compreensão profunda de português
Ver preços

Quasar Voice

Síntese e reconhecimento de voz

Voz natural em português brasileiro. Conversação em tempo real com expressividade, baixa latência e suporte a sotaques regionais.

  • Português brasileiro nativo
  • Latência <200ms
  • Conversação em tempo real
Conhecer

Quasar API

API unificada para todos os modelos

Uma única API para texto, código, voz e imagens — com entrada de vídeo. SDKs para Python, TypeScript e Go. Comece em minutos.

  • API REST e streaming
  • SDKs oficiais
  • 99.9% SLA
Documentação

Quasar Agents

Agentes autônomos de IA

Agentes que planejam, executam e iteram. Navegação web, execução de código, análise de documentos e orquestração de tarefas complexas.

  • Planejamento e execução autônoma
  • Tool use e function calling
  • Contexto longo para tarefas complexas
Começar

A voz da inteligência
artificial brasileira.

Conversação natural em português brasileiro. Expressiva, rápida e profundamente fluente na nossa cultura.

Português nativo

Treinado em centenas de horas de áudio brasileiro. Compreensão natural de sotaques, gírias e expressões regionais.

Tempo real

Latência abaixo de 200ms. Conversação fluida e natural, sem pausas artificiais ou atrasos perceptíveis.

Fala expressiva

Entonação, emoção e ênfase naturais. Não é uma voz robótica — é uma experiência de conversação humana.

Casos de uso

Atendimento ao cliente, educação, assistentes pessoais, agentes de vendas e acessibilidade. Pronto para produção.

Atenção esparsa de
próxima geração.

O Austral 1 utiliza uma arquitetura de atenção esparsa proprietária que permite processar 1 milhão de tokens de contexto com eficiência sem precedentes.

1/20× Custo por token vs. geração anterior
Speedup no prefilling
15× Speedup na decodificação
1M Tokens de contexto
Austral Sparse Attention — GQA-based Attention Block
Hidden States
Index Branch
Idx KV
Block Max Pool
Top-K Selection
Sparse Branch
Query Groups
Blocked KV
Selected blocks only
SparseAttn(Q, K[I], V[I])
Output Projection
Sparse Attn Output

O custo computacional por token é apenas 1/20 do modelo da geração anterior. Alcançamos um speedup de mais de no estágio de prefilling e mais de 15× no estágio de decodificação.

Em múltiplas ablações, nosso sistema de atenção esparsa igualou a atenção completa na vasta maioria das capacidades — mantendo performance superior em raciocínio, coding e compreensão de contexto longo, com uma fração do custo computacional.

Benchmarks que
falam por si.

O Austral 1 é competitivo com os melhores modelos do mundo — e líder absoluto em português e eficiência de custo.

Coding LiveCodeBench

Austral 1 — 70B
89.2
Claude 3.5 Sonnet
88.4
GPT-4o
87.1
Mistral Medium 3.5 128B
85.7
Llama 3.1 70B
80.5

Português PT-Bench Interno

Austral 1 — 70B
94.1
GPT-4o
82.6
Claude 3.5 Sonnet
80.1
Mistral Medium 3.5 128B
78.3
Llama 3.1 70B
71.2

Contexto longo RULER 128K

Austral 1 — 70B
91.8
Claude 3.5 Sonnet
88.9
GPT-4o
86.4
Mistral Medium 3.5 128B
83.2
Llama 3.1 70B
79.1

Raciocínio MATH-500

GPT-4o
84.7
Claude 3.5 Sonnet
83.2
Austral 1 — 70B
82.4
Mistral Medium 3.5 128B
80.1
Llama 3.1 70B
73.8

Resultados de avaliações internas. Benchmarks conduzidos nas mesmas condições para todos os modelos. Valores sujeitos a variação em diferentes configurações.

IA que resolve
problemas reais.

Do atendimento ao cliente até análise de documentos complexos. O Austral está pronto para ser integrado aos seus workflows de produção.

Atendimento ao cliente

Resolução inteligente de tickets, chatbots naturais e triagem automática. Compreensão profunda de contexto e tom em português.

Assistentes de código

Geração, revisão e refatoração de código. Debugging inteligente e agentes que executam tarefas de engenharia de ponta a ponta.

Pesquisa

Análise de papers, síntese de informações e extração de insights de grandes volumes de texto. 1M de contexto para documentos extensos.

Educação

Tutoria personalizada, geração de conteúdo didático e avaliação inteligente. Fluência total no português acadêmico brasileiro.

Automação enterprise

Workflows inteligentes, processamento de documentos e orquestração de tarefas. Integração via API com seus sistemas existentes.

Análise de documentos

Extração, classificação e sumarização de documentos. Contratos, relatórios, jurisprudência — com contexto de 1M de tokens.

Agentes de contexto longo

Agentes que mantêm contexto de sessões inteiras. Análise de codebases completos, históricos de conversação e bases de conhecimento.

IA Portuguese-first

Workflows nativamente em português. Compliance com LGPD, processamento de dados no Brasil e suporte à cultura lusófona.

Uma API.
Todas as modalidades.

Texto, código, voz e imagens — com entrada de vídeo — tudo por uma única API unificada. Comece a construir em minutos.

from quasar import Quasar

client = Quasar(
    api_key=os.getenv("QUASAR_API_KEY")
)

response = client.chat.completions.create(
    model="austral-1",
    messages=[
        {"role": "user", "content": "Explique computação quântica em termos simples."}
    ],
    max_tokens=4096,
    context_window=1_000_000  # 1M context
)

print(response.choices[0].message.content)

Modelos disponíveis

Modelo Parâmetros Contexto Input / 1M tokens Output / 1M tokens Ideal para
austral-1 70B 1.000.000 $0,08 $0,32 Raciocínio, coding, multimodal, contexto longo
austral-0.5 12B 128.000 $0,03 $0,12 Agentes, apps, workflows
austral-0.1 4B 32.000 $0,01 $0,04 Tarefas leves, edge, tempo real
quasar-voice $0,02/min $0,06/min STT, TTS, conversação <200ms

SDKs oficiais

Bibliotecas nativas para Python, TypeScript e Go com tipos completos, streaming e tratamento de erros.

pip install quasar-ai

Rate limits

Free: 10 req/min · Pro: 100 req/min · Enterprise: ilimitado. Streaming em todos os planos.

Consulte a documentação para limites por modelo

Documentação

Guias completos, referência de API, exemplos e cookbook. Tudo em português e inglês.

Abrir docs →

Simples, transparente
e drasticamente mais barato.

A eficiência da atenção esparsa vira economia real: preço por token até 25× menor que modelos frontier equivalentes, sem abrir mão de capacidade.

Grátis

R$0/mês

Para explorar e prototipar.

  • 10 mensagens/dia
  • Acesso ao Austral 0.1
  • 32K contexto
  • Comunidade
Começar grátis

Team

R$99/membro/mês

Para times e startups.

  • Tudo do Pro
  • Workspace compartilhado
  • Admin e permissões
  • Uso consolidado
  • Suporte prioritário
Começar trial

Enterprise

Sob consulta

Para grandes organizações.

  • Deploy customizado
  • SLA 99.99%
  • Fine-tuning dedicado
  • Suporte 24/7
  • Compliance LGPD
  • On-premise disponível
Falar com vendas

Preços da API

Pay-as-you-go. Sem compromisso mínimo. A arquitetura de atenção esparsa do Austral 1 entrega preço por token até 25× menor que modelos frontier equivalentes.

Austral 0.1

4B · 32K contexto

$0,01/1M input
$0,04/1M output

Tarefas leves, classificação, extração rápida, inferência local

Austral 0.5

12B · 128K contexto

$0,03/1M input
$0,12/1M output

Agentes, aplicações, workflows de produção, RAG

Quasar Voice

STT + TTS · <200ms latência

$0,02/min entrada
$0,06/min saída

Conversação em tempo real, atendimento por voz, acessibilidade

A evolução
da família Austral.

De um modelo compacto de 4B parâmetros ao primeiro modelo brasileiro de 70B. Nossa jornada para construir a IA soberana do Brasil.

Roadmap Próximo lançamento · 2026

Austral 1.5

O próximo salto da família Austral: um modelo de 480B parâmetros com entrada multimodal completa e geração nativa de imagem e vídeo — competitivo de ponta a ponta, não apenas em código.

480B parâmetros Geração de vídeo Geração de imagem Input multimodal completo
  • Raciocínio, visão e uso em agentes significativamente melhores
  • Coding de fronteira — meta de 1.5× a 2× o Qwen 3 Coder 480B
  • Capacidades gerais equilibradas: multimodalidade, agentes e português
Junho 2026

Austral 1 — O primeiro modelo brasileiro de 70B

O Austral 1 é o nosso primeiro modelo de 70 bilhões de parâmetros e o primeiro modelo brasileiro nesta escala. Projetado para contexto longo, alta performance em coding e inferência eficiente, o Austral 1 representa um marco na soberania computacional brasileira.

70B parâmetros
1M tokens de contexto
Sparse Attention proprietária

• Multimodal: entende texto, imagem, voz e vídeo; gera texto, imagens e voz

• Atenção esparsa com 1/20 do custo computacional por token

• Performance de coding superior ao Mistral Medium 3.5 128B

• Melhor modelo do mundo em benchmarks de português

• Melhor relação preço/performance entre modelos frontier

Março 2026

Austral 0.5 — O modelo intermediário que surpreendeu

Com 12 bilhões de parâmetros, o Austral 0.5 trouxe melhorias significativas em raciocínio, coding e performance multilíngue. Um modelo compacto que superou competidores com o dobro de parâmetros.

12B parâmetros
128K contexto
Supera Qwen 3.6 27B MoE

• Raciocínio e coding significativamente aprimorados vs. Austral 0.1

• Performance multilíngue expandida — português, espanhol, inglês

• Comportamento de contexto longo melhorado (128K tokens)

• Mais eficiente que versões anteriores em throughput/watt

• Supera o Qwen 3.6 27B MoE em benchmarks internos

Janeiro 2026

Austral 0.1 — O começo de tudo

O primeiro modelo da família Austral. Com apenas 4 bilhões de parâmetros, mostrou ao mundo que o Brasil pode construir modelos de linguagem competitivos. Pequeno, mas surpreendentemente capaz.

4B parâmetros
32K contexto
Próximo ao Qwen 3.6 8B

• Primeiro LLM brasileiro competitivo em escala global

• Próximo ao Qwen 3.6 8B em avaliações internas selecionadas

• Compreensão profunda de português — gírias, regionalismos, contexto cultural

• Inferência local eficiente — roda em hardware acessível

• Base para toda a arquitetura da família Austral

Construindo o futuro da
inteligência artificial brasileira.

A Quasar é um laboratório brasileiro de inteligência artificial focado em construir modelos de fronteira eficientes, com inteligência nativa em português e sistemas de contexto longo. Nossa missão é democratizar o acesso a infraestrutura de IA avançada para toda a América Latina.

Modelos de fronteira eficientes

Não acreditamos que maior é sempre melhor. Construímos modelos que maximizam performance por watt e por dólar, usando arquiteturas como atenção esparsa para entregar mais com menos.

Português em primeiro lugar

Nossos modelos são treinados com dados de qualidade em português desde o início — não são traduções ou adaptações de modelos em inglês. A fluência é nativa, não aprendida depois.

Sistemas de contexto longo

1 milhão de tokens de contexto não é só um número. É a capacidade de processar livros inteiros, codebases completos e históricos de conversação sem perder informação.

IA acessível para a América Latina

Infraestrutura de IA de classe mundial não deveria ser exclusividade do Vale do Silício. Estamos construindo o ecossistema que permite ao Brasil e à América Latina competir de igual para igual.

1M+Desenvolvedores
<100msLatência P50
5+Modalidades
70BParâmetros
200KEmpresas