Skip to content

Modelos de Fala

O Vox usa os modelos Whisper da OpenAI para reconhecimento de fala local. Este guia explica os modelos disponíveis e como escolher o certo para suas necessidades.

Compreendendo os Modelos de Fala

Tela de Modelos de Fala

Acesse os modelos de fala em Configurações → Fala.

O Que São Modelos Whisper?

Whisper é o sistema de reconhecimento automático de fala (ASR) de código aberto da OpenAI. O Vox executa esses modelos localmente no seu dispositivo, garantindo:

  • Privacidade: O áudio nunca sai do seu dispositivo
  • Capacidade offline: Funciona sem conexão à internet
  • Velocidade: Sem latência de rede
  • Custo: Sem cobranças por minuto

Privacidade em Primeiro Lugar

Todo o reconhecimento de fala acontece no seu dispositivo. Seus dados de voz nunca são enviados a servidores externos (a menos que você ative o Aprimoramento por IA).

Modelos Disponíveis

O Vox oferece cinco variantes do modelo Whisper, cada uma equilibrando velocidade e precisão de forma diferente:

Mais Rápido

Tamanho: ~75MB Velocidade: Menor latência (<50ms) Precisão: Boa para fala clara Melhor para: Comandos rápidos, frases curtas, testes

O menor e mais rápido modelo. Ideal para usuários que priorizam velocidade sobre precisão ou têm espaço em disco limitado.

Rápido

Tamanho: ~150MB Velocidade: Latência muito baixa (~50ms) Precisão: Melhor que Mais Rápido Melhor para: Uso diário com fala clara

Um bom meio-termo entre velocidade e qualidade. Adequado para a maioria das necessidades de transcrição casual.

Equilibrado

Tamanho: ~480MB Velocidade: Recomendado (~480MB) Precisão: Boa precisão para uso geral Melhor para: A maioria dos usuários, transcrição geral

Recomendado para a maioria dos usuários. Fornece excelente precisão para uso diário sem exigir recursos excessivos.

Preciso

Tamanho: ~1,5GB Velocidade: Melhor precisão, latência mais decente (~1,5GB) Precisão: Alta precisão para fala complexa Melhor para: Transcrição profissional, conteúdo técnico, sotaques

Maior precisão para condições de áudio desafiadoras, terminologia técnica e vários sotaques.

Melhor

Tamanho: ~3GB Velocidade: Maior qualidade, CPU significativo (~3GB) Precisão: Precisão máxima Melhor para: Transcrição crítica, multilíngue, ambientes ruidosos

O maior e mais preciso modelo. Use quando a qualidade da transcrição é fundamental e os recursos do sistema permitem.

Baixando Modelos

Configuração Inicial

Modelos Antes do Download

Quando você instala o Vox pela primeira vez, nenhum modelo está baixado. Você deve baixar pelo menos um modelo para usar o Vox.

Para baixar um modelo:

  1. Navegue até Configurações → Fala
  2. Clique em Baixar ao lado do modelo escolhido
  3. Aguarde o download ser concluído
  4. O botão muda para "Baixado" quando estiver pronto

Modelos Baixados

Recomendação de Primeiro Modelo

Comece com Equilibrado para o melhor equilíbrio entre qualidade e desempenho. Você sempre pode baixar modelos adicionais depois.

Baixando Vários Modelos

Você pode baixar vários modelos e alternar entre eles:

  1. Baixe modelos diferentes para casos de uso diferentes
  2. Teste cada modelo com o botão Testar Modelo Local
  3. O Vox usa o modelo atualmente selecionado (marcado com uma marca de seleção)
  4. Alterne entre modelos a qualquer momento sem precisar baixar novamente

Requisitos de Download

  • Conexão à internet: Necessária para download inicial
  • Espaço em disco: Certifique-se de ter espaço suficiente para o modelo escolhido
  • Tempo: Os downloads geralmente levam de 1 a 10 minutos dependendo do tamanho do modelo e velocidade de conexão

Requisitos do Sistema

O Vox tem requisitos de sistema diferentes dependendo do seu sistema operacional:

macOS

RequisitoMínimoRecomendado
Versão do SOmacOS 15 (Sequoia)macOS 15+ (Sequoia ou posterior)
ProcessadorApple Silicon (M1) ou IntelApple Silicon (M2 ou mais recente)
RAM4 GB8 GB ou mais
Armazenamento500 MB - 4 GB4 GB de espaço livre
PermissõesMicrofone + Acessibilidade-

Desempenho no Apple Silicon

O Vox roda significativamente mais rápido no Apple Silicon (M1/M2/M3) comparado aos Macs Intel devido ao suporte otimizado do neural engine.

Windows

RequisitoMínimoRecomendado
Versão do SOWindows 10 (64-bit)Windows 11
ProcessadorProcessador x64Processador multi-core moderno
RAM4 GB8 GB ou mais
Armazenamento500 MB - 4 GB4 GB de espaço livre
PermissõesAcesso ao microfone-

Desempenho no Windows

O desempenho varia baseado no processador. CPUs modernas (Intel 10ª geração+, AMD Ryzen 3000+) oferecem melhor velocidade de transcrição.

Em Breve

Suporte para Linux, iOS e Android está planejado para versões futuras. Ver roadmap →

Testando Modelos

Testar Modelo Local

Após baixar um modelo, verifique se funciona corretamente:

  1. Clique em Testar Modelo Local
  2. Fale uma frase de teste quando solicitado
  3. Revise o resultado da transcrição
  4. Procure pela mensagem de sucesso: "Yeah. This is just a test. I laughing"

O teste verifica:

  • O modelo está devidamente baixado e instalado
  • O pipeline de áudio está funcionando
  • A precisão da transcrição atende às suas necessidades

Teste com Conteúdo Real

Teste com frases similares ao seu caso de uso real (termos técnicos, nomes, etc.) para avaliar a precisão.

Escolhendo o Modelo Certo

Matriz de Decisão

ModeloTamanhoVelocidadePrecisãoMelhor Para
Mais Rápido75MB⚡⚡⚡⚡⚡⭐⭐⭐Testes, comandos simples
Rápido150MB⚡⚡⚡⚡⭐⭐⭐⭐Uso diário, fala clara
Equilibrado480MB⚡⚡⚡⭐⭐⭐⭐Recomendado para a maioria
Preciso1,5GB⚡⚡⭐⭐⭐⭐⭐Trabalho profissional, conteúdo técnico
Melhor3GB⭐⭐⭐⭐⭐Transcrição crítica, áudio complexo

Considere seu Caso de Uso

Escolha Mais Rápido ou Rápido se você:

  • Precisa de resultados de transcrição instantâneos
  • Transcreve frases curtas e simples
  • Tem espaço em disco limitado
  • Fala claramente em ambientes silenciosos

Escolha Equilibrado se você:

  • Quer uma boa experiência geral
  • Transcreve conteúdo tanto curto quanto longo
  • Precisa de precisão confiável sem sacrificar muito a velocidade
  • Não tem certeza qual modelo escolher (comece aqui!)

Escolha Preciso se você:

  • Trabalha com terminologia técnica
  • Fala com sotaque ou em vários idiomas
  • Transcreve em ambientes com ruído de fundo
  • Precisa de alta precisão para trabalho profissional

Escolha Melhor se você:

  • Precisa de precisão máxima de transcrição
  • Trabalha com conteúdo complexo e multilíngue
  • Transcreve documentos críticos ou conteúdo jurídico
  • Tem um computador potente com bastante recursos

Requisitos de Desempenho do Modelo

Todos os modelos funcionam em qualquer computador que executa o Vox, mas o desempenho varia:

Para Mais Rápido, Rápido, Equilibrado:

  • Qualquer Mac de 2018 ou posterior / Qualquer PC Windows moderno
  • 8GB de RAM mínimo
  • Expectativas de desempenho padrão

Para Preciso:

  • Mac de 2020 ou posterior / PC Windows com 8GB+ de RAM recomendado
  • 16GB de RAM recomendado
  • Pode ser mais lento em hardware mais antigo

Para Melhor:

  • Mac com Apple Silicon ou PC Windows moderno com 16GB+ de RAM
  • 16GB+ de RAM recomendado
  • Espere tempo de processamento notável nas transcrições

Vantagem do Apple Silicon

Macs com Apple Silicon (chips M1, M2, M3) executam modelos Whisper significativamente mais rápido que Macs Intel devido ao seu Neural Engine.

Desempenho dos Modelos

Exemplos de Tempo de Processamento

Tempos aproximados de transcrição para uma gravação de 10 segundos:

O desempenho em PCs Windows com especificações equivalentes é comparável.

ModeloIntel Mac (2019)M1/M2 MacM3 Mac
Mais Rápido0,5s0,2s0,1s
Rápido1s0,5s0,3s
Equilibrado2s1s0,5s
Preciso5s2,5s1,5s
Melhor10s4s2s

Os tempos são aproximados e variam com base na complexidade do áudio

Comparação de Precisão

Exemplo de qualidade de transcrição com termos técnicos:

Fala original: "Initialize the TypeScript interface with async await handlers"

ModeloQualidade da Transcrição
Mais Rápido"Initialize the typescript interface with a sync away handlers"
Rápido"Initialize the TypeScript interface with a sync await handlers"
Equilibrado"Initialize the TypeScript interface with async await handlers" ✓
Preciso"Initialize the TypeScript interface with async await handlers" ✓
Melhor"Initialize the TypeScript interface with async await handlers" ✓

Aprimoramento por IA

Para precisão ainda melhor, ative o Aprimoramento por IA para pós-processar transcrições com modelos de linguagem grandes.

Retenção de Áudio

Configuração de Retenção de Áudio

Configure quantas gravações de áudio recentes o Vox mantém em disco:

Padrão: 10 gravações

Por que manter áudio:

  • Revisar transcrições para verificar precisão
  • Testar modelos diferentes no mesmo áudio
  • Adicionar palavras perdidas ao seu dicionário
  • Depurar problemas de transcrição

Ajustar retenção:

  • Aumentar se você frequentemente revisita gravações passadas
  • Diminuir para economizar espaço em disco
  • Defina como 0 para desativar a retenção de áudio completamente

Nota de Privacidade

As gravações de áudio são armazenadas localmente na pasta do aplicativo Vox. Elas nunca são enviadas, a menos que você ative explicitamente os recursos de Aprimoramento por IA.

Alternando Modelos

Você pode alterar qual modelo o Vox usa a qualquer momento:

  1. Navegue até Configurações → Fala
  2. Clique em um modelo baixado diferente
  3. O modelo com uma marca de seleção está ativo
  4. Sua próxima gravação usará o novo modelo

Não é necessário reiniciar - a alteração entra em vigor imediatamente.

Gerenciando Espaço em Disco

Verificando o Armazenamento do Modelo

Os modelos são armazenados em:

~/Library/Application Support/Vox/models/

Removendo Modelos

Para liberar espaço em disco:

  1. Navegue até Configurações → Fala
  2. Encontre modelos que você não precisa mais
  3. Clique no ícone de lixeira ao lado do modelo
  4. Confirme a exclusão

Você pode baixar novamente os modelos a qualquer momento sem penalidade.

Dicas de Armazenamento

  • Mantenha apenas os modelos que você usa ativamente
  • O modelo Equilibrado é uma boa escolha de modelo único
  • Baixe modelos maiores apenas quando necessário
  • A retenção de áudio ocupa espaço mínimo (configurável)

Solução de Problemas

Download do Modelo Falhou

Solução:

  1. Verifique sua conexão à internet
  2. Certifique-se de ter espaço em disco suficiente
  3. Tente baixar um modelo menor primeiro
  4. Reinicie o Vox e tente novamente

Teste do Modelo Local Falha

Solução:

  1. Verifique se a permissão de microfone está concedida
  2. Verifique Preferências do Sistema → Som → Entrada para seleção de microfone
  3. Tente um modelo diferente
  4. Reinicie o Vox

Qualidade de Transcrição Ruim

Soluções:

  1. Atualizar para um modelo maior: Tente Preciso ou Melhor
  2. Verificar qualidade do áudio: Fale claramente, reduza o ruído de fundo
  3. Adicionar palavras personalizadas: Use o recurso Dicionário
  4. Ativar Aprimoramento por IA: Pós-processe com IA para melhores resultados

Modelo Demora Muito Para Processar

Soluções:

  1. Fazer downgrade para um modelo menor: Tente Rápido ou Equilibrado
  2. Encurtar gravações: Divida ditados longos em partes menores
  3. Fechar outros aplicativos: Libere recursos de CPU
  4. Verificar atividade do sistema: Certifique-se de que seu computador não está sob carga pesada

Modelo Usando Muito CPU/Memória

Soluções:

  1. Mude para um modelo menor (Mais Rápido ou Rápido)
  2. Feche aplicativos em segundo plano
  3. Reduza a retenção de áudio para liberar recursos
  4. Considere atualizar seu hardware se precisar de modelos maiores

Tópicos Avançados

Arquitetura do Modelo

O Vox usa versões quantizadas de modelos Whisper otimizadas para:

  • Inferência otimizada em todas as plataformas
  • Menor pegada de memória
  • Precisão mantida em relação aos modelos originais
  • Aceleração do Neural Engine do Apple Silicon

Suporte a Idiomas

Todos os modelos Whisper suportam vários idiomas, incluindo:

  • Inglês, Espanhol, Francês, Alemão, Italiano, Português
  • Chinês, Japonês, Coreano
  • E 90+ outros idiomas

Configure idiomas de fala em Configurações → Geral → Idiomas.

Modelos Personalizados

Atualmente, o Vox suporta apenas as cinco variantes Whisper integradas. O suporte a modelos personalizados pode ser adicionado em versões futuras.

Próximos Passos

Construído com 💜 pela comunidade open-source e principais colaboradores