Skip to content

Modelos de Voz

Vox utiliza los modelos Whisper de OpenAI para el reconocimiento de voz local. Esta guía explica los modelos disponibles y cómo elegir el adecuado para tus necesidades.

Entendiendo los Modelos de Voz

Pantalla de Modelos de Voz

Accede a los modelos de voz desde Ajustes → Voz.

¿Qué Son los Modelos Whisper?

Whisper es el sistema de reconocimiento automático de voz (ASR) de código abierto de OpenAI. Vox ejecuta estos modelos localmente en tu dispositivo, garantizando:

  • Privacidad: El audio nunca sale de tu dispositivo
  • Capacidad sin conexión: Funciona sin conexión a internet
  • Velocidad: Sin latencia de red
  • Costo: Sin cargos por minuto

Privacidad Primero

Todo el reconocimiento de voz ocurre en tu dispositivo. Tus datos de voz nunca se envían a servidores externos (a menos que actives la Mejora por IA).

Modelos Disponibles

Vox ofrece cinco variantes del modelo Whisper, cada una equilibrando velocidad y precisión de forma diferente:

Más Rápido

Tamaño: ~75MB Velocidad: Menor latencia (<50ms) Precisión: Buena para voz clara Mejor para: Comandos rápidos, frases cortas, pruebas

El modelo más pequeño y rápido. Ideal para usuarios que priorizan la velocidad sobre la precisión o tienen espacio en disco limitado.

Rápido

Tamaño: ~150MB Velocidad: Latencia muy baja (~50ms) Precisión: Mejor que Más Rápido Mejor para: Uso diario con voz clara

Un buen equilibrio entre velocidad y calidad. Adecuado para la mayoría de las necesidades de transcripción casual.

Equilibrado

Tamaño: ~480MB Velocidad: Recomendado (~480MB) Precisión: Buena precisión de propósito general Mejor para: La mayoría de los usuarios, transcripción general

Recomendado para la mayoría de los usuarios. Proporciona excelente precisión para el uso diario sin requerir recursos excesivos.

Preciso

Tamaño: ~1,5GB Velocidad: Mejor precisión, latencia más decente (~1,5GB) Precisión: Alta precisión para voz compleja Mejor para: Transcripción profesional, contenido técnico, acentos

Mayor precisión para condiciones de audio desafiantes, terminología técnica y varios acentos.

Mejor

Tamaño: ~3GB Velocidad: Mayor calidad, CPU significativo (~3GB) Precisión: Precisión máxima Mejor para: Transcripción crítica, multilingüe, entornos ruidosos

El modelo más grande y preciso. Úsalo cuando la calidad de transcripción es fundamental y los recursos del sistema lo permiten.

Descargar Modelos

Configuración Inicial

Modelos Antes de Descargar

Cuando instalas Vox por primera vez, no hay modelos descargados. Debes descargar al menos un modelo para usar Vox.

Para descargar un modelo:

  1. Ve a Ajustes → Voz
  2. Haz clic en Descargar junto al modelo elegido
  3. Espera a que se complete la descarga
  4. El botón cambia a "Descargado" cuando esté listo

Modelos Descargados

Recomendación de Primer Modelo

Comienza con Equilibrado para el mejor equilibrio entre calidad y rendimiento. Siempre puedes descargar modelos adicionales después.

Descargar Varios Modelos

Puedes descargar varios modelos y alternar entre ellos:

  1. Descarga modelos diferentes para diferentes casos de uso
  2. Prueba cada modelo con el botón Probar Modelo Local
  3. Vox usa el modelo seleccionado actualmente (marcado con una marca de verificación)
  4. Cambia entre modelos en cualquier momento sin necesidad de volver a descargar

Requisitos de Descarga

  • Conexión a internet: Necesaria para la descarga inicial
  • Espacio en disco: Asegúrate de tener espacio suficiente para el modelo elegido
  • Tiempo: Las descargas suelen tardar de 1 a 10 minutos según el tamaño del modelo y la velocidad de conexión

Requisitos del Sistema

Vox tiene diferentes requisitos del sistema según su sistema operativo:

macOS

RequisitoMínimoRecomendado
Versión del SOmacOS 15 (Sequoia)macOS 15+ (Sequoia o posterior)
ProcesadorApple Silicon (M1) o IntelApple Silicon (M2 o más reciente)
RAM4 GB8 GB o más
Almacenamiento500 MB - 4 GB4 GB de espacio libre
PermisosMicrófono + Accesibilidad-

Rendimiento en Apple Silicon

Vox funciona significativamente más rápido en Apple Silicon (M1/M2/M3) en comparación con Macs Intel debido al soporte optimizado del motor neuronal.

Windows

RequisitoMínimoRecomendado
Versión del SOWindows 10 (64-bit)Windows 11
ProcesadorProcesador x64Procesador multinúcleo moderno
RAM4 GB8 GB o más
Almacenamiento500 MB - 4 GB4 GB de espacio libre
PermisosAcceso al micrófono-

Rendimiento en Windows

El rendimiento varía según el procesador. Las CPUs modernas (Intel 10ª gen+, AMD Ryzen 3000+) proporcionan mejor velocidad de transcripción.

Próximamente

El soporte para Linux, iOS y Android está planificado para futuras versiones. Ver hoja de ruta →

Probar Modelos

Probar Modelo Local

Después de descargar un modelo, verifica que funciona correctamente:

  1. Haz clic en Probar Modelo Local
  2. Di una frase de prueba cuando se te solicite
  3. Revisa el resultado de la transcripción
  4. Busca el mensaje de éxito: "Yeah. This is just a test. I laughing"

La prueba verifica:

  • El modelo está correctamente descargado e instalado
  • El pipeline de audio está funcionando
  • La precisión de transcripción satisface tus necesidades

Prueba con Contenido Real

Prueba con frases similares a tu caso de uso real (términos técnicos, nombres, etc.) para evaluar la precisión.

Elegir el Modelo Correcto

Matriz de Decisión

ModeloTamañoVelocidadPrecisiónMejor Para
Más Rápido75MB⚡⚡⚡⚡⚡⭐⭐⭐Pruebas, comandos simples
Rápido150MB⚡⚡⚡⚡⭐⭐⭐⭐Uso diario, voz clara
Equilibrado480MB⚡⚡⚡⭐⭐⭐⭐Recomendado para la mayoría
Preciso1,5GB⚡⚡⭐⭐⭐⭐⭐Trabajo profesional, contenido técnico
Mejor3GB⭐⭐⭐⭐⭐Transcripción crítica, audio complejo

Considera tu Caso de Uso

Elige Más Rápido o Rápido si:

  • Necesitas resultados de transcripción instantáneos
  • Transcribes frases cortas y simples
  • Tienes espacio en disco limitado
  • Hablas claramente en entornos silenciosos

Elige Equilibrado si:

  • Quieres una buena experiencia general
  • Transcribes contenido tanto corto como largo
  • Necesitas precisión confiable sin sacrificar demasiada velocidad
  • No estás seguro qué modelo elegir (¡empieza aquí!)

Elige Preciso si:

  • Trabajas con terminología técnica
  • Hablas con acento o en varios idiomas
  • Transcribes en entornos con ruido de fondo
  • Necesitas alta precisión para trabajo profesional

Elige Mejor si:

  • Requieres precisión máxima de transcripción
  • Trabajas con contenido complejo y multilingüe
  • Transcribes documentos críticos o contenido legal
  • Tienes un computador potente con muchos recursos

Requisitos de Rendimiento del Modelo

Todos los modelos funcionan en cualquier computador que ejecute Vox, pero el rendimiento varía:

Para Más Rápido, Rápido, Equilibrado:

  • Cualquier Mac de 2018 o posterior / Cualquier PC Windows moderno
  • 8GB de RAM mínimo
  • Expectativas de rendimiento estándar

Para Preciso:

  • Mac de 2020 o posterior / PC Windows con 8GB+ de RAM recomendado
  • 16GB de RAM recomendado
  • Puede ser más lento en hardware más antiguo

Para Mejor:

  • Mac con Apple Silicon o PC Windows moderno con 16GB+ de RAM
  • 16GB+ de RAM recomendado
  • Espera tiempo de procesamiento notable en las transcripciones

Ventaja del Apple Silicon

Los Macs con Apple Silicon (chips M1, M2, M3) ejecutan los modelos Whisper significativamente más rápido que los Macs Intel gracias a su Neural Engine.

Rendimiento de los Modelos

Ejemplos de Tiempo de Procesamiento

Tiempos aproximados de transcripción para una grabación de 10 segundos:

ModeloIntel Mac (2019)M1/M2 MacM3 Mac
Más Rápido0,5s0,2s0,1s
Rápido1s0,5s0,3s
Equilibrado2s1s0,5s
Preciso5s2,5s1,5s
Mejor10s4s2s

Los tiempos son aproximados y varían según la complejidad del audio

El rendimiento en PCs Windows con especificaciones equivalentes es comparable.

Comparación de Precisión

Ejemplo de calidad de transcripción con términos técnicos:

Voz original: "Initialize the TypeScript interface with async await handlers"

ModeloCalidad de Transcripción
Más Rápido"Initialize the typescript interface with a sync away handlers"
Rápido"Initialize the TypeScript interface with a sync await handlers"
Equilibrado"Initialize the TypeScript interface with async await handlers" ✓
Preciso"Initialize the TypeScript interface with async await handlers" ✓
Mejor"Initialize the TypeScript interface with async await handlers" ✓

Mejora por IA

Para una precisión aún mayor, activa la Mejora por IA para posprocesar transcripciones con modelos de lenguaje grandes.

Retención de Audio

Configuración de Retención de Audio

Configura cuántas grabaciones de audio recientes guarda Vox en disco:

Predeterminado: 10 grabaciones

Por qué conservar audio:

  • Revisar transcripciones para verificar precisión
  • Probar diferentes modelos con el mismo audio
  • Agregar palabras perdidas a tu diccionario
  • Depurar problemas de transcripción

Ajustar retención:

  • Aumentar si frecuentemente revisas grabaciones pasadas
  • Reducir para ahorrar espacio en disco
  • Establece en 0 para deshabilitar la retención de audio completamente

Nota de Privacidad

Las grabaciones de audio se almacenan localmente en la carpeta de la aplicación Vox. Nunca se envían a menos que actives explícitamente las funciones de Mejora por IA.

Cambiar Modelos

Puedes cambiar qué modelo usa Vox en cualquier momento:

  1. Ve a Ajustes → Voz
  2. Haz clic en un modelo descargado diferente
  3. El modelo con marca de verificación está activo
  4. Tu próxima grabación usará el nuevo modelo

No se necesita reiniciar - el cambio tiene efecto inmediatamente.

Administrar Espacio en Disco

Verificar Almacenamiento de Modelos

Los modelos se almacenan en:

~/Library/Application Support/Vox/models/

Eliminar Modelos

Para liberar espacio en disco:

  1. Ve a Ajustes → Voz
  2. Encuentra modelos que ya no necesitas
  3. Haz clic en el icono de papelera junto al modelo
  4. Confirma la eliminación

Puedes volver a descargar modelos en cualquier momento sin penalización.

Consejos de Almacenamiento

  • Mantén solo los modelos que usas activamente
  • El modelo Equilibrado es una buena elección de modelo único
  • Descarga modelos más grandes solo cuando sea necesario
  • La retención de audio ocupa espacio mínimo (configurable)

Solución de Problemas

Descarga del Modelo Falló

Solución:

  1. Verifica tu conexión a internet
  2. Asegúrate de tener espacio en disco suficiente
  3. Intenta descargar un modelo más pequeño primero
  4. Reinicia Vox e inténtalo de nuevo

Prueba del Modelo Local Falla

Solución:

  1. Verifica que el permiso de micrófono está otorgado
  2. Comprueba Preferencias del Sistema → Sonido → Entrada para selección de micrófono
  3. Prueba con un modelo diferente
  4. Reinicia Vox

Mala Calidad de Transcripción

Soluciones:

  1. Actualizar a un modelo mayor: Prueba Preciso o Mejor
  2. Verificar calidad de audio: Habla claramente, reduce el ruido de fondo
  3. Agregar palabras personalizadas: Usa la función de Diccionario
  4. Activar Mejora por IA: Posprocesa con IA para mejores resultados

El Modelo Tarda Demasiado en Procesar

Soluciones:

  1. Bajar a un modelo más pequeño: Prueba Rápido o Equilibrado
  2. Acortar grabaciones: Divide dictados largos en partes más pequeñas
  3. Cerrar otras aplicaciones: Libera recursos de CPU
  4. Verificar actividad del sistema: Asegúrate de que tu computador no esté bajo carga pesada

Modelo Usando Demasiado CPU/Memoria

Soluciones:

  1. Cambia a un modelo más pequeño (Más Rápido o Rápido)
  2. Cierra aplicaciones en segundo plano
  3. Reduce la retención de audio para liberar recursos
  4. Considera actualizar tu hardware si necesitas modelos más grandes

Temas Avanzados

Arquitectura del Modelo

Vox usa versiones cuantizadas de modelos Whisper optimizadas para:

  • Inferencia optimizada en todas las plataformas
  • Menor huella de memoria
  • Precisión mantenida frente a los modelos originales
  • Aceleración del Neural Engine de Apple Silicon

Soporte de Idiomas

Todos los modelos Whisper soportan múltiples idiomas incluyendo:

  • Inglés, Español, Francés, Alemán, Italiano, Portugués
  • Chino, Japonés, Coreano
  • Y 90+ otros idiomas

Configura idiomas de voz en Ajustes → General → Idiomas.

Modelos Personalizados

Actualmente, Vox soporta solo las cinco variantes Whisper integradas. El soporte de modelos personalizados puede agregarse en versiones futuras.

Próximos Pasos

Construido con 💜 por la comunidad de código abierto y colaboradores principales