Skip to content

Modelli Vocali

Vox utilizza i modelli Whisper di OpenAI per il riconoscimento vocale locale. Questa guida spiega i modelli disponibili e come scegliere quello giusto per le proprie esigenze.

Comprendere i Modelli Vocali

Schermata Modelli Vocali

Accedi ai modelli vocali da Impostazioni → Voce.

Cosa Sono i Modelli Whisper?

Whisper è il sistema di riconoscimento automatico del parlato (ASR) open-source di OpenAI. Vox esegue questi modelli localmente sul tuo dispositivo, garantendo:

  • Privacy: L'audio non lascia mai il tuo dispositivo
  • Capacità offline: Funziona senza connessione internet
  • Velocità: Nessuna latenza di rete
  • Costo: Nessun addebito al minuto

Privacy Prima di Tutto

Tutto il riconoscimento vocale avviene sul tuo dispositivo. I tuoi dati vocali non vengono mai inviati a server esterni (a meno che non abiliti il Miglioramento AI).

Modelli Disponibili

Vox offre cinque varianti del modello Whisper, ognuna con un diverso equilibrio tra velocità e precisione:

Il Più Veloce

Dimensione: ~75MB Velocità: Latenza minima (<50ms) Precisione: Buona per un parlato chiaro Ideale per: Comandi rapidi, frasi brevi, test

Il modello più piccolo e veloce. Ideale per gli utenti che privilegiano la velocità rispetto alla precisione o hanno spazio su disco limitato.

Veloce

Dimensione: ~150MB Velocità: Latenza molto bassa (~50ms) Precisione: Migliore di Il Più Veloce Ideale per: Uso quotidiano con parlato chiaro

Un buon compromesso tra velocità e qualità. Adatto alla maggior parte delle esigenze di trascrizione occasionale.

Bilanciato

Dimensione: ~480MB Velocità: Consigliato (~480MB) Precisione: Buona precisione per uso generale Ideale per: La maggior parte degli utenti, trascrizione generale

Consigliato per la maggior parte degli utenti. Fornisce un'eccellente precisione per l'uso quotidiano senza richiedere risorse eccessive.

Accurato

Dimensione: ~1,5GB Velocità: Migliore precisione, latenza più decente (~1,5GB) Precisione: Alta precisione per un parlato complesso Ideale per: Trascrizione professionale, contenuti tecnici, accenti

Maggiore precisione per condizioni audio difficili, terminologia tecnica e vari accenti.

Migliore

Dimensione: ~3GB Velocità: Qualità massima, CPU significativo (~3GB) Precisione: Precisione massima Ideale per: Trascrizione critica, multilingue, ambienti rumorosi

Il modello più grande e preciso. Da usare quando la qualità della trascrizione è fondamentale e le risorse di sistema lo consentono.

Scaricare i Modelli

Configurazione Iniziale

Modelli Prima del Download

Quando installi Vox per la prima volta, nessun modello è scaricato. Devi scaricare almeno un modello per usare Vox.

Per scaricare un modello:

  1. Vai a Impostazioni → Voce
  2. Clicca su Scarica accanto al modello scelto
  3. Attendi il completamento del download
  4. Il pulsante diventa "Scaricato" quando è pronto

Modelli Scaricati

Raccomandazione Primo Modello

Inizia con Bilanciato per il miglior equilibrio tra qualità e prestazioni. Puoi sempre scaricare modelli aggiuntivi in seguito.

Scaricare Più Modelli

Puoi scaricare più modelli e passare da uno all'altro:

  1. Scarica modelli diversi per casi d'uso diversi
  2. Testa ogni modello con il pulsante Testa Modello Locale
  3. Vox usa il modello attualmente selezionato (contrassegnato con un segno di spunta)
  4. Passa da un modello all'altro in qualsiasi momento senza riscaricarlo

Requisiti di Download

  • Connessione internet: Richiesta per il download iniziale
  • Spazio su disco: Assicurati di avere spazio sufficiente per il modello scelto
  • Tempo: I download richiedono in genere da 1 a 10 minuti a seconda della dimensione del modello e della velocità di connessione

Requisiti di Sistema

Vox ha requisiti di sistema diversi a seconda del sistema operativo:

macOS

RequisitoMinimoConsigliato
Versione SOmacOS 15 (Sequoia)macOS 15+ (Sequoia o successivo)
ProcessoreApple Silicon (M1) o IntelApple Silicon (M2 o più recente)
RAM4 GB8 GB o più
Archiviazione500 MB - 4 GB4 GB di spazio libero
PermessiMicrofono + Accessibilità-

Prestazioni su Apple Silicon

Vox funziona significativamente più veloce su Apple Silicon (M1/M2/M3) rispetto ai Mac Intel grazie al supporto ottimizzato del motore neurale.

Windows

RequisitoMinimoConsigliato
Versione SOWindows 10 (64-bit)Windows 11
ProcessoreProcessore x64Processore multi-core moderno
RAM4 GB8 GB o più
Archiviazione500 MB - 4 GB4 GB di spazio libero
PermessiAccesso al microfono-

Prestazioni su Windows

Le prestazioni variano in base al processore. Le CPU moderne (Intel 10ª gen+, AMD Ryzen 3000+) offrono una migliore velocità di trascrizione.

Prossimamente

Il supporto per Linux, iOS e Android è pianificato per future versioni. Vedi roadmap →

Testare i Modelli

Testa Modello Locale

Dopo aver scaricato un modello, verifica che funzioni correttamente:

  1. Clicca su Testa Modello Locale
  2. Di' una frase di test quando richiesto
  3. Esamina il risultato della trascrizione
  4. Cerca il messaggio di successo: "Yeah. This is just a test. I laughing"

Il test verifica:

  • Il modello è correttamente scaricato e installato
  • La pipeline audio funziona
  • La precisione della trascrizione soddisfa le tue esigenze

Testa con Contenuto Reale

Testa con frasi simili al tuo caso d'uso reale (termini tecnici, nomi, ecc.) per valutare la precisione.

Scegliere il Modello Giusto

Matrice di Decisione

ModelloDimensioneVelocitàPrecisioneIdeale Per
Il Più Veloce75MB⚡⚡⚡⚡⚡⭐⭐⭐Test, comandi semplici
Veloce150MB⚡⚡⚡⚡⭐⭐⭐⭐Uso quotidiano, parlato chiaro
Bilanciato480MB⚡⚡⚡⭐⭐⭐⭐Consigliato per la maggior parte
Accurato1,5GB⚡⚡⭐⭐⭐⭐⭐Lavoro professionale, contenuti tecnici
Migliore3GB⭐⭐⭐⭐⭐Trascrizione critica, audio complesso

Considera il tuo Caso d'Uso

Scegli Il Più Veloce o Veloce se:

  • Hai bisogno di risultati di trascrizione istantanei
  • Trascrivi frasi brevi e semplici
  • Hai spazio su disco limitato
  • Parli chiaramente in ambienti silenziosi

Scegli Bilanciato se:

  • Vuoi una buona esperienza complessiva
  • Trascrivi contenuti sia brevi che lunghi
  • Hai bisogno di una precisione affidabile senza sacrificare troppa velocità
  • Non sei sicuro quale modello scegliere (inizia da qui!)

Scegli Accurato se:

  • Lavori con terminologia tecnica
  • Parli con accento o in più lingue
  • Trascrivi in ambienti con rumore di fondo
  • Hai bisogno di alta precisione per lavoro professionale

Scegli Migliore se:

  • Richiedi la massima precisione di trascrizione
  • Lavori con contenuti complessi e multilingue
  • Trascrivi documenti critici o contenuti legali
  • Hai un computer potente con molte risorse

Requisiti di Prestazioni del Modello

Tutti i modelli funzionano su qualsiasi computer che esegue Vox, ma le prestazioni variano:

Per Il Più Veloce, Veloce, Bilanciato:

  • Qualsiasi Mac dal 2018 in poi / Qualsiasi PC Windows moderno
  • 8GB di RAM minimo
  • Aspettative di prestazioni standard

Per Accurato:

  • Mac dal 2020 in poi / PC Windows con 8 GB+ di RAM consigliato
  • 16GB di RAM consigliato
  • Può essere più lento su computer più vecchi

Per Migliore:

  • Mac Apple Silicon o PC Windows moderno con 16 GB+ di RAM
  • 16GB+ di RAM consigliato
  • Aspettati un tempo di elaborazione notevole sulle trascrizioni

Vantaggio di Apple Silicon

I Mac con Apple Silicon (chip M1, M2, M3) eseguono i modelli Whisper significativamente più velocemente dei Mac Intel grazie al loro Neural Engine.

Prestazioni dei Modelli

Esempi di Tempi di Elaborazione

Tempi di trascrizione approssimativi per una registrazione di 10 secondi:

ModelloIntel Mac (2019)M1/M2 MacM3 Mac
Il Più Veloce0,5s0,2s0,1s
Veloce1s0,5s0,3s
Bilanciato2s1s0,5s
Accurato5s2,5s1,5s
Migliore10s4s2s

I tempi sono approssimativi e variano in base alla complessità audio

Le prestazioni su PC Windows con specifiche equivalenti sono comparabili.

Confronto di Precisione

Esempio di qualità di trascrizione con termini tecnici:

Parlato originale: "Initialize the TypeScript interface with async await handlers"

ModelloQualità di Trascrizione
Il Più Veloce"Initialize the typescript interface with a sync away handlers"
Veloce"Initialize the TypeScript interface with a sync await handlers"
Bilanciato"Initialize the TypeScript interface with async await handlers" ✓
Accurato"Initialize the TypeScript interface with async await handlers" ✓
Migliore"Initialize the TypeScript interface with async await handlers" ✓

Miglioramento AI

Per una precisione ancora migliore, abilita il Miglioramento AI per post-elaborare le trascrizioni con grandi modelli di linguaggio.

Conservazione Audio

Impostazione Conservazione Audio

Configura quante registrazioni audio recenti Vox conserva su disco:

Predefinito: 10 registrazioni

Perché conservare l'audio:

  • Rivedere le trascrizioni per verificarne la precisione
  • Testare modelli diversi sullo stesso audio
  • Aggiungere parole mancanti al tuo dizionario
  • Effettuare il debug dei problemi di trascrizione

Regolare la conservazione:

  • Aumentare se rivedi frequentemente le registrazioni passate
  • Diminuire per risparmiare spazio su disco
  • Impostare su 0 per disabilitare completamente la conservazione audio

Nota sulla Privacy

Le registrazioni audio sono archiviate localmente nella cartella dell'applicazione Vox. Non vengono mai inviate a meno che non abiliti esplicitamente le funzionalità di Miglioramento AI.

Cambiare Modello

Puoi cambiare quale modello usa Vox in qualsiasi momento:

  1. Vai a Impostazioni → Voce
  2. Clicca su un modello scaricato diverso
  3. Il modello con il segno di spunta è attivo
  4. La tua prossima registrazione userà il nuovo modello

Non è necessario riavviare - la modifica ha effetto immediatamente.

Gestire lo Spazio su Disco

Verificare l'Archiviazione dei Modelli

I modelli sono archiviati in:

~/Library/Application Support/Vox/models/

Rimuovere i Modelli

Per liberare spazio su disco:

  1. Vai a Impostazioni → Voce
  2. Trova i modelli di cui non hai più bisogno
  3. Clicca sull'icona del cestino accanto al modello
  4. Conferma l'eliminazione

Puoi riscaricare i modelli in qualsiasi momento senza penalità.

Consigli sull'Archiviazione

  • Mantieni solo i modelli che usi attivamente
  • Il modello Bilanciato è una buona scelta come modello singolo
  • Scarica modelli più grandi solo quando necessario
  • La conservazione audio occupa spazio minimo (configurabile)

Risoluzione dei Problemi

Download del Modello Fallito

Soluzione:

  1. Controlla la tua connessione internet
  2. Assicurati di avere spazio su disco sufficiente
  3. Prova prima a scaricare un modello più piccolo
  4. Riavvia Vox e riprova

Il Test del Modello Locale Fallisce

Soluzione:

  1. Verifica che l'autorizzazione microfono sia concessa
  2. Controlla Preferenze di Sistema → Suono → Ingresso per la selezione del microfono
  3. Prova un modello diverso
  4. Riavvia Vox

Scarsa Qualità di Trascrizione

Soluzioni:

  1. Passare a un modello più grande: Prova Accurato o Migliore
  2. Verificare la qualità audio: Parla chiaramente, riduci il rumore di fondo
  3. Aggiungere parole personalizzate: Usa la funzione Dizionario
  4. Abilitare il Miglioramento AI: Post-elabora con AI per risultati migliori

Il Modello Impiega Troppo Tempo a Elaborare

Soluzioni:

  1. Passare a un modello più piccolo: Prova Veloce o Bilanciato
  2. Accorciare le registrazioni: Dividi le dettature lunghe in parti più piccole
  3. Chiudere altre app: Libera risorse CPU
  4. Controllare l'attività del sistema: Assicurati che il computer non sia sotto carico pesante

Modello Che Usa Troppa CPU/Memoria

Soluzioni:

  1. Passa a un modello più piccolo (Il Più Veloce o Veloce)
  2. Chiudi applicazioni in background
  3. Riduci la conservazione audio per liberare risorse
  4. Considera di aggiornare il tuo hardware se hai bisogno di modelli più grandi

Argomenti Avanzati

Architettura dei Modelli

Vox utilizza versioni quantizzate dei modelli Whisper ottimizzate per:

  • Inferenza ottimizzata su tutte le piattaforme
  • Impronta di memoria ridotta
  • Precisione mantenuta rispetto ai modelli originali
  • Accelerazione del Neural Engine di Apple Silicon

Supporto delle Lingue

Tutti i modelli Whisper supportano più lingue tra cui:

  • Inglese, Spagnolo, Francese, Tedesco, Italiano, Portoghese
  • Cinese, Giapponese, Coreano
  • E 90+ altre lingue

Configura le lingue vocali in Impostazioni → Generale → Lingue.

Modelli Personalizzati

Attualmente, Vox supporta solo le cinque varianti Whisper integrate. Il supporto per modelli personalizzati potrebbe essere aggiunto nelle versioni future.

Prossimi Passi

Costruito con 💜 dalla comunità open-source e dai principali collaboratori