Modelli Vocali
Vox utilizza i modelli Whisper di OpenAI per il riconoscimento vocale locale. Questa guida spiega i modelli disponibili e come scegliere quello giusto per le proprie esigenze.
Comprendere i Modelli Vocali

Accedi ai modelli vocali da Impostazioni → Voce.
Cosa Sono i Modelli Whisper?
Whisper è il sistema di riconoscimento automatico del parlato (ASR) open-source di OpenAI. Vox esegue questi modelli localmente sul tuo dispositivo, garantendo:
- Privacy: L'audio non lascia mai il tuo dispositivo
- Capacità offline: Funziona senza connessione internet
- Velocità: Nessuna latenza di rete
- Costo: Nessun addebito al minuto
Privacy Prima di Tutto
Tutto il riconoscimento vocale avviene sul tuo dispositivo. I tuoi dati vocali non vengono mai inviati a server esterni (a meno che non abiliti il Miglioramento AI).
Modelli Disponibili
Vox offre cinque varianti del modello Whisper, ognuna con un diverso equilibrio tra velocità e precisione:
Il Più Veloce
Dimensione: ~75MB Velocità: Latenza minima (<50ms) Precisione: Buona per un parlato chiaro Ideale per: Comandi rapidi, frasi brevi, test
Il modello più piccolo e veloce. Ideale per gli utenti che privilegiano la velocità rispetto alla precisione o hanno spazio su disco limitato.
Veloce
Dimensione: ~150MB Velocità: Latenza molto bassa (~50ms) Precisione: Migliore di Il Più Veloce Ideale per: Uso quotidiano con parlato chiaro
Un buon compromesso tra velocità e qualità. Adatto alla maggior parte delle esigenze di trascrizione occasionale.
Bilanciato
Dimensione: ~480MB Velocità: Consigliato (~480MB) Precisione: Buona precisione per uso generale Ideale per: La maggior parte degli utenti, trascrizione generale
Consigliato per la maggior parte degli utenti. Fornisce un'eccellente precisione per l'uso quotidiano senza richiedere risorse eccessive.
Accurato
Dimensione: ~1,5GB Velocità: Migliore precisione, latenza più decente (~1,5GB) Precisione: Alta precisione per un parlato complesso Ideale per: Trascrizione professionale, contenuti tecnici, accenti
Maggiore precisione per condizioni audio difficili, terminologia tecnica e vari accenti.
Migliore
Dimensione: ~3GB Velocità: Qualità massima, CPU significativo (~3GB) Precisione: Precisione massima Ideale per: Trascrizione critica, multilingue, ambienti rumorosi
Il modello più grande e preciso. Da usare quando la qualità della trascrizione è fondamentale e le risorse di sistema lo consentono.
Scaricare i Modelli
Configurazione Iniziale

Quando installi Vox per la prima volta, nessun modello è scaricato. Devi scaricare almeno un modello per usare Vox.
Per scaricare un modello:
- Vai a Impostazioni → Voce
- Clicca su Scarica accanto al modello scelto
- Attendi il completamento del download
- Il pulsante diventa "Scaricato" quando è pronto

Raccomandazione Primo Modello
Inizia con Bilanciato per il miglior equilibrio tra qualità e prestazioni. Puoi sempre scaricare modelli aggiuntivi in seguito.
Scaricare Più Modelli
Puoi scaricare più modelli e passare da uno all'altro:
- Scarica modelli diversi per casi d'uso diversi
- Testa ogni modello con il pulsante Testa Modello Locale
- Vox usa il modello attualmente selezionato (contrassegnato con un segno di spunta)
- Passa da un modello all'altro in qualsiasi momento senza riscaricarlo
Requisiti di Download
- Connessione internet: Richiesta per il download iniziale
- Spazio su disco: Assicurati di avere spazio sufficiente per il modello scelto
- Tempo: I download richiedono in genere da 1 a 10 minuti a seconda della dimensione del modello e della velocità di connessione
Requisiti di Sistema
Vox ha requisiti di sistema diversi a seconda del sistema operativo:
macOS
| Requisito | Minimo | Consigliato |
|---|---|---|
| Versione SO | macOS 15 (Sequoia) | macOS 15+ (Sequoia o successivo) |
| Processore | Apple Silicon (M1) o Intel | Apple Silicon (M2 o più recente) |
| RAM | 4 GB | 8 GB o più |
| Archiviazione | 500 MB - 4 GB | 4 GB di spazio libero |
| Permessi | Microfono + Accessibilità | - |
Prestazioni su Apple Silicon
Vox funziona significativamente più veloce su Apple Silicon (M1/M2/M3) rispetto ai Mac Intel grazie al supporto ottimizzato del motore neurale.
Windows
| Requisito | Minimo | Consigliato |
|---|---|---|
| Versione SO | Windows 10 (64-bit) | Windows 11 |
| Processore | Processore x64 | Processore multi-core moderno |
| RAM | 4 GB | 8 GB o più |
| Archiviazione | 500 MB - 4 GB | 4 GB di spazio libero |
| Permessi | Accesso al microfono | - |
Prestazioni su Windows
Le prestazioni variano in base al processore. Le CPU moderne (Intel 10ª gen+, AMD Ryzen 3000+) offrono una migliore velocità di trascrizione.
Prossimamente
Il supporto per Linux, iOS e Android è pianificato per future versioni. Vedi roadmap →
Testare i Modelli

Dopo aver scaricato un modello, verifica che funzioni correttamente:
- Clicca su Testa Modello Locale
- Di' una frase di test quando richiesto
- Esamina il risultato della trascrizione
- Cerca il messaggio di successo: "Yeah. This is just a test. I laughing"
Il test verifica:
- Il modello è correttamente scaricato e installato
- La pipeline audio funziona
- La precisione della trascrizione soddisfa le tue esigenze
Testa con Contenuto Reale
Testa con frasi simili al tuo caso d'uso reale (termini tecnici, nomi, ecc.) per valutare la precisione.
Scegliere il Modello Giusto
Matrice di Decisione
| Modello | Dimensione | Velocità | Precisione | Ideale Per |
|---|---|---|---|---|
| Il Più Veloce | 75MB | ⚡⚡⚡⚡⚡ | ⭐⭐⭐ | Test, comandi semplici |
| Veloce | 150MB | ⚡⚡⚡⚡ | ⭐⭐⭐⭐ | Uso quotidiano, parlato chiaro |
| Bilanciato | 480MB | ⚡⚡⚡ | ⭐⭐⭐⭐ | Consigliato per la maggior parte |
| Accurato | 1,5GB | ⚡⚡ | ⭐⭐⭐⭐⭐ | Lavoro professionale, contenuti tecnici |
| Migliore | 3GB | ⚡ | ⭐⭐⭐⭐⭐ | Trascrizione critica, audio complesso |
Considera il tuo Caso d'Uso
Scegli Il Più Veloce o Veloce se:
- Hai bisogno di risultati di trascrizione istantanei
- Trascrivi frasi brevi e semplici
- Hai spazio su disco limitato
- Parli chiaramente in ambienti silenziosi
Scegli Bilanciato se:
- Vuoi una buona esperienza complessiva
- Trascrivi contenuti sia brevi che lunghi
- Hai bisogno di una precisione affidabile senza sacrificare troppa velocità
- Non sei sicuro quale modello scegliere (inizia da qui!)
Scegli Accurato se:
- Lavori con terminologia tecnica
- Parli con accento o in più lingue
- Trascrivi in ambienti con rumore di fondo
- Hai bisogno di alta precisione per lavoro professionale
Scegli Migliore se:
- Richiedi la massima precisione di trascrizione
- Lavori con contenuti complessi e multilingue
- Trascrivi documenti critici o contenuti legali
- Hai un computer potente con molte risorse
Requisiti di Prestazioni del Modello
Tutti i modelli funzionano su qualsiasi computer che esegue Vox, ma le prestazioni variano:
Per Il Più Veloce, Veloce, Bilanciato:
- Qualsiasi Mac dal 2018 in poi / Qualsiasi PC Windows moderno
- 8GB di RAM minimo
- Aspettative di prestazioni standard
Per Accurato:
- Mac dal 2020 in poi / PC Windows con 8 GB+ di RAM consigliato
- 16GB di RAM consigliato
- Può essere più lento su computer più vecchi
Per Migliore:
- Mac Apple Silicon o PC Windows moderno con 16 GB+ di RAM
- 16GB+ di RAM consigliato
- Aspettati un tempo di elaborazione notevole sulle trascrizioni
Vantaggio di Apple Silicon
I Mac con Apple Silicon (chip M1, M2, M3) eseguono i modelli Whisper significativamente più velocemente dei Mac Intel grazie al loro Neural Engine.
Prestazioni dei Modelli
Esempi di Tempi di Elaborazione
Tempi di trascrizione approssimativi per una registrazione di 10 secondi:
| Modello | Intel Mac (2019) | M1/M2 Mac | M3 Mac |
|---|---|---|---|
| Il Più Veloce | 0,5s | 0,2s | 0,1s |
| Veloce | 1s | 0,5s | 0,3s |
| Bilanciato | 2s | 1s | 0,5s |
| Accurato | 5s | 2,5s | 1,5s |
| Migliore | 10s | 4s | 2s |
I tempi sono approssimativi e variano in base alla complessità audio
Le prestazioni su PC Windows con specifiche equivalenti sono comparabili.
Confronto di Precisione
Esempio di qualità di trascrizione con termini tecnici:
Parlato originale: "Initialize the TypeScript interface with async await handlers"
| Modello | Qualità di Trascrizione |
|---|---|
| Il Più Veloce | "Initialize the typescript interface with a sync away handlers" |
| Veloce | "Initialize the TypeScript interface with a sync await handlers" |
| Bilanciato | "Initialize the TypeScript interface with async await handlers" ✓ |
| Accurato | "Initialize the TypeScript interface with async await handlers" ✓ |
| Migliore | "Initialize the TypeScript interface with async await handlers" ✓ |
Miglioramento AI
Per una precisione ancora migliore, abilita il Miglioramento AI per post-elaborare le trascrizioni con grandi modelli di linguaggio.
Conservazione Audio

Configura quante registrazioni audio recenti Vox conserva su disco:
Predefinito: 10 registrazioni
Perché conservare l'audio:
- Rivedere le trascrizioni per verificarne la precisione
- Testare modelli diversi sullo stesso audio
- Aggiungere parole mancanti al tuo dizionario
- Effettuare il debug dei problemi di trascrizione
Regolare la conservazione:
- Aumentare se rivedi frequentemente le registrazioni passate
- Diminuire per risparmiare spazio su disco
- Impostare su
0per disabilitare completamente la conservazione audio
Nota sulla Privacy
Le registrazioni audio sono archiviate localmente nella cartella dell'applicazione Vox. Non vengono mai inviate a meno che non abiliti esplicitamente le funzionalità di Miglioramento AI.
Cambiare Modello
Puoi cambiare quale modello usa Vox in qualsiasi momento:
- Vai a Impostazioni → Voce
- Clicca su un modello scaricato diverso
- Il modello con il segno di spunta è attivo
- La tua prossima registrazione userà il nuovo modello
Non è necessario riavviare - la modifica ha effetto immediatamente.
Gestire lo Spazio su Disco
Verificare l'Archiviazione dei Modelli
I modelli sono archiviati in:
~/Library/Application Support/Vox/models/Rimuovere i Modelli
Per liberare spazio su disco:
- Vai a Impostazioni → Voce
- Trova i modelli di cui non hai più bisogno
- Clicca sull'icona del cestino accanto al modello
- Conferma l'eliminazione
Puoi riscaricare i modelli in qualsiasi momento senza penalità.
Consigli sull'Archiviazione
- Mantieni solo i modelli che usi attivamente
- Il modello Bilanciato è una buona scelta come modello singolo
- Scarica modelli più grandi solo quando necessario
- La conservazione audio occupa spazio minimo (configurabile)
Risoluzione dei Problemi
Download del Modello Fallito
Soluzione:
- Controlla la tua connessione internet
- Assicurati di avere spazio su disco sufficiente
- Prova prima a scaricare un modello più piccolo
- Riavvia Vox e riprova
Il Test del Modello Locale Fallisce
Soluzione:
- Verifica che l'autorizzazione microfono sia concessa
- Controlla Preferenze di Sistema → Suono → Ingresso per la selezione del microfono
- Prova un modello diverso
- Riavvia Vox
Scarsa Qualità di Trascrizione
Soluzioni:
- Passare a un modello più grande: Prova Accurato o Migliore
- Verificare la qualità audio: Parla chiaramente, riduci il rumore di fondo
- Aggiungere parole personalizzate: Usa la funzione Dizionario
- Abilitare il Miglioramento AI: Post-elabora con AI per risultati migliori
Il Modello Impiega Troppo Tempo a Elaborare
Soluzioni:
- Passare a un modello più piccolo: Prova Veloce o Bilanciato
- Accorciare le registrazioni: Dividi le dettature lunghe in parti più piccole
- Chiudere altre app: Libera risorse CPU
- Controllare l'attività del sistema: Assicurati che il computer non sia sotto carico pesante
Modello Che Usa Troppa CPU/Memoria
Soluzioni:
- Passa a un modello più piccolo (Il Più Veloce o Veloce)
- Chiudi applicazioni in background
- Riduci la conservazione audio per liberare risorse
- Considera di aggiornare il tuo hardware se hai bisogno di modelli più grandi
Argomenti Avanzati
Architettura dei Modelli
Vox utilizza versioni quantizzate dei modelli Whisper ottimizzate per:
- Inferenza ottimizzata su tutte le piattaforme
- Impronta di memoria ridotta
- Precisione mantenuta rispetto ai modelli originali
- Accelerazione del Neural Engine di Apple Silicon
Supporto delle Lingue
Tutti i modelli Whisper supportano più lingue tra cui:
- Inglese, Spagnolo, Francese, Tedesco, Italiano, Portoghese
- Cinese, Giapponese, Coreano
- E 90+ altre lingue
Configura le lingue vocali in Impostazioni → Generale → Lingue.
Modelli Personalizzati
Attualmente, Vox supporta solo le cinque varianti Whisper integrate. Il supporto per modelli personalizzati potrebbe essere aggiunto nelle versioni future.
Prossimi Passi
- Abilitare il Miglioramento AI per una migliore qualità di trascrizione
- Aggiungere parole personalizzate per migliorare la precisione dei termini tecnici
- Configurare le scorciatoie per registrare facilmente
- Regolare le impostazioni HUD per un migliore feedback di registrazione