Modelli Vocali

Vox utilizza i modelli Whisper di OpenAI per il riconoscimento vocale locale. Questa guida spiega i modelli disponibili e come scegliere quello giusto per le proprie esigenze.

Comprendere i Modelli Vocali

Schermata Modelli Vocali

Accedi ai modelli vocali da Impostazioni → Voce.

Cosa Sono i Modelli Whisper?

Whisper è il sistema di riconoscimento automatico del parlato (ASR) open-source di OpenAI. Vox esegue questi modelli localmente sul tuo dispositivo, garantendo:

Privacy: L'audio non lascia mai il tuo dispositivo
Capacità offline: Funziona senza connessione internet
Velocità: Nessuna latenza di rete
Costo: Nessun addebito al minuto

Privacy Prima di Tutto

Tutto il riconoscimento vocale avviene sul tuo dispositivo. I tuoi dati vocali non vengono mai inviati a server esterni (a meno che non abiliti il Miglioramento AI).

Modelli Disponibili

Vox offre cinque varianti del modello Whisper, ognuna con un diverso equilibrio tra velocità e precisione:

Il Più Veloce

Dimensione: ~75MB Velocità: Latenza minima (<50ms) Precisione: Buona per un parlato chiaro Ideale per: Comandi rapidi, frasi brevi, test

Il modello più piccolo e veloce. Ideale per gli utenti che privilegiano la velocità rispetto alla precisione o hanno spazio su disco limitato.

Veloce

Dimensione: ~150MB Velocità: Latenza molto bassa (~50ms) Precisione: Migliore di Il Più Veloce Ideale per: Uso quotidiano con parlato chiaro

Un buon compromesso tra velocità e qualità. Adatto alla maggior parte delle esigenze di trascrizione occasionale.

Bilanciato

Dimensione: ~480MB Velocità: Consigliato (~480MB) Precisione: Buona precisione per uso generale Ideale per: La maggior parte degli utenti, trascrizione generale

Consigliato per la maggior parte degli utenti. Fornisce un'eccellente precisione per l'uso quotidiano senza richiedere risorse eccessive.

Accurato

Dimensione: ~1,5GB Velocità: Migliore precisione, latenza più decente (~1,5GB) Precisione: Alta precisione per un parlato complesso Ideale per: Trascrizione professionale, contenuti tecnici, accenti

Maggiore precisione per condizioni audio difficili, terminologia tecnica e vari accenti.

Migliore

Dimensione: ~3GB Velocità: Qualità massima, CPU significativo (~3GB) Precisione: Precisione massima Ideale per: Trascrizione critica, multilingue, ambienti rumorosi

Il modello più grande e preciso. Da usare quando la qualità della trascrizione è fondamentale e le risorse di sistema lo consentono.

Scaricare i Modelli

Configurazione Iniziale

Modelli Prima del Download

Quando installi Vox per la prima volta, nessun modello è scaricato. Devi scaricare almeno un modello per usare Vox.

Per scaricare un modello:

Vai a Impostazioni → Voce
Clicca su Scarica accanto al modello scelto
Attendi il completamento del download
Il pulsante diventa "Scaricato" quando è pronto

Modelli Scaricati

Raccomandazione Primo Modello

Inizia con Bilanciato per il miglior equilibrio tra qualità e prestazioni. Puoi sempre scaricare modelli aggiuntivi in seguito.

Scaricare Più Modelli

Puoi scaricare più modelli e passare da uno all'altro:

Scarica modelli diversi per casi d'uso diversi
Testa ogni modello con il pulsante Testa Modello Locale
Vox usa il modello attualmente selezionato (contrassegnato con un segno di spunta)
Passa da un modello all'altro in qualsiasi momento senza riscaricarlo

Requisiti di Download

Connessione internet: Richiesta per il download iniziale
Spazio su disco: Assicurati di avere spazio sufficiente per il modello scelto
Tempo: I download richiedono in genere da 1 a 10 minuti a seconda della dimensione del modello e della velocità di connessione

Requisiti di Sistema

Vox ha requisiti di sistema diversi a seconda del sistema operativo:

macOS

Requisito	Minimo	Consigliato
Versione SO	macOS 15 (Sequoia)	macOS 15+ (Sequoia o successivo)
Processore	Apple Silicon (M1) o Intel	Apple Silicon (M2 o più recente)
RAM	4 GB	8 GB o più
Archiviazione	500 MB - 4 GB	4 GB di spazio libero
Permessi	Microfono + Accessibilità	-

Prestazioni su Apple Silicon

Vox funziona significativamente più veloce su Apple Silicon (M1/M2/M3) rispetto ai Mac Intel grazie al supporto ottimizzato del motore neurale.

Windows

Requisito	Minimo	Consigliato
Versione SO	Windows 10 (64-bit)	Windows 11
Processore	Processore x64	Processore multi-core moderno
RAM	4 GB	8 GB o più
Archiviazione	500 MB - 4 GB	4 GB di spazio libero
Permessi	Accesso al microfono	-

Prestazioni su Windows

Le prestazioni variano in base al processore. Le CPU moderne (Intel 10ª gen+, AMD Ryzen 3000+) offrono una migliore velocità di trascrizione.

Prossimamente

Il supporto per Linux, iOS e Android è pianificato per future versioni. Vedi roadmap →

Testare i Modelli

Testa Modello Locale

Dopo aver scaricato un modello, verifica che funzioni correttamente:

Clicca su Testa Modello Locale
Di' una frase di test quando richiesto
Esamina il risultato della trascrizione
Cerca il messaggio di successo: "Yeah. This is just a test. I laughing"

Il test verifica:

Il modello è correttamente scaricato e installato
La pipeline audio funziona
La precisione della trascrizione soddisfa le tue esigenze

Testa con Contenuto Reale

Testa con frasi simili al tuo caso d'uso reale (termini tecnici, nomi, ecc.) per valutare la precisione.

Scegliere il Modello Giusto

Matrice di Decisione

Modello	Dimensione	Velocità	Precisione	Ideale Per
Il Più Veloce	75MB	⚡⚡⚡⚡⚡	⭐⭐⭐	Test, comandi semplici
Veloce	150MB	⚡⚡⚡⚡	⭐⭐⭐⭐	Uso quotidiano, parlato chiaro
Bilanciato	480MB	⚡⚡⚡	⭐⭐⭐⭐	Consigliato per la maggior parte
Accurato	1,5GB	⚡⚡	⭐⭐⭐⭐⭐	Lavoro professionale, contenuti tecnici
Migliore	3GB	⚡	⭐⭐⭐⭐⭐	Trascrizione critica, audio complesso

Considera il tuo Caso d'Uso

Scegli Il Più Veloce o Veloce se:

Hai bisogno di risultati di trascrizione istantanei
Trascrivi frasi brevi e semplici
Hai spazio su disco limitato
Parli chiaramente in ambienti silenziosi

Scegli Bilanciato se:

Vuoi una buona esperienza complessiva
Trascrivi contenuti sia brevi che lunghi
Hai bisogno di una precisione affidabile senza sacrificare troppa velocità
Non sei sicuro quale modello scegliere (inizia da qui!)

Scegli Accurato se:

Lavori con terminologia tecnica
Parli con accento o in più lingue
Trascrivi in ambienti con rumore di fondo
Hai bisogno di alta precisione per lavoro professionale

Scegli Migliore se:

Richiedi la massima precisione di trascrizione
Lavori con contenuti complessi e multilingue
Trascrivi documenti critici o contenuti legali
Hai un computer potente con molte risorse

Requisiti di Prestazioni del Modello

Tutti i modelli funzionano su qualsiasi computer che esegue Vox, ma le prestazioni variano:

Per Il Più Veloce, Veloce, Bilanciato:

Qualsiasi Mac dal 2018 in poi / Qualsiasi PC Windows moderno
8GB di RAM minimo
Aspettative di prestazioni standard

Per Accurato:

Mac dal 2020 in poi / PC Windows con 8 GB+ di RAM consigliato
16GB di RAM consigliato
Può essere più lento su computer più vecchi

Per Migliore:

Mac Apple Silicon o PC Windows moderno con 16 GB+ di RAM
16GB+ di RAM consigliato
Aspettati un tempo di elaborazione notevole sulle trascrizioni

Vantaggio di Apple Silicon

I Mac con Apple Silicon (chip M1, M2, M3) eseguono i modelli Whisper significativamente più velocemente dei Mac Intel grazie al loro Neural Engine.

Prestazioni dei Modelli

Esempi di Tempi di Elaborazione

Tempi di trascrizione approssimativi per una registrazione di 10 secondi:

Modello	Intel Mac (2019)	M1/M2 Mac	M3 Mac
Il Più Veloce	0,5s	0,2s	0,1s
Veloce	1s	0,5s	0,3s
Bilanciato	2s	1s	0,5s
Accurato	5s	2,5s	1,5s
Migliore	10s	4s	2s

I tempi sono approssimativi e variano in base alla complessità audio

Le prestazioni su PC Windows con specifiche equivalenti sono comparabili.

Confronto di Precisione

Esempio di qualità di trascrizione con termini tecnici:

Parlato originale: "Initialize the TypeScript interface with async await handlers"

Modello	Qualità di Trascrizione
Il Più Veloce	"Initialize the typescript interface with a sync away handlers"
Veloce	"Initialize the TypeScript interface with a sync await handlers"
Bilanciato	"Initialize the TypeScript interface with async await handlers" ✓
Accurato	"Initialize the TypeScript interface with async await handlers" ✓
Migliore	"Initialize the TypeScript interface with async await handlers" ✓

Miglioramento AI

Per una precisione ancora migliore, abilita il Miglioramento AI per post-elaborare le trascrizioni con grandi modelli di linguaggio.

Conservazione Audio

Impostazione Conservazione Audio

Configura quante registrazioni audio recenti Vox conserva su disco:

Predefinito: 10 registrazioni

Perché conservare l'audio:

Rivedere le trascrizioni per verificarne la precisione
Testare modelli diversi sullo stesso audio
Aggiungere parole mancanti al tuo dizionario
Effettuare il debug dei problemi di trascrizione

Regolare la conservazione:

Aumentare se rivedi frequentemente le registrazioni passate
Diminuire per risparmiare spazio su disco
Impostare su 0 per disabilitare completamente la conservazione audio

Nota sulla Privacy

Le registrazioni audio sono archiviate localmente nella cartella dell'applicazione Vox. Non vengono mai inviate a meno che non abiliti esplicitamente le funzionalità di Miglioramento AI.

Cambiare Modello

Puoi cambiare quale modello usa Vox in qualsiasi momento:

Vai a Impostazioni → Voce
Clicca su un modello scaricato diverso
Il modello con il segno di spunta è attivo
La tua prossima registrazione userà il nuovo modello

Non è necessario riavviare - la modifica ha effetto immediatamente.

Gestire lo Spazio su Disco

Verificare l'Archiviazione dei Modelli

I modelli sono archiviati in:

~/Library/Application Support/Vox/models/

Rimuovere i Modelli

Per liberare spazio su disco:

Vai a Impostazioni → Voce
Trova i modelli di cui non hai più bisogno
Clicca sull'icona del cestino accanto al modello
Conferma l'eliminazione

Puoi riscaricare i modelli in qualsiasi momento senza penalità.

Consigli sull'Archiviazione

Mantieni solo i modelli che usi attivamente
Il modello Bilanciato è una buona scelta come modello singolo
Scarica modelli più grandi solo quando necessario
La conservazione audio occupa spazio minimo (configurabile)

Risoluzione dei Problemi

Download del Modello Fallito

Soluzione:

Controlla la tua connessione internet
Assicurati di avere spazio su disco sufficiente
Prova prima a scaricare un modello più piccolo
Riavvia Vox e riprova

Il Test del Modello Locale Fallisce

Soluzione:

Verifica che l'autorizzazione microfono sia concessa
Controlla Preferenze di Sistema → Suono → Ingresso per la selezione del microfono
Prova un modello diverso
Riavvia Vox

Scarsa Qualità di Trascrizione

Soluzioni:

Passare a un modello più grande: Prova Accurato o Migliore
Verificare la qualità audio: Parla chiaramente, riduci il rumore di fondo
Aggiungere parole personalizzate: Usa la funzione Dizionario
Abilitare il Miglioramento AI: Post-elabora con AI per risultati migliori

Il Modello Impiega Troppo Tempo a Elaborare

Soluzioni:

Passare a un modello più piccolo: Prova Veloce o Bilanciato
Accorciare le registrazioni: Dividi le dettature lunghe in parti più piccole
Chiudere altre app: Libera risorse CPU
Controllare l'attività del sistema: Assicurati che il computer non sia sotto carico pesante

Modello Che Usa Troppa CPU/Memoria

Soluzioni:

Passa a un modello più piccolo (Il Più Veloce o Veloce)
Chiudi applicazioni in background
Riduci la conservazione audio per liberare risorse
Considera di aggiornare il tuo hardware se hai bisogno di modelli più grandi

Argomenti Avanzati

Architettura dei Modelli

Vox utilizza versioni quantizzate dei modelli Whisper ottimizzate per:

Inferenza ottimizzata su tutte le piattaforme
Impronta di memoria ridotta
Precisione mantenuta rispetto ai modelli originali
Accelerazione del Neural Engine di Apple Silicon

Supporto delle Lingue

Tutti i modelli Whisper supportano più lingue tra cui:

Inglese, Spagnolo, Francese, Tedesco, Italiano, Portoghese
Cinese, Giapponese, Coreano
E 90+ altre lingue

Configura le lingue vocali in Impostazioni → Generale → Lingue.

Modelli Personalizzati

Attualmente, Vox supporta solo le cinque varianti Whisper integrate. Il supporto per modelli personalizzati potrebbe essere aggiunto nelle versioni future.

Prossimi Passi

Abilitare il Miglioramento AI per una migliore qualità di trascrizione
Aggiungere parole personalizzate per migliorare la precisione dei termini tecnici
Configurare le scorciatoie per registrare facilmente
Regolare le impostazioni HUD per un migliore feedback di registrazione

Modelli Vocali ​

Comprendere i Modelli Vocali ​

Cosa Sono i Modelli Whisper? ​

Modelli Disponibili ​

Il Più Veloce ​

Veloce ​

Bilanciato ​

Accurato ​

Migliore ​

Scaricare i Modelli ​

Configurazione Iniziale ​

Scaricare Più Modelli ​

Requisiti di Download ​

Requisiti di Sistema ​

macOS ​

Windows ​

Prossimamente ​

Testare i Modelli ​

Scegliere il Modello Giusto ​

Matrice di Decisione ​

Considera il tuo Caso d'Uso ​

Requisiti di Prestazioni del Modello ​

Prestazioni dei Modelli ​

Esempi di Tempi di Elaborazione ​

Confronto di Precisione ​

Conservazione Audio ​

Cambiare Modello ​

Gestire lo Spazio su Disco ​

Verificare l'Archiviazione dei Modelli ​

Rimuovere i Modelli ​

Consigli sull'Archiviazione ​

Risoluzione dei Problemi ​

Download del Modello Fallito ​

Il Test del Modello Locale Fallisce ​

Scarsa Qualità di Trascrizione ​

Il Modello Impiega Troppo Tempo a Elaborare ​

Modello Che Usa Troppa CPU/Memoria ​

Argomenti Avanzati ​

Architettura dei Modelli ​

Supporto delle Lingue ​

Modelli Personalizzati ​

Prossimi Passi ​

Modelli Vocali

Comprendere i Modelli Vocali

Cosa Sono i Modelli Whisper?

Modelli Disponibili

Il Più Veloce

Veloce

Bilanciato

Accurato

Migliore

Scaricare i Modelli

Configurazione Iniziale

Scaricare Più Modelli

Requisiti di Download

Requisiti di Sistema

macOS

Windows

Prossimamente

Testare i Modelli

Scegliere il Modello Giusto

Matrice di Decisione

Considera il tuo Caso d'Uso

Requisiti di Prestazioni del Modello

Prestazioni dei Modelli

Esempi di Tempi di Elaborazione

Confronto di Precisione

Conservazione Audio

Cambiare Modello

Gestire lo Spazio su Disco

Verificare l'Archiviazione dei Modelli

Rimuovere i Modelli

Consigli sull'Archiviazione

Risoluzione dei Problemi

Download del Modello Fallito

Il Test del Modello Locale Fallisce

Scarsa Qualità di Trascrizione

Il Modello Impiega Troppo Tempo a Elaborare

Modello Che Usa Troppa CPU/Memoria

Argomenti Avanzati

Architettura dei Modelli

Supporto delle Lingue

Modelli Personalizzati

Prossimi Passi