Konuşma Modelleri
Vox, yerel konuşma tanıma için OpenAI'ın Whisper modellerini kullanır. Bu kılavuz mevcut modelleri ve ihtiyaçlarınız için doğru olanı nasıl seçeceğinizi açıklar.
Konuşma Modellerini Anlama

Konuşma modellerine Ayarlar → Konuşma bölümünden erişin.
Whisper Modelleri Nedir?
Whisper, OpenAI'ın açık kaynaklı otomatik konuşma tanıma (ASR) sistemidir. Vox bu modelleri cihazınızda yerel olarak çalıştırır ve şunları garantiler:
- Gizlilik: Ses asla cihazınızdan ayrılmaz
- Çevrimdışı kapasite: İnternet bağlantısı olmadan çalışır
- Hız: Ağ gecikmesi yoktur
- Maliyet: Dakika başına ücret yoktur
Gizlilik Önce
Tüm konuşma tanıma cihazınızda gerçekleşir. Ses verileriniz asla harici sunuculara gönderilmez (AI Geliştirmeyi etkinleştirmediğiniz sürece).
Kullanılabilir Modeller
Vox, hız ve doğruluk arasında farklı dengeler kuran beş Whisper modeli çeşidi sunar:
En Hızlı
Boyut: ~75MB Hız: En düşük gecikme (<50ms) Doğruluk: Net konuşma için iyi İdeal durumlar: Hızlı komutlar, kısa ifadeler, test
En küçük ve hızlı model. Hızı doğruluğun önünde tutan veya sınırlı disk alanına sahip kullanıcılar için idealdir.
Hızlı
Boyut: ~150MB Hız: Çok düşük gecikme (~50ms) Doğruluk: En Hızlı'dan daha iyi İdeal durumlar: Net konuşmayla günlük kullanım
Hız ve kalite arasında iyi bir denge. Çoğu gündelik transkripsiyon ihtiyacı için uygundur.
Dengeli
Boyut: ~480MB Hız: Önerilen (~480MB) Doğruluk: İyi genel amaçlı doğruluk İdeal durumlar: Çoğu kullanıcı, genel transkripsiyon
Çoğu kullanıcı için önerilen. Aşırı kaynak gerektirmeden günlük kullanım için mükemmel doğruluk sağlar.
Doğru
Boyut: ~1,5GB Hız: Daha iyi doğruluk, daha kabul edilebilir gecikme (~1,5GB) Doğruluk: Karmaşık konuşma için yüksek doğruluk İdeal durumlar: Profesyonel transkripsiyon, teknik içerik, aksanlar
Zorlu ses koşulları, teknik terminoloji ve çeşitli aksanlar için daha yüksek doğruluk.
En İyi
Boyut: ~3GB Hız: En yüksek kalite, önemli CPU kullanımı (~3GB) Doğruluk: Maksimum doğruluk İdeal durumlar: Kritik transkripsiyon, çok dilli, gürültülü ortamlar
En büyük ve en doğru model. Transkripsiyon kalitesi birincil öncelik olduğunda ve sistem kaynakları buna izin verdiğinde kullanın.
Performans Notu
Eşdeğer özelliklere sahip Windows PC'lerdeki performans karşılaştırılabilirdir.
Modelleri İndirme
İlk Kurulum

Vox'u ilk kez yüklediğinizde hiçbir model indirilmemiştir. Vox'u kullanmak için en az bir model indirmeniz gerekir.
Bir modeli indirmek için:
- Ayarlar → Konuşma bölümüne gidin
- Seçtiğiniz modelin yanındaki İndir'e tıklayın
- İndirmenin tamamlanmasını bekleyin
- Hazır olduğunda düğme "İndirildi" olarak değişir

İlk Model Önerisi
En iyi kalite ve performans dengesi için Dengeli ile başlayın. Daha sonra her zaman ek modeller indirebilirsiniz.
Birden Fazla Model İndirme
Birden fazla model indirebilir ve aralarında geçiş yapabilirsiniz:
- Farklı kullanım durumları için farklı modeller indirin
- Yerel Modeli Test Et düğmesiyle her modeli test edin
- Vox şu anda seçili modeli kullanır (onay işaretiyle işaretli)
- Yeniden indirmeye gerek kalmadan istediğiniz zaman modeller arasında geçiş yapın
İndirme Gereksinimleri
- İnternet bağlantısı: İlk indirme için gerekli
- Disk alanı: Seçtiğiniz model için yeterli alan olduğundan emin olun
- Süre: İndirmeler model boyutuna ve bağlantı hızına bağlı olarak genellikle 1-10 dakika sürer
Sistem Gereksinimleri
Vox, işletim sisteminize bağlı olarak farklı sistem gereksinimlerine sahiptir:
macOS
| Gereksinim | Minimum | Önerilen |
|---|---|---|
| İşletim Sistemi Sürümü | macOS 15 (Sequoia) | macOS 15+ (Sequoia veya sonrası) |
| İşlemci | Apple Silicon (M1) veya Intel | Apple Silicon (M2 veya daha yeni) |
| RAM | 4 GB | 8 GB veya daha fazla |
| Depolama | 500 MB - 4 GB | 4 GB boş alan |
| İzinler | Mikrofon + Erişilebilirlik | - |
Apple Silicon Performansı
Vox, optimize edilmiş sinir motoru desteği sayesinde Apple Silicon (M1/M2/M3) üzerinde Intel Mac'lere kıyasla önemli ölçüde daha hızlı çalışır.
Windows
| Gereksinim | Minimum | Önerilen |
|---|---|---|
| İşletim Sistemi Sürümü | Windows 10 (64-bit) | Windows 11 |
| İşlemci | x64 işlemci | Modern çok çekirdekli işlemci |
| RAM | 4 GB | 8 GB veya daha fazla |
| Depolama | 500 MB - 4 GB | 4 GB boş alan |
| İzinler | Mikrofon erişimi | - |
Windows Performansı
Performans işlemciye bağlı olarak değişir. Modern işlemciler (Intel 10. nesil+, AMD Ryzen 3000+) daha iyi transkripsiyon hızı sağlar.
Yakında
Linux, iOS ve Android desteği gelecek sürümler için planlanmıştır. Yol haritasını görün →
Modelleri Test Etme

Bir modeli indirdikten sonra doğru çalıştığını doğrulayın:
- Yerel Modeli Test Et'e tıklayın
- İstendiğinde bir test ifadesi söyleyin
- Transkripsiyon sonucunu inceleyin
- Başarı mesajını arayın: "Yeah. This is just a test. I laughing"
Test şunları doğrular:
- Model düzgün şekilde indirilmiş ve yüklenmiştir
- Ses ardışık düzeni çalışıyordur
- Transkripsiyon doğruluğu ihtiyaçlarınızı karşılar
Gerçek İçerikle Test Edin
Doğruluğu değerlendirmek için gerçek kullanım durumunuza benzer ifadelerle (teknik terimler, isimler vb.) test edin.
Doğru Modeli Seçme
Karar Matrisi
| Model | Boyut | Hız | Doğruluk | İdeal Durumlar |
|---|---|---|---|---|
| En Hızlı | 75MB | ⚡⚡⚡⚡⚡ | ⭐⭐⭐ | Test, basit komutlar |
| Hızlı | 150MB | ⚡⚡⚡⚡ | ⭐⭐⭐⭐ | Günlük kullanım, net konuşma |
| Dengeli | 480MB | ⚡⚡⚡ | ⭐⭐⭐⭐ | Çoğu kullanıcı için önerilen |
| Doğru | 1,5GB | ⚡⚡ | ⭐⭐⭐⭐⭐ | Profesyonel çalışma, teknik içerik |
| En İyi | 3GB | ⚡ | ⭐⭐⭐⭐⭐ | Kritik transkripsiyon, karmaşık ses |
Kullanım Durumunuzu Göz Önünde Bulundurun
En Hızlı veya Hızlı'yı seçin şu durumlarda:
- Anında transkripsiyon sonuçlarına ihtiyaç duyuyorsanız
- Kısa, basit ifadeler transkribe ediyorsanız
- Sınırlı disk alanınız varsa
- Sessiz ortamlarda net konuşuyorsanız
Dengeli'yi seçin şu durumlarda:
- İyi bir genel deneyim istiyorsanız
- Hem kısa hem de uzun içerik transkribe ediyorsanız
- Çok fazla hız feda etmeden güvenilir doğruluğa ihtiyaç duyuyorsanız
- Hangi modeli seçeceğinizden emin değilseniz (buradan başlayın!)
Doğru'yu seçin şu durumlarda:
- Teknik terminolojiyle çalışıyorsanız
- Aksanla veya birden fazla dilde konuşuyorsanız
- Arka plan gürültüsü olan ortamlarda transkripsiyon yapıyorsanız
- Profesyonel çalışma için yüksek doğruluğa ihtiyaç duyuyorsanız
En İyi'yi seçin şu durumlarda:
- Maksimum transkripsiyon doğruluğu gerektiriyorsanız
- Karmaşık, çok dilli içerikle çalışıyorsanız
- Kritik belgeler veya hukuki içerik transkribe ediyorsanız
- Bol kaynaklı güçlü bir bilgisayarınız varsa
Model Performans Gereksinimleri
Tüm modeller Vox çalıştıran herhangi bir bilgisayarda çalışır ancak performans farklılık gösterir:
En Hızlı, Hızlı, Dengeli için:
- 2018 veya sonraki herhangi bir Mac / Herhangi bir modern Windows PC
- Minimum 8GB RAM
- Standart performans beklentileri
Doğru için:
- 2020 veya sonrası Mac / 8 GB+ RAM'li Windows PC önerilir
- 16GB RAM önerilir
- Eski bilgisayarlarda daha yavaş olabilir
En İyi için:
- Apple Silicon Mac veya 16 GB+ RAM'li modern Windows PC
- 16GB+ RAM önerilir
- Transkripsiyonlarda fark edilir işlem süresi beklenir
Apple Silicon Avantajı
Apple Silicon (M1, M2, M3 çipleri) ile Mac'ler, Neural Engine sayesinde Whisper modellerini Intel Mac'lere kıyasla önemli ölçüde daha hızlı çalıştırır.
Model Performansı
İşleme Süresi Örnekleri
10 saniyelik bir kayıt için yaklaşık transkripsiyon süreleri:
| Model | Intel Mac (2019) | M1/M2 Mac | M3 Mac |
|---|---|---|---|
| En Hızlı | 0,5s | 0,2s | 0,1s |
| Hızlı | 1s | 0,5s | 0,3s |
| Dengeli | 2s | 1s | 0,5s |
| Doğru | 5s | 2,5s | 1,5s |
| En İyi | 10s | 4s | 2s |
Süreler yaklaşıktır ve ses karmaşıklığına göre değişir
Doğruluk Karşılaştırması
Teknik terimlerle transkripsiyon kalitesi örneği:
Orijinal konuşma: "Initialize the TypeScript interface with async await handlers"
| Model | Transkripsiyon Kalitesi |
|---|---|
| En Hızlı | "Initialize the typescript interface with a sync away handlers" |
| Hızlı | "Initialize the TypeScript interface with a sync await handlers" |
| Dengeli | "Initialize the TypeScript interface with async await handlers" ✓ |
| Doğru | "Initialize the TypeScript interface with async await handlers" ✓ |
| En İyi | "Initialize the TypeScript interface with async await handlers" ✓ |
Yapay Zeka Geliştirmesi
Daha da iyi doğruluk için, büyük dil modelleriyle transkripsiyonları son işlemden geçirmek amacıyla AI Geliştirmesini etkinleştirin.
Ses Saklama

Vox'un diskte kaç son ses kaydı saklayacağını yapılandırın:
Varsayılan: 10 kayıt
Neden ses saklanır:
- Doğruluğu doğrulamak için transkripsiyonları gözden geçirme
- Aynı ses üzerinde farklı modelleri test etme
- Sözlüğünüze kaçırılan kelimeleri ekleme
- Transkripsiyon sorunlarını ayıklama
Saklamayı ayarlama:
- Geçmiş kayıtları sık sık gözden geçiriyorsanız Artırın
- Disk alanından tasarruf etmek için Azaltın
- Ses saklamayı tamamen devre dışı bırakmak için
0olarak ayarlayın
Gizlilik Notu
Ses kayıtları Vox'un uygulama klasöründe yerel olarak saklanır. AI Geliştirme özelliklerini açıkça etkinleştirmedikçe asla gönderilmezler.
Model Değiştirme
Vox'un kullandığı modeli istediğiniz zaman değiştirebilirsiniz:
- Ayarlar → Konuşma bölümüne gidin
- Farklı bir indirilen modele tıklayın
- Onay işareti olan model etkindir
- Bir sonraki kaydınız yeni modeli kullanacaktır
Yeniden başlatma gerekmez - değişiklik hemen etkili olur.
Disk Alanını Yönetme
Model Depolamasını Kontrol Etme
Modeller şurada saklanır:
~/Library/Application Support/Vox/models/Modelleri Kaldırma
Disk alanını boşaltmak için:
- Ayarlar → Konuşma bölümüne gidin
- Artık ihtiyaç duymadığınız modelleri bulun
- Modelin yanındaki çöp kutusu simgesine tıklayın
- Silmeyi onaylayın
Modelleri istediğiniz zaman ceza olmadan yeniden indirebilirsiniz.
Depolama İpuçları
- Yalnızca aktif olarak kullandığınız modelleri tutun
- Dengeli model, tek model seçimi için iyi bir tercihtir
- Daha büyük modelleri yalnızca gerektiğinde indirin
- Ses saklama minimum alan kaplar (yapılandırılabilir)
Sorun Giderme
Model İndirme Başarısız Oldu
Çözüm:
- İnternet bağlantınızı kontrol edin
- Yeterli disk alanı olduğundan emin olun
- Önce daha küçük bir model indirmeyi deneyin
- Vox'u yeniden başlatın ve tekrar deneyin
Yerel Model Testi Başarısız Oluyor
Çözüm:
- Mikrofon izninin verildiğini doğrulayın
- Mikrofon seçimi için Sistem Tercihleri → Ses → Giriş'i kontrol edin
- Farklı bir model deneyin
- Vox'u yeniden başlatın
Zayıf Transkripsiyon Kalitesi
Çözümler:
- Daha büyük bir modele geçin: Doğru veya En İyi'yi deneyin
- Ses kalitesini kontrol edin: Net konuşun, arka plan gürültüsünü azaltın
- Özel kelimeler ekleyin: Sözlük özelliğini kullanın
- AI Geliştirmesini Etkinleştirin: Daha iyi sonuçlar için AI ile son işleme yapın
Modelin İşlemesi Çok Uzun Sürüyor
Çözümler:
- Daha küçük bir modele geçin: Hızlı veya Dengeli'yi deneyin
- Kayıtları kısaltın: Uzun dikte işlemlerini daha küçük parçalara bölün
- Diğer uygulamaları kapatın: CPU kaynaklarını boşaltın
- Sistem aktivitesini kontrol edin: bilgisayarınızın yüksek yük altında olmadığından emin olun
Model Çok Fazla CPU/Bellek Kullanıyor
Çözümler:
- Daha küçük bir modele geçin (En Hızlı veya Hızlı)
- Arka plan uygulamalarını kapatın
- Kaynakları boşaltmak için ses saklamayı azaltın
- Daha büyük modellere ihtiyaç duyuyorsanız donanım yükseltmeyi düşünün
Gelişmiş Konular
Model Mimarisi
Vox, şunlar için optimize edilmiş Whisper modellerinin nicelleştirilmiş sürümlerini kullanır:
- Tüm platformlarda optimize edilmiş çıkarım
- Azaltılmış bellek ayak izi
- Orijinal modellerle karşılaştırıldığında korunan doğruluk
- Apple Silicon Neural Engine hızlandırması
Dil Desteği
Tüm Whisper modelleri şunlar dahil birden fazla dili destekler:
- İngilizce, İspanyolca, Fransızca, Almanca, İtalyanca, Portekizce
- Çince, Japonca, Korece
- Ve 90+ diğer diller
Ayarlar → Genel → Diller bölümünde konuşma dillerini yapılandırın.
Özel Modeller
Şu anda Vox yalnızca beş yerleşik Whisper çeşidini destekler. Özel model desteği gelecekteki sürümlerde eklenebilir.
Sonraki Adımlar
- Daha iyi transkripsiyon kalitesi için AI Geliştirmesini Etkinleştirin
- Teknik terimler için doğruluğu artırmak amacıyla özel kelimeler ekleyin
- Kolay kayıt için kısayolları yapılandırın
- Daha iyi kayıt geri bildirimi için HUD ayarlarını düzenleyin