Skip to content

Sprachmodelle

Vox verwendet OpenAIs Whisper-Modelle für lokale Spracherkennung. Dieser Leitfaden erklärt die verfügbaren Modelle und wie Sie das richtige für Ihre Bedürfnisse auswählen.

Sprachmodelle Verstehen

Bildschirm Sprachmodelle

Rufen Sie Sprachmodelle über Einstellungen → Sprache auf.

Was Sind Whisper-Modelle?

Whisper ist OpenAIs Open-Source-System zur automatischen Spracherkennung (ASR). Vox führt diese Modelle lokal auf Ihrem Gerät aus und gewährleistet:

  • Datenschutz: Audio verlässt niemals Ihr Gerät
  • Offline-Fähigkeit: Funktioniert ohne Internetverbindung
  • Geschwindigkeit: Keine Netzwerklatenz
  • Kosten: Keine minutenbasierten Gebühren

Datenschutz Zuerst

Alle Spracherkennung findet auf Ihrem Gerät statt. Ihre Sprachdaten werden niemals an externe Server gesendet (es sei denn, Sie aktivieren KI-Verbesserung).

Verfügbare Modelle

Vox bietet fünf Whisper-Modellvarianten, die Geschwindigkeit und Genauigkeit unterschiedlich ausbalancieren:

Am Schnellsten

Größe: ~75MB Geschwindigkeit: Geringste Latenz (<50ms) Genauigkeit: Gut für klare Sprache Ideal für: Schnelle Befehle, kurze Phrasen, Tests

Das kleinste und schnellste Modell. Ideal für Benutzer, die Geschwindigkeit über Genauigkeit stellen oder begrenzten Festplattenspeicher haben.

Schnell

Größe: ~150MB Geschwindigkeit: Sehr geringe Latenz (~50ms) Genauigkeit: Besser als Am Schnellsten Ideal für: Täglicher Gebrauch mit klarer Sprache

Ein guter Mittelweg zwischen Geschwindigkeit und Qualität. Geeignet für die meisten gelegentlichen Transkriptionsbedürfnisse.

Ausgewogen

Größe: ~480MB Geschwindigkeit: Empfohlen (~480MB) Genauigkeit: Gute Allzweck-Genauigkeit Ideal für: Die meisten Benutzer, allgemeine Transkription

Für die meisten Benutzer empfohlen. Bietet hervorragende Genauigkeit für den täglichen Gebrauch ohne übermäßige Ressourcen zu benötigen.

Genau

Größe: ~1,5GB Geschwindigkeit: Bessere Genauigkeit, anständigere Latenz (~1,5GB) Genauigkeit: Hohe Genauigkeit für komplexe Sprache Ideal für: Professionelle Transkription, technische Inhalte, Akzente

Höhere Genauigkeit für schwierige Audiobedingungen, technische Terminologie und verschiedene Akzente.

Bestes

Größe: ~3GB Geschwindigkeit: Höchste Qualität, erhebliche CPU (~3GB) Genauigkeit: Maximale Genauigkeit Ideal für: Kritische Transkription, Mehrsprachigkeit, laute Umgebungen

Das größte und genaueste Modell. Verwenden Sie es, wenn Transkriptionsqualität an erster Stelle steht und die Systemressourcen es erlauben.

Modelle Herunterladen

Ersteinrichtung

Modelle vor dem Herunterladen

Wenn Sie Vox zum ersten Mal installieren, sind keine Modelle heruntergeladen. Sie müssen mindestens ein Modell herunterladen, um Vox zu verwenden.

So laden Sie ein Modell herunter:

  1. Navigieren Sie zu Einstellungen → Sprache
  2. Klicken Sie auf Herunterladen neben Ihrem gewählten Modell
  3. Warten Sie, bis der Download abgeschlossen ist
  4. Die Schaltfläche wechselt zu "Heruntergeladen", wenn es fertig ist

Heruntergeladene Modelle

Erste Modell-Empfehlung

Beginnen Sie mit Ausgewogen für das beste Gleichgewicht aus Qualität und Leistung. Sie können jederzeit weitere Modelle herunterladen.

Mehrere Modelle Herunterladen

Sie können mehrere Modelle herunterladen und zwischen ihnen wechseln:

  1. Laden Sie verschiedene Modelle für verschiedene Anwendungsfälle herunter
  2. Testen Sie jedes Modell mit der Schaltfläche Lokales Modell Testen
  3. Vox verwendet das aktuell ausgewählte Modell (mit einem Häkchen markiert)
  4. Wechseln Sie jederzeit zwischen Modellen ohne erneutes Herunterladen

Download-Anforderungen

  • Internetverbindung: Erforderlich für den erstmaligen Download
  • Festplattenspeicher: Stellen Sie ausreichend Platz für Ihr gewähltes Modell sicher
  • Zeit: Downloads dauern je nach Modellgröße und Verbindungsgeschwindigkeit 1-10 Minuten

Systemanforderungen

Vox hat unterschiedliche Systemanforderungen je nach Betriebssystem:

macOS

AnforderungMinimumEmpfohlen
BetriebssystemversionmacOS 15 (Sequoia)macOS 15+ (Sequoia oder neuer)
ProzessorApple Silicon (M1) oder IntelApple Silicon (M2 oder neuer)
RAM4 GB8 GB oder mehr
Speicher500 MB - 4 GB4 GB freier Speicherplatz
BerechtigungenMikrofon + Bedienungshilfen-

Apple Silicon Leistung

Vox läuft deutlich schneller auf Apple Silicon (M1/M2/M3) im Vergleich zu Intel Macs aufgrund optimierter Neural Engine Unterstützung.

Windows

AnforderungMinimumEmpfohlen
BetriebssystemversionWindows 10 (64-bit)Windows 11
Prozessorx64 ProzessorModerner Mehrkernprozessor
RAM4 GB8 GB oder mehr
Speicher500 MB - 4 GB4 GB freier Speicherplatz
BerechtigungenMikrofonzugriff-

Windows Leistung

Die Leistung variiert je nach Prozessor. Moderne CPUs (Intel 10. Gen+, AMD Ryzen 3000+) bieten bessere Transkriptionsgeschwindigkeit.

Demnächst

Unterstützung für Linux, iOS und Android ist für zukünftige Versionen geplant. Roadmap ansehen →

Modelle Testen

Lokales Modell Testen

Überprüfen Sie nach dem Herunterladen eines Modells, ob es korrekt funktioniert:

  1. Klicken Sie auf Lokales Modell Testen
  2. Sprechen Sie eine Testphrase, wenn Sie dazu aufgefordert werden
  3. Überprüfen Sie das Transkriptionsergebnis
  4. Suchen Sie nach der Erfolgsmeldung: "Yeah. This is just a test. I laughing"

Der Test überprüft:

  • Modell ist korrekt heruntergeladen und installiert
  • Audio-Pipeline funktioniert
  • Transkriptionsgenauigkeit entspricht Ihren Anforderungen

Mit realem Inhalt testen

Testen Sie mit Phrasen ähnlich Ihrem tatsächlichen Anwendungsfall (technische Begriffe, Namen usw.), um die Genauigkeit zu beurteilen.

Das Richtige Modell Auswählen

Entscheidungsmatrix

ModellGrößeGeschwindigkeitGenauigkeitIdeal Für
Am Schnellsten75MB⚡⚡⚡⚡⚡⭐⭐⭐Tests, einfache Befehle
Schnell150MB⚡⚡⚡⚡⭐⭐⭐⭐Täglicher Gebrauch, klare Sprache
Ausgewogen480MB⚡⚡⚡⭐⭐⭐⭐Für die meisten Benutzer empfohlen
Genau1,5GB⚡⚡⭐⭐⭐⭐⭐Professionelle Arbeit, technische Inhalte
Bestes3GB⭐⭐⭐⭐⭐Kritische Transkription, komplexes Audio

Berücksichtigen Sie Ihren Anwendungsfall

Wählen Sie Am Schnellsten oder Schnell, wenn Sie:

  • Sofortige Transkriptionsergebnisse benötigen
  • Kurze, einfache Phrasen transkribieren
  • Begrenzten Festplattenspeicher haben
  • Klar in ruhigen Umgebungen sprechen

Wählen Sie Ausgewogen, wenn Sie:

  • Eine gute Allround-Erfahrung möchten
  • Sowohl kurze als auch lange Inhalte transkribieren
  • Zuverlässige Genauigkeit ohne zu viel Geschwindigkeitseinbuße benötigen
  • Unsicher sind, welches Modell Sie wählen sollen (beginnen Sie hier!)

Wählen Sie Genau, wenn Sie:

  • Mit technischer Terminologie arbeiten
  • Mit Akzent oder in mehreren Sprachen sprechen
  • In Umgebungen mit Hintergrundgeräuschen transkribieren
  • Hohe Genauigkeit für professionelle Arbeit benötigen

Wählen Sie Bestes, wenn Sie:

  • Maximale Transkriptionsgenauigkeit benötigen
  • Mit komplexen, mehrsprachigen Inhalten arbeiten
  • Kritische Dokumente oder rechtliche Inhalte transkribieren
  • Einen leistungsstarken Computer mit reichlich Ressourcen haben

Systemanforderungen

Alle Modelle funktionieren auf jedem Computer, der Vox ausführt, aber die Leistung variiert:

Für Am Schnellsten, Schnell, Ausgewogen:

  • Jeder Mac ab 2018 oder später / Jeder moderne Windows-PC
  • 8GB RAM Minimum
  • Standard-Leistungserwartungen

Für Genau:

  • Mac ab 2020 oder später / Windows-PC mit 8 GB+ RAM empfohlen
  • 16GB RAM empfohlen
  • Kann auf älteren Systemen langsamer sein

Für Bestes:

  • Apple Silicon Mac oder moderner Windows-PC mit 16 GB+ RAM
  • 16GB+ RAM empfohlen
  • Spürbare Verarbeitungszeit bei Transkriptionen erwartet

Apple Silicon Vorteil

Macs mit Apple Silicon (M1-, M2-, M3-Chips) führen Whisper-Modelle aufgrund ihres Neural Engine deutlich schneller aus als Intel-Macs.

Modellleistung

Beispiele für Verarbeitungszeiten

Ungefähre Transkriptionszeiten für eine 10-Sekunden-Aufnahme:

ModellIntel Mac (2019)M1/M2 MacM3 Mac
Am Schnellsten0,5s0,2s0,1s
Schnell1s0,5s0,3s
Ausgewogen2s1s0,5s
Genau5s2,5s1,5s
Bestes10s4s2s

Zeiten sind ungefähr und variieren je nach Audiokomplexität

Die Leistung auf Windows-PCs mit vergleichbaren Spezifikationen ist ähnlich.

Genauigkeitsvergleich

Beispiel der Transkriptionsqualität mit technischen Begriffen:

Originalsprache: "Initialize the TypeScript interface with async await handlers"

ModellTranskriptionsqualität
Am Schnellsten"Initialize the typescript interface with a sync away handlers"
Schnell"Initialize the TypeScript interface with a sync await handlers"
Ausgewogen"Initialize the TypeScript interface with async await handlers" ✓
Genau"Initialize the TypeScript interface with async await handlers" ✓
Bestes"Initialize the TypeScript interface with async await handlers" ✓

KI-Verbesserung

Für noch bessere Genauigkeit aktivieren Sie die KI-Verbesserung, um Transkriptionen mit großen Sprachmodellen nachzubearbeiten.

Audio-Aufbewahrung

Audio-Aufbewahrungseinstellung

Konfigurieren Sie, wie viele neueste Audioaufnahmen Vox auf der Festplatte behält:

Standard: 10 Aufnahmen

Warum Audio aufbewahren:

  • Transkriptionen auf Genauigkeit überprüfen
  • Verschiedene Modelle mit demselben Audio testen
  • Fehlende Wörter zu Ihrem Wörterbuch hinzufügen
  • Transkriptionsprobleme debuggen

Aufbewahrung anpassen:

  • Erhöhen, wenn Sie häufig vergangene Aufnahmen überprüfen
  • Verringern, um Festplattenspeicher zu sparen
  • Auf 0 setzen, um die Audio-Aufbewahrung vollständig zu deaktivieren

Datenschutzhinweis

Audioaufnahmen werden lokal im Anwendungsordner von Vox gespeichert. Sie werden niemals gesendet, es sei denn, Sie aktivieren explizit KI-Verbesserungsfunktionen.

Modelle Wechseln

Sie können jederzeit ändern, welches Modell Vox verwendet:

  1. Navigieren Sie zu Einstellungen → Sprache
  2. Klicken Sie auf ein anderes heruntergeladenes Modell
  3. Das Modell mit einem Häkchen ist aktiv
  4. Ihre nächste Aufnahme verwendet das neue Modell

Kein Neustart erforderlich - die Änderung tritt sofort in Kraft.

Festplattenspeicher Verwalten

Modellspeicher Überprüfen

Modelle werden gespeichert in:

~/Library/Application Support/Vox/models/

Modelle Entfernen

Um Festplattenspeicher freizugeben:

  1. Navigieren Sie zu Einstellungen → Sprache
  2. Suchen Sie Modelle, die Sie nicht mehr benötigen
  3. Klicken Sie auf das Papierkorb-Symbol neben dem Modell
  4. Bestätigen Sie die Löschung

Sie können Modelle jederzeit ohne Strafe erneut herunterladen.

Speichertipps

  • Behalten Sie nur die Modelle, die Sie aktiv verwenden
  • Das Ausgewogene Modell ist eine gute Einzelmodell-Wahl
  • Laden Sie größere Modelle nur bei Bedarf herunter
  • Die Audio-Aufbewahrung belegt minimalen Platz (konfigurierbar)

Fehlerbehebung

Modell-Download Fehlgeschlagen

Lösung:

  1. Überprüfen Sie Ihre Internetverbindung
  2. Stellen Sie ausreichend Festplattenspeicher sicher
  3. Versuchen Sie zunächst, ein kleineres Modell herunterzuladen
  4. Starten Sie Vox neu und versuchen Sie es erneut

Lokaler Modelltest Schlägt Fehl

Lösung:

  1. Überprüfen Sie, ob die Mikrofon-Berechtigung gewährt ist
  2. Prüfen Sie Systemeinstellungen → Ton → Eingabe für Mikrofonauswahl
  3. Versuchen Sie ein anderes Modell
  4. Starten Sie Vox neu

Schlechte Transkriptionsqualität

Lösungen:

  1. Auf ein größeres Modell upgraden: Versuchen Sie Genau oder Bestes
  2. Audioqualität prüfen: Sprechen Sie klar, reduzieren Sie Hintergrundgeräusche
  3. Benutzerdefinierte Wörter hinzufügen: Nutzen Sie die Wörterbuch-Funktion
  4. KI-Verbesserung aktivieren: Mit KI nachbearbeiten für bessere Ergebnisse

Modell Benötigt Zu Lange Zum Verarbeiten

Lösungen:

  1. Auf ein kleineres Modell downgraden: Versuchen Sie Schnell oder Ausgewogen
  2. Aufnahmen verkürzen: Lange Diktate in kleinere Teile aufteilen
  3. Andere Apps schließen: CPU-Ressourcen freigeben
  4. Systemaktivität prüfen: Sicherstellen, dass Ihr Computer nicht stark ausgelastet ist

Modell Nutzt Zu Viel CPU/Arbeitsspeicher

Lösungen:

  1. Auf ein kleineres Modell wechseln (Am Schnellsten oder Schnell)
  2. Hintergrundanwendungen schließen
  3. Audio-Aufbewahrung reduzieren, um Ressourcen freizugeben
  4. Hardware-Upgrade in Betracht ziehen, wenn Sie größere Modelle benötigen

Fortgeschrittene Themen

Modellarchitektur

Vox verwendet quantisierte Versionen von Whisper-Modellen, optimiert für:

  • Optimierte Inferenz auf allen Plattformen
  • Reduzierter Speicherbedarf
  • Beibehaltene Genauigkeit gegenüber den Originalmodellen
  • Apple Silicon Neural Engine-Beschleunigung

Sprachunterstützung

Alle Whisper-Modelle unterstützen mehrere Sprachen, darunter:

  • Englisch, Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch
  • Chinesisch, Japanisch, Koreanisch
  • Und 90+ andere Sprachen

Konfigurieren Sie Spracherkennungssprachen unter Einstellungen → Allgemein → Sprachen.

Benutzerdefinierte Modelle

Derzeit unterstützt Vox nur die fünf integrierten Whisper-Varianten. Unterstützung für benutzerdefinierte Modelle könnte in zukünftigen Versionen hinzugefügt werden.

Nächste Schritte

Mit 💜 von der Open-Source-Community und Hauptmitwirkenden erstellt