Речевые Модели
Vox использует модели Whisper от OpenAI для локального распознавания речи. Это руководство объясняет доступные модели и как выбрать подходящую для ваших нужд.
Понимание Речевых Моделей

Откройте речевые модели через Настройки → Речь.
Что Такое Модели Whisper?
Whisper — это система автоматического распознавания речи (ASR) с открытым исходным кодом от OpenAI. Vox запускает эти модели локально на вашем устройстве, обеспечивая:
- Конфиденциальность: Аудио никогда не покидает ваше устройство
- Работа без интернета: Работает без подключения к сети
- Скорость: Нет сетевой задержки
- Стоимость: Нет поминутных платежей
Конфиденциальность Прежде Всего
Всё распознавание речи происходит на вашем устройстве. Ваши голосовые данные никогда не отправляются на внешние серверы (если только вы не включите улучшение ИИ).
Доступные Модели
Vox предлагает пять вариантов модели Whisper, каждый с разным балансом скорости и точности:
Самая Быстрая
Размер: ~75МБ Скорость: Минимальная задержка (<50мс) Точность: Хорошая для чёткой речи Идеально для: Быстрых команд, коротких фраз, тестирования
Наименьшая и самая быстрая модель. Идеальна для пользователей, которые отдают приоритет скорости над точностью или имеют ограниченное место на диске.
Быстрая
Размер: ~150МБ Скорость: Очень низкая задержка (~50мс) Точность: Лучше, чем Самая Быстрая Идеально для: Ежедневного использования с чёткой речью
Хороший компромисс между скоростью и качеством. Подходит для большинства повседневных потребностей в транскрипции.
Сбалансированная
Размер: ~480МБ Скорость: Рекомендуемая (~480МБ) Точность: Хорошая универсальная точность Идеально для: Большинства пользователей, общей транскрипции
Рекомендована для большинства пользователей. Обеспечивает отличную точность для ежедневного использования без чрезмерных ресурсов.
Точная
Размер: ~1,5ГБ Скорость: Лучшая точность, более приемлемая задержка (~1,5ГБ) Точность: Высокая точность для сложной речи Идеально для: Профессиональной транскрипции, технического контента, акцентов
Более высокая точность для сложных аудиоусловий, технической терминологии и различных акцентов.
Наилучшая
Размер: ~3ГБ Скорость: Наивысшее качество, значительная нагрузка на CPU (~3ГБ) Точность: Максимальная точность Идеально для: Критической транскрипции, многоязычного контента, шумных условий
Наибольшая и наиболее точная модель. Используйте, когда качество транскрипции является приоритетом и ресурсы системы позволяют.
Загрузка Моделей
Первоначальная Настройка

При первой установке Vox модели не загружены. Для использования Vox необходимо загрузить хотя бы одну модель.
Для загрузки модели:
- Перейдите в Настройки → Речь
- Нажмите Загрузить рядом с выбранной моделью
- Дождитесь завершения загрузки
- Кнопка изменится на «Загружено», когда будет готово

Рекомендация Первой Модели
Начните со Сбалансированной для лучшего баланса качества и производительности. Вы всегда можете загрузить дополнительные модели позже.
Загрузка Нескольких Моделей
Вы можете загрузить несколько моделей и переключаться между ними:
- Загрузите разные модели для разных случаев использования
- Протестируйте каждую модель кнопкой Протестировать Локальную Модель
- Vox использует текущую выбранную модель (отмечена галочкой)
- Переключайтесь между моделями в любое время без повторной загрузки
Требования к Загрузке
- Подключение к интернету: Требуется для первоначальной загрузки
- Место на диске: Убедитесь, что достаточно места для выбранной модели
- Время: Загрузки обычно занимают от 1 до 10 минут в зависимости от размера модели и скорости соединения
Системные Требования
У Vox разные системные требования в зависимости от вашей операционной системы:
macOS
| Требование | Минимум | Рекомендуется |
|---|---|---|
| Версия ОС | macOS 15 (Sequoia) | macOS 15+ (Sequoia или новее) |
| Процессор | Apple Silicon (M1) или Intel | Apple Silicon (M2 или новее) |
| ОЗУ | 4 ГБ | 8 ГБ или больше |
| Хранилище | 500 МБ - 4 ГБ | 4 ГБ свободного места |
| Разрешения | Микрофон + Универсальный доступ | - |
Производительность на Apple Silicon
Vox работает значительно быстрее на Apple Silicon (M1/M2/M3) по сравнению с Mac на Intel благодаря оптимизированной поддержке нейронного движка.
Windows
| Требование | Минимум | Рекомендуется |
|---|---|---|
| Версия ОС | Windows 10 (64-бит) | Windows 11 |
| Процессор | Процессор x64 | Современный многоядерный процессор |
| ОЗУ | 4 ГБ | 8 ГБ или больше |
| Хранилище | 500 МБ - 4 ГБ | 4 ГБ свободного места |
| Разрешения | Доступ к микрофону | - |
Производительность на Windows
Производительность зависит от процессора. Современные процессоры (Intel 10-го поколения+, AMD Ryzen 3000+) обеспечивают лучшую скорость транскрипции.
Скоро
Поддержка Linux, iOS и Android запланирована на будущие версии. См. дорожную карту →
Тестирование Моделей

После загрузки модели убедитесь, что она работает правильно:
- Нажмите Протестировать Локальную Модель
- Произнесите тестовую фразу при появлении запроса
- Просмотрите результат транскрипции
- Ищите сообщение об успехе: "Yeah. This is just a test. I laughing"
Тест проверяет:
- Модель правильно загружена и установлена
- Аудиопайплайн работает
- Точность транскрипции соответствует вашим потребностям
Тестируйте с Реальным Контентом
Тестируйте фразами, похожими на ваш реальный случай использования (технические термины, имена и т.д.), чтобы оценить точность.
Выбор Подходящей Модели
Матрица Решений
| Модель | Размер | Скорость | Точность | Идеально Для |
|---|---|---|---|---|
| Самая Быстрая | 75МБ | ⚡⚡⚡⚡⚡ | ⭐⭐⭐ | Тестирование, простые команды |
| Быстрая | 150МБ | ⚡⚡⚡⚡ | ⭐⭐⭐⭐ | Ежедневное использование, чёткая речь |
| Сбалансированная | 480МБ | ⚡⚡⚡ | ⭐⭐⭐⭐ | Рекомендована для большинства |
| Точная | 1,5ГБ | ⚡⚡ | ⭐⭐⭐⭐⭐ | Профессиональная работа, технический контент |
| Наилучшая | 3ГБ | ⚡ | ⭐⭐⭐⭐⭐ | Критическая транскрипция, сложное аудио |
Учитывайте Свой Случай Использования
Выбирайте Самую Быструю или Быструю, если вы:
- Нуждаетесь в мгновенных результатах транскрипции
- Транскрибируете короткие, простые фразы
- Имеете ограниченное место на диске
- Говорите чётко в тихих условиях
Выбирайте Сбалансированную, если вы:
- Хотите хороший универсальный опыт
- Транскрибируете как короткий, так и длинный контент
- Нуждаетесь в надёжной точности без чрезмерной потери скорости
- Не уверены, какую модель выбрать (начните здесь!)
Выбирайте Точную, если вы:
- Работаете с технической терминологией
- Говорите с акцентом или на нескольких языках
- Транскрибируете в условиях с фоновым шумом
- Нуждаетесь в высокой точности для профессиональной работы
Выбирайте Наилучшую, если вы:
- Требуете максимальной точности транскрипции
- Работаете со сложным многоязычным контентом
- Транскрибируете критические документы или юридический контент
- Имеете мощный компьютер с достаточными ресурсами
Требования к Производительности Модели
Все модели работают на любом компьютере, который запускает Vox, но производительность варьируется:
Для Самой Быстрой, Быстрой, Сбалансированной:
- Любой Mac 2018 года или новее / Любой современный ПК с Windows
- Минимум 8ГБ ОЗУ
- Стандартные ожидания производительности
Для Точной:
- Mac 2020 года или новее / ПК с Windows с 8 ГБ+ ОЗУ рекомендуется
- Рекомендуется 16ГБ ОЗУ
- Может быть медленнее на старых Mac
Для Наилучшей:
- Mac с Apple Silicon или современный ПК с Windows с 16 ГБ+ ОЗУ
- Рекомендуется 16ГБ+ ОЗУ
- Ожидайте заметное время обработки транскрипций
Преимущество Apple Silicon
Mac с Apple Silicon (чипы M1, M2, M3) запускают модели Whisper значительно быстрее, чем Mac с Intel, благодаря их Neural Engine.
Производительность Моделей
Примеры Времени Обработки
Примерное время транскрипции для 10-секундной записи:
| Модель | Intel Mac (2019) | M1/M2 Mac | M3 Mac |
|---|---|---|---|
| Самая Быстрая | 0,5с | 0,2с | 0,1с |
| Быстрая | 1с | 0,5с | 0,3с |
| Сбалансированная | 2с | 1с | 0,5с |
| Точная | 5с | 2,5с | 1,5с |
| Наилучшая | 10с | 4с | 2с |
Время приблизительное и варьируется в зависимости от сложности аудио
Производительность на ПК с Windows с аналогичными характеристиками сопоставима.
Сравнение Точности
Пример качества транскрипции с техническими терминами:
Оригинальная речь: "Initialize the TypeScript interface with async await handlers"
| Модель | Качество Транскрипции |
|---|---|
| Самая Быстрая | "Initialize the typescript interface with a sync away handlers" |
| Быстрая | "Initialize the TypeScript interface with a sync await handlers" |
| Сбалансированная | "Initialize the TypeScript interface with async await handlers" ✓ |
| Точная | "Initialize the TypeScript interface with async await handlers" ✓ |
| Наилучшая | "Initialize the TypeScript interface with async await handlers" ✓ |
Улучшение ИИ
Для ещё лучшей точности включите Улучшение ИИ для постобработки транскрипций с помощью больших языковых моделей.
Хранение Аудио

Настройте, сколько последних аудиозаписей Vox хранит на диске:
По умолчанию: 10 записей
Зачем хранить аудио:
- Просматривать транскрипции для проверки точности
- Тестировать разные модели на одном аудио
- Добавлять пропущенные слова в словарь
- Отлаживать проблемы с транскрипцией
Настройка хранения:
- Увеличить, если вы часто просматриваете прошлые записи
- Уменьшить, чтобы сэкономить место на диске
- Установить в
0, чтобы полностью отключить хранение аудио
Примечание о Конфиденциальности
Аудиозаписи хранятся локально в папке приложения Vox. Они никогда не отправляются, если только вы явно не включите функции улучшения ИИ.
Переключение Моделей
Вы можете в любое время изменить, какую модель использует Vox:
- Перейдите в Настройки → Речь
- Нажмите на другую загруженную модель
- Модель с галочкой активна
- Ваша следующая запись будет использовать новую модель
Перезапуск не требуется — изменение вступает в силу немедленно.
Управление Дисковым Пространством
Проверка Хранилища Моделей
Модели хранятся в:
~/Library/Application Support/Vox/models/Удаление Моделей
Для освобождения дискового пространства:
- Перейдите в Настройки → Речь
- Найдите модели, которые вам больше не нужны
- Нажмите значок корзины рядом с моделью
- Подтвердите удаление
Вы можете повторно загрузить модели в любое время без штрафа.
Советы по Хранению
- Храните только те модели, которые активно используете
- Сбалансированная модель — хороший выбор в качестве единственной модели
- Загружайте большие модели только при необходимости
- Хранение аудио занимает минимальное место (настраивается)
Устранение Неполадок
Загрузка Модели Не Удалась
Решение:
- Проверьте подключение к интернету
- Убедитесь, что достаточно места на диске
- Попробуйте сначала загрузить модель меньшего размера
- Перезапустите Vox и попробуйте снова
Тест Локальной Модели Не Проходит
Решение:
- Убедитесь, что разрешение на микрофон предоставлено
- Проверьте Системные настройки → Звук → Вход для выбора микрофона
- Попробуйте другую модель
- Перезапустите Vox
Низкое Качество Транскрипции
Решения:
- Перейти на большую модель: Попробуйте Точную или Наилучшую
- Проверить качество аудио: Говорите чётко, уменьшите фоновый шум
- Добавить пользовательские слова: Используйте функцию Словарь
- Включить улучшение ИИ: Постобрабатывайте с помощью ИИ для лучших результатов
Модель Слишком Долго Обрабатывает
Решения:
- Перейти на меньшую модель: Попробуйте Быструю или Сбалансированную
- Укоротить записи: Разбивайте длинный диктат на более мелкие части
- Закрыть другие приложения: Освободите ресурсы CPU
- Проверить активность системы: Убедитесь, что компьютер не испытывает высокой нагрузки
Модель Использует Слишком Много CPU/Памяти
Решения:
- Перейдите на меньшую модель (Самую Быструю или Быструю)
- Закройте фоновые приложения
- Уменьшите хранение аудио для освобождения ресурсов
- Рассмотрите обновление оборудования, если вам нужны большие модели
Продвинутые Темы
Архитектура Моделей
Vox использует квантизованные версии моделей Whisper, оптимизированные для:
- Оптимизированного вывода на всех платформах
- Уменьшенного использования памяти
- Сохранённой точности по сравнению с оригинальными моделями
- Ускорения Neural Engine от Apple Silicon
Поддержка Языков
Все модели Whisper поддерживают несколько языков, включая:
- Английский, Испанский, Французский, Немецкий, Итальянский, Португальский
- Китайский, Японский, Корейский
- И 90+ других языков
Настройте языки распознавания речи в Настройки → Общие → Языки.
Пользовательские Модели
В настоящее время Vox поддерживает только пять встроенных вариантов Whisper. Поддержка пользовательских моделей может быть добавлена в будущих версиях.
Следующие Шаги
- Включить Улучшение ИИ для лучшего качества транскрипции
- Добавить пользовательские слова для повышения точности технических терминов
- Настроить сочетания клавиш для удобной записи
- Настроить HUD для лучшего звукового отклика при записи