Речевые Модели

Vox использует модели Whisper от OpenAI для локального распознавания речи. Это руководство объясняет доступные модели и как выбрать подходящую для ваших нужд.

Понимание Речевых Моделей

Экран Речевых Моделей

Откройте речевые модели через Настройки → Речь.

Что Такое Модели Whisper?

Whisper — это система автоматического распознавания речи (ASR) с открытым исходным кодом от OpenAI. Vox запускает эти модели локально на вашем устройстве, обеспечивая:

Конфиденциальность: Аудио никогда не покидает ваше устройство
Работа без интернета: Работает без подключения к сети
Скорость: Нет сетевой задержки
Стоимость: Нет поминутных платежей

Конфиденциальность Прежде Всего

Всё распознавание речи происходит на вашем устройстве. Ваши голосовые данные никогда не отправляются на внешние серверы (если только вы не включите улучшение ИИ).

Доступные Модели

Vox предлагает пять вариантов модели Whisper, каждый с разным балансом скорости и точности:

Самая Быстрая

Размер: ~75МБ Скорость: Минимальная задержка (<50мс) Точность: Хорошая для чёткой речи Идеально для: Быстрых команд, коротких фраз, тестирования

Наименьшая и самая быстрая модель. Идеальна для пользователей, которые отдают приоритет скорости над точностью или имеют ограниченное место на диске.

Быстрая

Размер: ~150МБ Скорость: Очень низкая задержка (~50мс) Точность: Лучше, чем Самая Быстрая Идеально для: Ежедневного использования с чёткой речью

Хороший компромисс между скоростью и качеством. Подходит для большинства повседневных потребностей в транскрипции.

Сбалансированная

Размер: ~480МБ Скорость: Рекомендуемая (~480МБ) Точность: Хорошая универсальная точность Идеально для: Большинства пользователей, общей транскрипции

Рекомендована для большинства пользователей. Обеспечивает отличную точность для ежедневного использования без чрезмерных ресурсов.

Точная

Размер: ~1,5ГБ Скорость: Лучшая точность, более приемлемая задержка (~1,5ГБ) Точность: Высокая точность для сложной речи Идеально для: Профессиональной транскрипции, технического контента, акцентов

Более высокая точность для сложных аудиоусловий, технической терминологии и различных акцентов.

Наилучшая

Размер: ~3ГБ Скорость: Наивысшее качество, значительная нагрузка на CPU (~3ГБ) Точность: Максимальная точность Идеально для: Критической транскрипции, многоязычного контента, шумных условий

Наибольшая и наиболее точная модель. Используйте, когда качество транскрипции является приоритетом и ресурсы системы позволяют.

Загрузка Моделей

Первоначальная Настройка

Модели До Загрузки

При первой установке Vox модели не загружены. Для использования Vox необходимо загрузить хотя бы одну модель.

Для загрузки модели:

Перейдите в Настройки → Речь
Нажмите Загрузить рядом с выбранной моделью
Дождитесь завершения загрузки
Кнопка изменится на «Загружено», когда будет готово

Загруженные Модели

Рекомендация Первой Модели

Начните со Сбалансированной для лучшего баланса качества и производительности. Вы всегда можете загрузить дополнительные модели позже.

Загрузка Нескольких Моделей

Вы можете загрузить несколько моделей и переключаться между ними:

Загрузите разные модели для разных случаев использования
Протестируйте каждую модель кнопкой Протестировать Локальную Модель
Vox использует текущую выбранную модель (отмечена галочкой)
Переключайтесь между моделями в любое время без повторной загрузки

Требования к Загрузке

Подключение к интернету: Требуется для первоначальной загрузки
Место на диске: Убедитесь, что достаточно места для выбранной модели
Время: Загрузки обычно занимают от 1 до 10 минут в зависимости от размера модели и скорости соединения

Системные Требования

У Vox разные системные требования в зависимости от вашей операционной системы:

macOS

Требование	Минимум	Рекомендуется
Версия ОС	macOS 15 (Sequoia)	macOS 15+ (Sequoia или новее)
Процессор	Apple Silicon (M1) или Intel	Apple Silicon (M2 или новее)
ОЗУ	4 ГБ	8 ГБ или больше
Хранилище	500 МБ - 4 ГБ	4 ГБ свободного места
Разрешения	Микрофон + Универсальный доступ	-

Производительность на Apple Silicon

Vox работает значительно быстрее на Apple Silicon (M1/M2/M3) по сравнению с Mac на Intel благодаря оптимизированной поддержке нейронного движка.

Windows

Требование	Минимум	Рекомендуется
Версия ОС	Windows 10 (64-бит)	Windows 11
Процессор	Процессор x64	Современный многоядерный процессор
ОЗУ	4 ГБ	8 ГБ или больше
Хранилище	500 МБ - 4 ГБ	4 ГБ свободного места
Разрешения	Доступ к микрофону	-

Производительность на Windows

Производительность зависит от процессора. Современные процессоры (Intel 10-го поколения+, AMD Ryzen 3000+) обеспечивают лучшую скорость транскрипции.

Скоро

Поддержка Linux, iOS и Android запланирована на будущие версии. См. дорожную карту →

Тестирование Моделей

Протестировать Локальную Модель

После загрузки модели убедитесь, что она работает правильно:

Нажмите Протестировать Локальную Модель
Произнесите тестовую фразу при появлении запроса
Просмотрите результат транскрипции
Ищите сообщение об успехе: "Yeah. This is just a test. I laughing"

Тест проверяет:

Модель правильно загружена и установлена
Аудиопайплайн работает
Точность транскрипции соответствует вашим потребностям

Тестируйте с Реальным Контентом

Тестируйте фразами, похожими на ваш реальный случай использования (технические термины, имена и т.д.), чтобы оценить точность.

Выбор Подходящей Модели

Матрица Решений

Модель	Размер	Скорость	Точность	Идеально Для
Самая Быстрая	75МБ	⚡⚡⚡⚡⚡	⭐⭐⭐	Тестирование, простые команды
Быстрая	150МБ	⚡⚡⚡⚡	⭐⭐⭐⭐	Ежедневное использование, чёткая речь
Сбалансированная	480МБ	⚡⚡⚡	⭐⭐⭐⭐	Рекомендована для большинства
Точная	1,5ГБ	⚡⚡	⭐⭐⭐⭐⭐	Профессиональная работа, технический контент
Наилучшая	3ГБ	⚡	⭐⭐⭐⭐⭐	Критическая транскрипция, сложное аудио

Учитывайте Свой Случай Использования

Выбирайте Самую Быструю или Быструю, если вы:

Нуждаетесь в мгновенных результатах транскрипции
Транскрибируете короткие, простые фразы
Имеете ограниченное место на диске
Говорите чётко в тихих условиях

Выбирайте Сбалансированную, если вы:

Хотите хороший универсальный опыт
Транскрибируете как короткий, так и длинный контент
Нуждаетесь в надёжной точности без чрезмерной потери скорости
Не уверены, какую модель выбрать (начните здесь!)

Выбирайте Точную, если вы:

Работаете с технической терминологией
Говорите с акцентом или на нескольких языках
Транскрибируете в условиях с фоновым шумом
Нуждаетесь в высокой точности для профессиональной работы

Выбирайте Наилучшую, если вы:

Требуете максимальной точности транскрипции
Работаете со сложным многоязычным контентом
Транскрибируете критические документы или юридический контент
Имеете мощный компьютер с достаточными ресурсами

Требования к Производительности Модели

Все модели работают на любом компьютере, который запускает Vox, но производительность варьируется:

Для Самой Быстрой, Быстрой, Сбалансированной:

Любой Mac 2018 года или новее / Любой современный ПК с Windows
Минимум 8ГБ ОЗУ
Стандартные ожидания производительности

Для Точной:

Mac 2020 года или новее / ПК с Windows с 8 ГБ+ ОЗУ рекомендуется
Рекомендуется 16ГБ ОЗУ
Может быть медленнее на старых Mac

Для Наилучшей:

Mac с Apple Silicon или современный ПК с Windows с 16 ГБ+ ОЗУ
Рекомендуется 16ГБ+ ОЗУ
Ожидайте заметное время обработки транскрипций

Преимущество Apple Silicon

Mac с Apple Silicon (чипы M1, M2, M3) запускают модели Whisper значительно быстрее, чем Mac с Intel, благодаря их Neural Engine.

Производительность Моделей

Примеры Времени Обработки

Примерное время транскрипции для 10-секундной записи:

Модель	Intel Mac (2019)	M1/M2 Mac	M3 Mac
Самая Быстрая	0,5с	0,2с	0,1с
Быстрая	1с	0,5с	0,3с
Сбалансированная	2с	1с	0,5с
Точная	5с	2,5с	1,5с
Наилучшая	10с	4с	2с

Время приблизительное и варьируется в зависимости от сложности аудио

Производительность на ПК с Windows с аналогичными характеристиками сопоставима.

Сравнение Точности

Пример качества транскрипции с техническими терминами:

Оригинальная речь: "Initialize the TypeScript interface with async await handlers"

Модель	Качество Транскрипции
Самая Быстрая	"Initialize the typescript interface with a sync away handlers"
Быстрая	"Initialize the TypeScript interface with a sync await handlers"
Сбалансированная	"Initialize the TypeScript interface with async await handlers" ✓
Точная	"Initialize the TypeScript interface with async await handlers" ✓
Наилучшая	"Initialize the TypeScript interface with async await handlers" ✓

Улучшение ИИ

Для ещё лучшей точности включите Улучшение ИИ для постобработки транскрипций с помощью больших языковых моделей.

Хранение Аудио

Настройка Хранения Аудио

Настройте, сколько последних аудиозаписей Vox хранит на диске:

По умолчанию: 10 записей

Зачем хранить аудио:

Просматривать транскрипции для проверки точности
Тестировать разные модели на одном аудио
Добавлять пропущенные слова в словарь
Отлаживать проблемы с транскрипцией

Настройка хранения:

Увеличить, если вы часто просматриваете прошлые записи
Уменьшить, чтобы сэкономить место на диске
Установить в 0, чтобы полностью отключить хранение аудио

Примечание о Конфиденциальности

Аудиозаписи хранятся локально в папке приложения Vox. Они никогда не отправляются, если только вы явно не включите функции улучшения ИИ.

Переключение Моделей

Вы можете в любое время изменить, какую модель использует Vox:

Перейдите в Настройки → Речь
Нажмите на другую загруженную модель
Модель с галочкой активна
Ваша следующая запись будет использовать новую модель

Перезапуск не требуется — изменение вступает в силу немедленно.

Управление Дисковым Пространством

Проверка Хранилища Моделей

Модели хранятся в:

~/Library/Application Support/Vox/models/

Удаление Моделей

Для освобождения дискового пространства:

Перейдите в Настройки → Речь
Найдите модели, которые вам больше не нужны
Нажмите значок корзины рядом с моделью
Подтвердите удаление

Вы можете повторно загрузить модели в любое время без штрафа.

Советы по Хранению

Храните только те модели, которые активно используете
Сбалансированная модель — хороший выбор в качестве единственной модели
Загружайте большие модели только при необходимости
Хранение аудио занимает минимальное место (настраивается)

Устранение Неполадок

Загрузка Модели Не Удалась

Решение:

Проверьте подключение к интернету
Убедитесь, что достаточно места на диске
Попробуйте сначала загрузить модель меньшего размера
Перезапустите Vox и попробуйте снова

Тест Локальной Модели Не Проходит

Решение:

Убедитесь, что разрешение на микрофон предоставлено
Проверьте Системные настройки → Звук → Вход для выбора микрофона
Попробуйте другую модель
Перезапустите Vox

Низкое Качество Транскрипции

Решения:

Перейти на большую модель: Попробуйте Точную или Наилучшую
Проверить качество аудио: Говорите чётко, уменьшите фоновый шум
Добавить пользовательские слова: Используйте функцию Словарь
Включить улучшение ИИ: Постобрабатывайте с помощью ИИ для лучших результатов

Модель Слишком Долго Обрабатывает

Решения:

Перейти на меньшую модель: Попробуйте Быструю или Сбалансированную
Укоротить записи: Разбивайте длинный диктат на более мелкие части
Закрыть другие приложения: Освободите ресурсы CPU
Проверить активность системы: Убедитесь, что компьютер не испытывает высокой нагрузки

Модель Использует Слишком Много CPU/Памяти

Решения:

Перейдите на меньшую модель (Самую Быструю или Быструю)
Закройте фоновые приложения
Уменьшите хранение аудио для освобождения ресурсов
Рассмотрите обновление оборудования, если вам нужны большие модели

Продвинутые Темы

Архитектура Моделей

Vox использует квантизованные версии моделей Whisper, оптимизированные для:

Оптимизированного вывода на всех платформах
Уменьшенного использования памяти
Сохранённой точности по сравнению с оригинальными моделями
Ускорения Neural Engine от Apple Silicon

Поддержка Языков

Все модели Whisper поддерживают несколько языков, включая:

Английский, Испанский, Французский, Немецкий, Итальянский, Португальский
Китайский, Японский, Корейский
И 90+ других языков

Настройте языки распознавания речи в Настройки → Общие → Языки.

Пользовательские Модели

В настоящее время Vox поддерживает только пять встроенных вариантов Whisper. Поддержка пользовательских моделей может быть добавлена в будущих версиях.

Следующие Шаги

Включить Улучшение ИИ для лучшего качества транскрипции
Добавить пользовательские слова для повышения точности технических терминов
Настроить сочетания клавиш для удобной записи
Настроить HUD для лучшего звукового отклика при записи

Речевые Модели ​

Понимание Речевых Моделей ​

Что Такое Модели Whisper? ​

Доступные Модели ​

Самая Быстрая ​

Быстрая ​

Сбалансированная ​

Точная ​

Наилучшая ​

Загрузка Моделей ​

Первоначальная Настройка ​

Загрузка Нескольких Моделей ​

Требования к Загрузке ​

Системные Требования ​

macOS ​

Windows ​

Скоро ​

Тестирование Моделей ​

Выбор Подходящей Модели ​

Матрица Решений ​

Учитывайте Свой Случай Использования ​

Требования к Производительности Модели ​

Производительность Моделей ​

Примеры Времени Обработки ​

Сравнение Точности ​

Хранение Аудио ​

Переключение Моделей ​

Управление Дисковым Пространством ​

Проверка Хранилища Моделей ​

Удаление Моделей ​

Советы по Хранению ​

Устранение Неполадок ​

Загрузка Модели Не Удалась ​

Тест Локальной Модели Не Проходит ​

Низкое Качество Транскрипции ​

Модель Слишком Долго Обрабатывает ​

Модель Использует Слишком Много CPU/Памяти ​

Продвинутые Темы ​

Архитектура Моделей ​

Поддержка Языков ​

Пользовательские Модели ​

Следующие Шаги ​

Речевые Модели

Понимание Речевых Моделей

Что Такое Модели Whisper?

Доступные Модели

Самая Быстрая

Быстрая

Сбалансированная

Точная

Наилучшая

Загрузка Моделей

Первоначальная Настройка

Загрузка Нескольких Моделей

Требования к Загрузке

Системные Требования

macOS

Windows

Скоро

Тестирование Моделей

Выбор Подходящей Модели

Матрица Решений

Учитывайте Свой Случай Использования

Требования к Производительности Модели

Производительность Моделей

Примеры Времени Обработки

Сравнение Точности

Хранение Аудио

Переключение Моделей

Управление Дисковым Пространством

Проверка Хранилища Моделей

Удаление Моделей

Советы по Хранению

Устранение Неполадок

Загрузка Модели Не Удалась

Тест Локальной Модели Не Проходит

Низкое Качество Транскрипции

Модель Слишком Долго Обрабатывает

Модель Использует Слишком Много CPU/Памяти

Продвинутые Темы

Архитектура Моделей

Поддержка Языков

Пользовательские Модели

Следующие Шаги