Skip to content

Речевые Модели

Vox использует модели Whisper от OpenAI для локального распознавания речи. Это руководство объясняет доступные модели и как выбрать подходящую для ваших нужд.

Понимание Речевых Моделей

Экран Речевых Моделей

Откройте речевые модели через Настройки → Речь.

Что Такое Модели Whisper?

Whisper — это система автоматического распознавания речи (ASR) с открытым исходным кодом от OpenAI. Vox запускает эти модели локально на вашем устройстве, обеспечивая:

  • Конфиденциальность: Аудио никогда не покидает ваше устройство
  • Работа без интернета: Работает без подключения к сети
  • Скорость: Нет сетевой задержки
  • Стоимость: Нет поминутных платежей

Конфиденциальность Прежде Всего

Всё распознавание речи происходит на вашем устройстве. Ваши голосовые данные никогда не отправляются на внешние серверы (если только вы не включите улучшение ИИ).

Доступные Модели

Vox предлагает пять вариантов модели Whisper, каждый с разным балансом скорости и точности:

Самая Быстрая

Размер: ~75МБ Скорость: Минимальная задержка (<50мс) Точность: Хорошая для чёткой речи Идеально для: Быстрых команд, коротких фраз, тестирования

Наименьшая и самая быстрая модель. Идеальна для пользователей, которые отдают приоритет скорости над точностью или имеют ограниченное место на диске.

Быстрая

Размер: ~150МБ Скорость: Очень низкая задержка (~50мс) Точность: Лучше, чем Самая Быстрая Идеально для: Ежедневного использования с чёткой речью

Хороший компромисс между скоростью и качеством. Подходит для большинства повседневных потребностей в транскрипции.

Сбалансированная

Размер: ~480МБ Скорость: Рекомендуемая (~480МБ) Точность: Хорошая универсальная точность Идеально для: Большинства пользователей, общей транскрипции

Рекомендована для большинства пользователей. Обеспечивает отличную точность для ежедневного использования без чрезмерных ресурсов.

Точная

Размер: ~1,5ГБ Скорость: Лучшая точность, более приемлемая задержка (~1,5ГБ) Точность: Высокая точность для сложной речи Идеально для: Профессиональной транскрипции, технического контента, акцентов

Более высокая точность для сложных аудиоусловий, технической терминологии и различных акцентов.

Наилучшая

Размер: ~3ГБ Скорость: Наивысшее качество, значительная нагрузка на CPU (~3ГБ) Точность: Максимальная точность Идеально для: Критической транскрипции, многоязычного контента, шумных условий

Наибольшая и наиболее точная модель. Используйте, когда качество транскрипции является приоритетом и ресурсы системы позволяют.

Загрузка Моделей

Первоначальная Настройка

Модели До Загрузки

При первой установке Vox модели не загружены. Для использования Vox необходимо загрузить хотя бы одну модель.

Для загрузки модели:

  1. Перейдите в Настройки → Речь
  2. Нажмите Загрузить рядом с выбранной моделью
  3. Дождитесь завершения загрузки
  4. Кнопка изменится на «Загружено», когда будет готово

Загруженные Модели

Рекомендация Первой Модели

Начните со Сбалансированной для лучшего баланса качества и производительности. Вы всегда можете загрузить дополнительные модели позже.

Загрузка Нескольких Моделей

Вы можете загрузить несколько моделей и переключаться между ними:

  1. Загрузите разные модели для разных случаев использования
  2. Протестируйте каждую модель кнопкой Протестировать Локальную Модель
  3. Vox использует текущую выбранную модель (отмечена галочкой)
  4. Переключайтесь между моделями в любое время без повторной загрузки

Требования к Загрузке

  • Подключение к интернету: Требуется для первоначальной загрузки
  • Место на диске: Убедитесь, что достаточно места для выбранной модели
  • Время: Загрузки обычно занимают от 1 до 10 минут в зависимости от размера модели и скорости соединения

Системные Требования

У Vox разные системные требования в зависимости от вашей операционной системы:

macOS

ТребованиеМинимумРекомендуется
Версия ОСmacOS 15 (Sequoia)macOS 15+ (Sequoia или новее)
ПроцессорApple Silicon (M1) или IntelApple Silicon (M2 или новее)
ОЗУ4 ГБ8 ГБ или больше
Хранилище500 МБ - 4 ГБ4 ГБ свободного места
РазрешенияМикрофон + Универсальный доступ-

Производительность на Apple Silicon

Vox работает значительно быстрее на Apple Silicon (M1/M2/M3) по сравнению с Mac на Intel благодаря оптимизированной поддержке нейронного движка.

Windows

ТребованиеМинимумРекомендуется
Версия ОСWindows 10 (64-бит)Windows 11
ПроцессорПроцессор x64Современный многоядерный процессор
ОЗУ4 ГБ8 ГБ или больше
Хранилище500 МБ - 4 ГБ4 ГБ свободного места
РазрешенияДоступ к микрофону-

Производительность на Windows

Производительность зависит от процессора. Современные процессоры (Intel 10-го поколения+, AMD Ryzen 3000+) обеспечивают лучшую скорость транскрипции.

Скоро

Поддержка Linux, iOS и Android запланирована на будущие версии. См. дорожную карту →

Тестирование Моделей

Протестировать Локальную Модель

После загрузки модели убедитесь, что она работает правильно:

  1. Нажмите Протестировать Локальную Модель
  2. Произнесите тестовую фразу при появлении запроса
  3. Просмотрите результат транскрипции
  4. Ищите сообщение об успехе: "Yeah. This is just a test. I laughing"

Тест проверяет:

  • Модель правильно загружена и установлена
  • Аудиопайплайн работает
  • Точность транскрипции соответствует вашим потребностям

Тестируйте с Реальным Контентом

Тестируйте фразами, похожими на ваш реальный случай использования (технические термины, имена и т.д.), чтобы оценить точность.

Выбор Подходящей Модели

Матрица Решений

МодельРазмерСкоростьТочностьИдеально Для
Самая Быстрая75МБ⚡⚡⚡⚡⚡⭐⭐⭐Тестирование, простые команды
Быстрая150МБ⚡⚡⚡⚡⭐⭐⭐⭐Ежедневное использование, чёткая речь
Сбалансированная480МБ⚡⚡⚡⭐⭐⭐⭐Рекомендована для большинства
Точная1,5ГБ⚡⚡⭐⭐⭐⭐⭐Профессиональная работа, технический контент
Наилучшая3ГБ⭐⭐⭐⭐⭐Критическая транскрипция, сложное аудио

Учитывайте Свой Случай Использования

Выбирайте Самую Быструю или Быструю, если вы:

  • Нуждаетесь в мгновенных результатах транскрипции
  • Транскрибируете короткие, простые фразы
  • Имеете ограниченное место на диске
  • Говорите чётко в тихих условиях

Выбирайте Сбалансированную, если вы:

  • Хотите хороший универсальный опыт
  • Транскрибируете как короткий, так и длинный контент
  • Нуждаетесь в надёжной точности без чрезмерной потери скорости
  • Не уверены, какую модель выбрать (начните здесь!)

Выбирайте Точную, если вы:

  • Работаете с технической терминологией
  • Говорите с акцентом или на нескольких языках
  • Транскрибируете в условиях с фоновым шумом
  • Нуждаетесь в высокой точности для профессиональной работы

Выбирайте Наилучшую, если вы:

  • Требуете максимальной точности транскрипции
  • Работаете со сложным многоязычным контентом
  • Транскрибируете критические документы или юридический контент
  • Имеете мощный компьютер с достаточными ресурсами

Требования к Производительности Модели

Все модели работают на любом компьютере, который запускает Vox, но производительность варьируется:

Для Самой Быстрой, Быстрой, Сбалансированной:

  • Любой Mac 2018 года или новее / Любой современный ПК с Windows
  • Минимум 8ГБ ОЗУ
  • Стандартные ожидания производительности

Для Точной:

  • Mac 2020 года или новее / ПК с Windows с 8 ГБ+ ОЗУ рекомендуется
  • Рекомендуется 16ГБ ОЗУ
  • Может быть медленнее на старых Mac

Для Наилучшей:

  • Mac с Apple Silicon или современный ПК с Windows с 16 ГБ+ ОЗУ
  • Рекомендуется 16ГБ+ ОЗУ
  • Ожидайте заметное время обработки транскрипций

Преимущество Apple Silicon

Mac с Apple Silicon (чипы M1, M2, M3) запускают модели Whisper значительно быстрее, чем Mac с Intel, благодаря их Neural Engine.

Производительность Моделей

Примеры Времени Обработки

Примерное время транскрипции для 10-секундной записи:

МодельIntel Mac (2019)M1/M2 MacM3 Mac
Самая Быстрая0,5с0,2с0,1с
Быстрая0,5с0,3с
Сбалансированная0,5с
Точная2,5с1,5с
Наилучшая10с

Время приблизительное и варьируется в зависимости от сложности аудио

Производительность на ПК с Windows с аналогичными характеристиками сопоставима.

Сравнение Точности

Пример качества транскрипции с техническими терминами:

Оригинальная речь: "Initialize the TypeScript interface with async await handlers"

МодельКачество Транскрипции
Самая Быстрая"Initialize the typescript interface with a sync away handlers"
Быстрая"Initialize the TypeScript interface with a sync await handlers"
Сбалансированная"Initialize the TypeScript interface with async await handlers" ✓
Точная"Initialize the TypeScript interface with async await handlers" ✓
Наилучшая"Initialize the TypeScript interface with async await handlers" ✓

Улучшение ИИ

Для ещё лучшей точности включите Улучшение ИИ для постобработки транскрипций с помощью больших языковых моделей.

Хранение Аудио

Настройка Хранения Аудио

Настройте, сколько последних аудиозаписей Vox хранит на диске:

По умолчанию: 10 записей

Зачем хранить аудио:

  • Просматривать транскрипции для проверки точности
  • Тестировать разные модели на одном аудио
  • Добавлять пропущенные слова в словарь
  • Отлаживать проблемы с транскрипцией

Настройка хранения:

  • Увеличить, если вы часто просматриваете прошлые записи
  • Уменьшить, чтобы сэкономить место на диске
  • Установить в 0, чтобы полностью отключить хранение аудио

Примечание о Конфиденциальности

Аудиозаписи хранятся локально в папке приложения Vox. Они никогда не отправляются, если только вы явно не включите функции улучшения ИИ.

Переключение Моделей

Вы можете в любое время изменить, какую модель использует Vox:

  1. Перейдите в Настройки → Речь
  2. Нажмите на другую загруженную модель
  3. Модель с галочкой активна
  4. Ваша следующая запись будет использовать новую модель

Перезапуск не требуется — изменение вступает в силу немедленно.

Управление Дисковым Пространством

Проверка Хранилища Моделей

Модели хранятся в:

~/Library/Application Support/Vox/models/

Удаление Моделей

Для освобождения дискового пространства:

  1. Перейдите в Настройки → Речь
  2. Найдите модели, которые вам больше не нужны
  3. Нажмите значок корзины рядом с моделью
  4. Подтвердите удаление

Вы можете повторно загрузить модели в любое время без штрафа.

Советы по Хранению

  • Храните только те модели, которые активно используете
  • Сбалансированная модель — хороший выбор в качестве единственной модели
  • Загружайте большие модели только при необходимости
  • Хранение аудио занимает минимальное место (настраивается)

Устранение Неполадок

Загрузка Модели Не Удалась

Решение:

  1. Проверьте подключение к интернету
  2. Убедитесь, что достаточно места на диске
  3. Попробуйте сначала загрузить модель меньшего размера
  4. Перезапустите Vox и попробуйте снова

Тест Локальной Модели Не Проходит

Решение:

  1. Убедитесь, что разрешение на микрофон предоставлено
  2. Проверьте Системные настройки → Звук → Вход для выбора микрофона
  3. Попробуйте другую модель
  4. Перезапустите Vox

Низкое Качество Транскрипции

Решения:

  1. Перейти на большую модель: Попробуйте Точную или Наилучшую
  2. Проверить качество аудио: Говорите чётко, уменьшите фоновый шум
  3. Добавить пользовательские слова: Используйте функцию Словарь
  4. Включить улучшение ИИ: Постобрабатывайте с помощью ИИ для лучших результатов

Модель Слишком Долго Обрабатывает

Решения:

  1. Перейти на меньшую модель: Попробуйте Быструю или Сбалансированную
  2. Укоротить записи: Разбивайте длинный диктат на более мелкие части
  3. Закрыть другие приложения: Освободите ресурсы CPU
  4. Проверить активность системы: Убедитесь, что компьютер не испытывает высокой нагрузки

Модель Использует Слишком Много CPU/Памяти

Решения:

  1. Перейдите на меньшую модель (Самую Быструю или Быструю)
  2. Закройте фоновые приложения
  3. Уменьшите хранение аудио для освобождения ресурсов
  4. Рассмотрите обновление оборудования, если вам нужны большие модели

Продвинутые Темы

Архитектура Моделей

Vox использует квантизованные версии моделей Whisper, оптимизированные для:

  • Оптимизированного вывода на всех платформах
  • Уменьшенного использования памяти
  • Сохранённой точности по сравнению с оригинальными моделями
  • Ускорения Neural Engine от Apple Silicon

Поддержка Языков

Все модели Whisper поддерживают несколько языков, включая:

  • Английский, Испанский, Французский, Немецкий, Итальянский, Португальский
  • Китайский, Японский, Корейский
  • И 90+ других языков

Настройте языки распознавания речи в Настройки → Общие → Языки.

Пользовательские Модели

В настоящее время Vox поддерживает только пять встроенных вариантов Whisper. Поддержка пользовательских моделей может быть добавлена в будущих версиях.

Следующие Шаги

Создано с 💜 open-source сообществом и основными участниками