Подборка сервисов для расшифровки аудио в текст

Использовать голосовой набор не всегда удобно, если это не запросы в поисковики. В шумной обстановке не получается прослушать запись, некоторые люди в принципе лишены такой возможности. Если надиктованная информация нужна в печатном виде, войсы приходится переслушивать и перепечатывать, это тратит время и силы. Зачем может понадобиться конвертировать аудио в текст:Расшифровать запись длинного интервью для статьи.

  1. Надиктовать себе идей, пока есть вдохновение.
  2. Понять, о чем говорят в голосовом сообщении, когда нет возможности послушать.
  3. Общаться с людьми с особенностями слуха.


Для расшифровки аудио в текст есть специальные сервисы, мы протестировали несколько и выбрали самые удачные. Всеми сервисами из подборки можно пользоваться бесплатно, но в некоторых нужно будет зарегистрироваться.


Сервисы для перевода речи в текст


Блокнот для речевого ввода

Блокнот переводит диктуемые слова в текст, транскрибирует аудиозаписи с голосом и видео с Ютуба.

Сервис автоматически расшифровывает произносимые слова по ходу надиктовки, причем умеет распознавать знаки препинания, если отметить пункт «Заменять слова пунктуации». Мы надиктовали ему «Привет восклицательный знак мы тестируем запятая как справляется сервис с расшифровкой текста точка» и так далее, самые часто употребляемые знаки он распознал, но не справился с многоточием, тире, скобками и кавычками.


Тест сервиса на знаки препинания


Транскрибирование текстов из загруженных аудиозаписей и из видео с Ютуба происходит в реальном времени при воспроизведении. Загружаем файл в сервис или указываем ID видео (символы после https://www.youtube.com/watch?v=), нажимаем «Включить запись».


Сервис распознает речь ведущего


Бесплатно сервис работает с транскрибированием онлайн без ограничений, а также с распознаванием голоса на аудио и видео не дольше 15 минут.

Платный формат дает интеграцию с Windows и Linux, позволяет расшифровывать медиафайлы длиной более 15 минут и обрабатывать файлы по нескольку штук одновременно.

Лучше всего Речевой блокнот справляется с расшифровкой голоса в реальном времени. Результат довольно чистый, но нужно привыкнуть называть все знаки препинания или расставлять их вручную при вычитке.

Инструмент полезен, когда нужно надиктовать себе материал для текста или в заметку, а на интервью его можно включить фоном, чтобы расшифровывал речь в реальном времени.


Расширение «Голосовой ввод текста» для Google Chrome

Расширение умеет переводить голос в текст: можно диктовать поисковые запросы, сообщения в социальных сетях и на форумах.

Попробуем надиктовать сообщение в ВКонтакте:

Открываем диалог, кликаем правой кнопкой мыши и выбираем расширение.


Выбор расширения по клику правой кнопкой


Ввод подсвечивается красным, в браузере появляется окно разрешения доступа к микрофону. Разрешаем доступ, диктуем сообщение, называя знаки препинания: «Настя запятая привет восклицательный знак как твои дела вопросительный знак», готовый текст отображается в поле ввода.


Готовый текст сообщения


Сложно привыкнуть диктовать знаки препинания, на их озвучивание уходит много времени, но зато не нужно расставлять запятые вручную.

Результат расшифровки зависит от дикции говорящего, но в целом расширение для ввода хорошо справляется.


Dragon Dictation

Программа для iOS, работает онлайн через iTunes Store. Удобно использовать на мобильном, чтобы надиктовывать на ходу замечания или идеи к новым статьям.


Расшифровка войса в программе


Программа работает бесплатно, но только на iOS.


Otter

Сервис для распознавания речи и расшифровки аудио или видео. Работает только с английским языком. Если не пропустить первые шаги настройки и прочитать сервису текст на экране, он запомнит ваш голос. Это позволит ему отделять ваши реплики от чужих в записях с несколькими собеседниками.


Прочитайте это сообщение, чтобы бот вас запомнил

Сервис транскрибировал фразу на английском


Фразу «расшифруй что-нибудь на русском» он распознал так:


Фразы на других языках сервис не понимает


Можно загрузить аудио или видео с английской речью, сервис выведет екст. Некоторые спорные моменты из-за произношения могут расшифровываться неправильно.


Сервис не распознал слово penguins


Программа бесплатна, она будет полезна, если вы работаете с англоязычными источниками.

Бот в ВКонтакте

Бот «Что тут сказано?» расшифровывает голосовые сообщения. Войс нужно переслать в переписку с ботом, он пришлет текст в ответ. Если надиктовать аудио напрямую в диалог с ботом, он не справится.


Бот расшифровывает войсы


Бота можно пригласить в беседу, тогда он будет автоматически расшифровывать сообщения в чате. Для этого на странице группы кликаем «Пригласить в беседу».


Приглашаем бота в беседу


Дальше выбираем нужный чат, куда добавим бота в качестве участника.


Выбираем чат


В настройках чата находим среди участников бота и даем ему доступ к переписке.


Даем доступ к сообщениям


Теперь если кто-то из участников записывает войс, следующим сообщением бот пришлет расшифровку.

Протестировать другие боты для перевода голосовых сообщений в текст не удалось, группы заброшены, а боты не реагируют на команды.


Бот в Телеграме

Бот Voicy переводит аудиосообщения или аудиофайлы в текст. Можно писать или присылать аудиофайлы боту напрямую или добавить его в чат, тогда на каждую реплику он будет отвечать ее текстовой расшифровкой.


Бот присылает расшифровку сразу после сообщения


Бота нужно настроить. Команда /language вызывает выбор языка, на котором будут записываться голосовые, /engine дает выбрать движок:

  • стандартный wit.ai хорошо распознает слова, но не справляется с сообщениями длиннее 50 секунд;
  • Yandex.SpeechKit работает без ограничений, но распознает слова хуже;
  • Google Speech хорошо распознает голос, работает с любой длиной, но требует оплаты.

Команда /silent отключит уведомления о том, что бот приступил к работе над войсом.

Для отключения бота в чате нужно набрать команду /files.



Сервисы из подборки помогут сделать расшифровку интервью, составить субтитры, узнать, что сказали в голосовом сообщении, когда нет возможности прослушать, и упростят работу с надиктованным текстом. Останется только подправить результат.