Обновлено: май 2026

Расшифровка часового интервью вручную — это полтора-два рабочих часа, и к концу вы уже не помните, о чём шла речь в первой трети. AI-сервисы превратили эту задачу в фоновый процесс: загружаете файл, пьёте кофе, через 5–10 минут получаете текст с разделением по спикерам. Разбираемся, как устроена транскрибация в 2026 году, на каких моделях держится рынок, какая точность достижима на русском, и какие 8 сервисов сравнить, прежде чем платить.

Что такое транскрибация и расшифровка — в чём разница

Слова «транскрибация», «расшифровка», «стенограмма» в обиходе путают. По смыслу — близко, по практике — три разных продукта.

Транскрибация — буквальный перевод речи в текст. Технический термин, заимствование из английского transcription. У кого-то транскрибация = только текст без знаков препинания, у кого-то включает пунктуацию и абзацы. На рынке AI-сервисов сейчас под транскрибацией обычно понимают полный текст с расстановкой знаков и разделением по спикерам.

Расшифровка — русское слово с тем же смыслом. Появилось задолго до AI: в советских судах расшифровщики перепечатывали кассеты с диктофонов, в академической среде — интервью полевых исследователей. Слово несёт нюанс «приведения к читаемому виду»: расшифровка часто подразумевает редактуру, удаление слов-паразитов, нормализацию имён собственных.

Стенограмма — близкое понятие, но с акцентом на дословность и юридическую значимость. В судебных заседаниях, на парламентских слушаниях, в нотариальной практике стенограмма — это документ, который заверяется и архивируется. AI-расшифровка стенограммой не является, пока её не подписал ответственный человек.

Для бытового чтения, рабочих созвонов и контент-производства все три слова взаимозаменяемы. Для юридического оформления — нет: тут нужен живой стенографист или нотариус.

Ещё одна часто всплывающая фраза — транскрипт. Это англицизм (transcript), означает «итоговый текстовый файл, полученный из аудио». Если коротко: транскрибация — это процесс, транскрипт — результат.

Как работает автоматическая транскрибация: распознавание, диаризация, саммари

Под капотом у Сонара — 4-шаговый pipeline, который целиком крутится локально на нашем сервере в РФ: аудио и транскрипты не уезжают к зарубежным API.

Шаг 1. Загрузка и нормализация. Сонар принимает MP3, M4A, WAV, OGG, WebM, MP4, MOV. Перед транскрипцией файл прогоняется через ffmpeg: ресэмплинг до 16 кГц моно, нормализация громкости, конвертация в формат, который ждёт модель распознавания на входе.

Шаг 2. VAD и smart-запись. Перед основной моделью идёт VAD (Voice Activity Detection) — лёгкая нейросеть, отделяющая речь от тишины и шума. Это наш фирменный шаг: Сонар не отдаёт паузы и фоновые звуки в распознавание, а собирает запись из чистых речевых сегментов. Час исходного аудио на выходе превращается в 22–35 минут полезного — транскрипция работает быстрее, итоговый текст короче, саммари точнее.

Шаг 3. Распознавание речи + диаризация. Основная модель распознавания — GigaAM v3, российская ASR-модель, заточенная под русскую речь. Параллельно идёт диаризация через pyannote.audio — отдельная нейросеть, размечающая, кто из участников говорит в каждый момент. На выходе — текст с метками «Спикер 1», «Спикер 2» и тайм-кодами.

Шаг 4. Саммари и задачи. Текст уходит в языковую модель T-pro 2.0, которую мы держим у себя на сервере. Промпты заточены под русский: модель выделяет ключевые тезисы, договорённости, открытые вопросы и список задач с упоминанием ответственных.

Весь pipeline от загрузки до саммари занимает считаные минуты на час аудио — всё считается на нашем GPU-сервере в России, без выхода в облака зарубежных провайдеров.

Поддерживаемые форматы и языки

Сонар заточен прежде всего под русскую речь — по публичным бенчмаркам GigaAM v3 даёт WER около 3.3% на русском (одна из лучших цифр на рынке RU-распознавания, заметно ниже Whisper-large-v3). Это осознанный фокус: вместо «всех языков мира понемногу» мы оптимизируем качество распознавания русского, включая фамилии, термины и числа.

Аудио: MP3 (самый частый), M4A (запись iPhone), WAV (несжатый), OGG/Opus (Telegram-голосовые), FLAC, AAC. Сонар принимает файл до 2 ГБ или до 4 часов длительности — выбирается тот, что наступит раньше.

Видео: MP4, MOV, WebM, MKV — Сонар вытаскивает аудиодорожку через ffmpeg и работает дальше как с обычным аудио. Это закрывает сценарий «расшифровка видео в текст» для записей с YouTube, Rutube, Vimeo и локальных файлов с экрана.

Язык: русский — основной и приоритетный. Если в речи мелькают английские термины (типичный кейс для IT- и бизнес-созвонов), модель распознаёт их в общем русском потоке. Для записей целиком на других языках Сонар — не лучший выбор: мы сознательно не размениваемся на мультиязычность в ущерб качеству русского.

Точность RU-распознавания (WER, числа, имена, термины)

Точность распознавания измеряют через WER (Word Error Rate) — долю неправильно распознанных слов. Чем ниже WER — тем лучше. Для контекста: WER 5% — это качество стенографа-человека, WER 20% — текст, который требует ручной правки на каждой третьей фразе.

По публичным бенчмаркам и независимым обзорам, Whisper-large-v3 на чистом русском даёт WER 8–12%. Это рабочий уровень для подавляющего большинства бизнес-сценариев: общая мысль и фактура передаются без потерь, ручная правка нужна точечно — на редких фамилиях, специфической терминологии и числах с большим количеством разрядов.

Где WER растёт:

  • Шумная запись (улица, кафе, плохой микрофон) — WER уходит к 15–20%.
  • Сильный акцент или диалект — модель путается на нестандартном произношении.
  • Технические термины из узких ниш (биотехнологии, эзотерика, IT-специфика, юридическая латынь) — модель подменяет их на похожие по звучанию обычные слова.
  • Имена собственные — фамилии типа «Кржижановский» или «Раджабов» Whisper угадывает нестабильно.

Что помогает:

  • Хороший микрофон — даже бытовой петличка сильно опускает WER.
  • Чистая комната — ковёр, шторы, отсутствие фонового вентилятора.
  • Промпт-prefix — Whisper умеет принимать на вход список ожидаемых имён и терминов; точность на них резко растёт.

Транскрибация бесплатно vs платно — 8 сервисов в 2026

Полный сравнительный обзор RU-доступных сервисов на май 2026. Без частичных галочек: только ✓ / ✗ / прямая формулировка. Цены в рублях по курсу ЦБ РФ на 2026-05-09 (74,7 ₽/$).

СервисТочность RUДиаризацияЦенаPrivacyЭкспорт
Сонар≈97% на русском (GigaAM v3, WER ≈3.3%)✓ (pyannote)Старт 120 мин/мес, от 490 ₽/месCloud РФTXT, DOCX, SRT, JSON
Whisper локально88–92% (large-v3)через pyannote отдельнобесплатно (open-source)полнаялюбой через API
Yandex SpeechKit90–94% (Yandex ASR)от 0,12 ₽/сек тарификацияCloud РФTXT, JSON
MTS Audio (Voicekit)88–92%от 0,17 ₽/секCloud РФTXT, JSON
Speech-Pad80–85% (Google ASR)бесплатно (с лимитами)Cloud GoogleTXT
Speech2Text90–93% (Whisper)от 5 ₽/мин (170/час), free 15 минCloud РФTXT, DOCX, SRT
Charla AI90–93% (Whisper)от 290 ₽/мес начальный пакетCloud РФTXT, DOCX
Turboscribe92–94% (Whisper)$10/мес (≈ 750 ₽), free 30 мин/деньCloud EU/USTXT, DOCX, SRT

Восемь строк, не тридцать — потому что в реальном выборе вы быстро отсекаете категории. Если важен RU-датацентр и оплата рублёвой картой — Turboscribe и Speech-Pad отпадают. Если нужна предсказуемая флэт-подписка вместо поминутки — отпадают все per-second-сервисы. Если важен русский язык как первый класс и оплата рублём — остаётся Сонар.

Сравнение Сонар vs tl;dv для русскоязычной команды — отдельный разбор для тех, кто выбирает между RU и глобальным AI-meeting-ассистентом.

Whisper локально в этой таблице — особый кейс. Модель бесплатна и open-source, но требует Mac с Apple Silicon или Linux/Windows-машины с GPU и 10 ГБ свободного места под веса модели. Для разовой расшифровки часового интервью овчинка выделки не стоит. Для NDA-сценариев или регулярного потока 50+ часов в месяц — становится единственным разумным вариантом по сумме приватности и стоимости.

Расшифровка из созвонов Telemost, Zoom, Google Meet

Отдельный пласт задач — не «расшифровать готовый файл», а «получить транскрипт сразу после созвона». Тут на первый план выходит meeting-bot — отдельный участник встречи, который пишет звук и сразу гонит его в pipeline.

В Сонаре meeting-bot заходит в Яндекс Телемост, Zoom и Google Meet по invite-ссылке. Логика такая же, как с загрузкой файла: VAD → распознавание → диаризация → саммари. Разница — в timing’е: вы не ждёте, пока созвон закончится и кто-то выгрузит файл, а получаете транскрипт через 5 минут после клика «Завершить».

Если вы ищете способ записать конкретно встречу в Телемосте — как мы записываем встречи в Telemost разобрано в отдельном гайде: 4 способа от встроенной кнопки до бот-участника, юр-нюансы записи и сравнение по сценариям.

Видео в текст: YouTube, Rutube, локальные файлы

Расшифровка видео — частный случай расшифровки аудио: ffmpeg вытаскивает аудиодорожку, дальше всё работает как с обычным MP3.

YouTube. Если у видео уже есть автогенерированные субтитры от Google ASR — их можно экспортировать через интерфейс YouTube или сторонние сервисы за минуту, никакой транскрибации не нужно. Но качество автосубтитров YouTube на русском — около 80% WER в лучшем случае: не разделено по спикерам, без знаков препинания, термины и имена собственные часто перепутаны. Если видео важное (интервью, экспертный разговор, лекция) — стоит загрузить файл в полноценный сервис транскрибации.

Rutube, VK Видео, Дзен. Автосубтитров нет или очень плохого качества. Скачивайте видео локально (через yt-dlp, 4K Video Downloader, расширения браузера) и загружайте в сервис.

Локальные файлы. MP4 c iPhone-камеры, MOV из QuickTime, WebM из встроенной записи Телемоста — все форматы Сонар принимает без предварительной конвертации.

Сценарий, где расшифровка видео экономит часы: транскрипты экспертных интервью для подкастов, конспекты записанных лекций для учёбы, нарезка цитат для контент-маркетинга. Раньше это делали стажёры за копейки, теперь делает нейросеть за пять минут.

Приватная транскрибация: данные в РФ и локальный Whisper

Категория задач, где важно, чтобы аудио не уезжало к зарубежным провайдерам — юридически или этически. Юристы под NDA, врачи частной практики, M&A-консультанты — у каждого свой риск-профиль, но требование одно: данные не должны покидать российский периметр.

Вариант 1: российский cloud с хранением в РФ. Сонар целиком работает на собственном сервере в России — и распознавание, и саммари считаются локально, без обращения к зарубежным API. Аудио и транскрипты хранятся в российском дата-центре, что снимает основной риск 152-ФЗ для рабочих созвонов внутри компании. Плюс — готовый UI: архив, поиск, экспорт, никакой настройки из деталей.

Вариант 2: Whisper локально на своём железе. Если требуется полная автономия без интернета вообще, модель Whisper ставится через pip install openai-whisper или pip install faster-whisper и запускается командой в терминале или через GUI-обёртки (MacWhisper, Whisper.cpp, Buzz). Плюсы: нулевая стоимость, работает без сети. Минусы: нет диаризации из коробки (нужно отдельно ставить pyannote.audio), нет UI для архива, поиск по транскриптам — руками через grep. Для разработчика рабочий вариант, для юриста или врача — порог входа высоковат.

Разница — в trade-off между «собрать самому из open-source-деталей и держать на своей машине» и «взять готовый российский сервис с UI, поддержкой и хранением в РФ».

Юридические нюансы транскрибации в РФ

В России запись аудио регулируется законом 152-ФЗ «О персональных данных» и статьёй 23 Конституции о тайне переписки. Главное правило: участники должны знать, что их пишут. Это касается и сценария «записал на диктофон, потом расшифровал»: запись и транскрипт — это одни и те же персональные данные в разных форматах.

Для рабочих созвонов в компании, где политика записи прописана в трудовом договоре, достаточно уведомить участников. AI-боты-участники типа Сонара отображают факт записи в списке участников — формально уведомление выполнено. Для встреч с внешними клиентами, переговоров с физлицами, медицинских и психотерапевтических консультаций нужно явное согласие, зафиксированное в письме или чате.

Расшифровка чужих записей без ведома участников — отдельный юридический риск, даже если запись попала к вам легально. Если в кадре чувствительные данные (медицина, финансы, личная жизнь третьих лиц), стоит обсудить ситуацию с юристом до того, как загружать файл в облачный сервис.

Подробнее про шаблоны формулировок и согласие участников по 152-ФЗ — в отдельном разборе.

FAQ

Как сделать расшифровку аудио в текст бесплатно?

Самый быстрый путь — загрузить файл в бесплатный инструмент Сонара: текст для записи до 20 минут готов онлайн и без регистрации. Если хочется иначе — есть ещё три варианта. Первый — поставить Whisper локально (pip install faster-whisper) и запустить на своём компьютере. Бесплатно, полностью приватно, требует базовых навыков работы с командной строкой. Второй — использовать бесплатный тариф облачного сервиса: Сонар на тарифе Старт даёт 120 минут в месяц без карты, Speech-Pad работает по лимитам, Turboscribe — 30 минут в день. Третий — Yandex SpeechKit: первые часы по промо-кредитам бесплатно при регистрации в Yandex Cloud.

Какая нейросеть лучше расшифровывает аудио на русском?

На рынке доминирует Whisper от OpenAI — open-source-модель, которую под капотом используют Turboscribe, Speech2Text, Charla AI и большинство глобальных сервисов. Whisper-large-v3 даёт 8–12% WER на чистом русском. Российские движки заточены под русскую речь отдельно: Yandex SpeechKit (собственная ASR-модель Яндекса, 90–94% точности, оптимизирована под российскую речь), MTS Audio, а также GigaAM — на ней работает Сонар. Для бытовых задач разница между ними не критична; для работы со специальной терминологией стоит протестировать несколько движков на своих типичных записях.

Можно ли транскрибировать видео с YouTube в текст?

Да, двумя путями. Если у видео есть автосубтитры от YouTube — выгрузите их через интерфейс или через сервисы вроде youtube-transcript-api. Точность около 80% без разметки спикеров. Для лучшего качества скачайте видео через yt-dlp или 4K Video Downloader и загрузите в полноценный сервис транскрипции — современная нейросеть даст заметно более высокую точность и разделение по спикерам. Сонар принимает MP4 напрямую, ffmpeg внутри вытаскивает аудиодорожку.

Что такое диаризация и зачем она нужна?

Диаризация — это разделение записи по спикерам: «кто говорит в какой момент». Технически это отдельная нейросеть (чаще всего pyannote.audio), которая анализирует тембр голоса и размечает участников «Спикер 1», «Спикер 2» и так далее. Имена не угадываются — спикеры различаются по голосу, имена назначает пользователь после расшифровки. Для двух собеседников диаризация работает почти идеально, при 4+ спикерах с похожими голосами могут быть путаницы.

Сколько стоит расшифровка часа аудио онлайн?

Цены сильно различаются по моделям. По поминутной тарификации: 5 ₽/мин у Speech2Text = 300 ₽/час, 0,12–0,17 ₽/сек у Yandex SpeechKit и MTS Audio = 430–610 ₽/час. По флэт-подписке Сонара — от 490 ₽/мес за пакет минут без поминутной доплаты (тариф Рабочий — 1200 минут, Профи — 4000 минут). Whisper локально — 0 ₽/час, но требует своего железа и времени на настройку.

Безопасно ли загружать конфиденциальные записи в облачные сервисы?

Зависит от провайдера и от природы данных. Для рутинных рабочих созвонов внутри компании — облачные RU-сервисы (Сонар, Yandex SpeechKit, MTS Audio) держат данные в РФ и работают по 152-ФЗ; у Сонара весь pipeline считается на собственном сервере в России, без обращения к зарубежным API. Для NDA-материала, врачебной тайны, M&A-переговоров и журналистских расследований даже российский cloud может быть юридически рискован, если корп-политика прямо запрещает любые сторонние сервисы. В таких сценариях остаётся максимально автономный путь — Whisper локально на своём железе, где аудио и транскрипты вообще не покидают вашу машину.

Что почитать дальше

Источники