На главную страницу
EnEn

Главная / Возможности / Технологии / Распознавание голосовых команд


Распознавание голосовых команд

Что такое распознавание голосовых команд и чем оно может быть полезно в работе. Подробное описание технологии распознавания речи в статье.

Если давать широкое определение распознаванию речи компьютером, то это процесс распознавания речевого сигнала в текстовый поток. То есть, исходя из этого, можно понять, что распознавание речевых команд – это программное распознавание отдельного слова или фразы из заранее заданного словаря.

Как происходит распознавание команд компьютером?

Каждый отдельный звук имеет сложную волновую структуру, которая включает в себя различные частоты и колебания, плюс разные люди будут произносить одно и то же слово по-разному из-за различающихся тембра голоса и интонаций.

Поэтому, собирая библиотеку голосовых команд, машина прослушивает слова, произнесенные и одним человеком, и разными людьми. Собрав достаточное количество вариантов, система распознавания сможет усреднить особенности произношения той или иной команды, чтобы потом, услышав слово, не ошибиться. Этот усредненный вариант  и будет образцом команды. После, при прослушивании, звуковые колебания преобразуются в электрические и сравниваются с хранящимися в библиотеке эталонами. Точность распознавания и выполняемые команды будут ограничены объемом заданного системе словаря.

На сегодняшний день существует два типа систем распознавания речи - работающие "на клиенте" (client-based) и по принципу "клиент-сервер" (client-server).

При использовании клиент-серверной технологии речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где системе её  обрабатывает и возвращает на устройство уже в виде команды (пример системы - Google Voice, Vlingo). Плюсом является то, что из-за большого количества пользователей, обращающихся к серверу, система распознавания получает большую базу для обучения.

Системы «на клиенте» встречаются реже - в этом случае команда вводится на устройстве пользователя и обрабатывается в нем же (пример системы - Speereo Software, Sphinx). Плюс обработки "на клиенте" – мобильность работы, независимость от наличия связи с удаленным оборудованием и его работы.

Распознавание речевых команд программой Call Office.

Существующая в настоящее время технология распознавания голосовых команд, внедренная в наш программный продукт Call Office открывает новые возможности для пользователей программы. Абонент сможет вести интерактивный диалог с программой, задавая ей команды и речью отвечая на необходимые вопросы.

Программа будет анализировать поток информации, выделяя звуковые фрагменты в речи говорящего и сверять их с указанными в настройках вариантами ответа, например «да» или «нет».

Использование голосовых команд.

Технология распознавания речи позволяет создавать интерактивные системы с расширенными возможностями, которые будут удобны пользователям.

- Например, телефонные IVR системы, ведущие диалог с абонентом и имеющие большое количество вариантов для ответа, где реализация тонального меню довольно затруднительна (системы бронирования).

- Голосовое управление системой, к примеру навигация по личному кабинету или в почте.

- Автоматические телефонные системы опроса общественного мнения, где программа предлагает абоненту назвать номер подходящего ему ответа, регистрируя эту информацию в базе данных.

Как видите, система распознавания голосовых команд может быть полезна абсолютно разным пользователям. При этом распознавание отдельных команд реализуется проще, чем распознавание слитного текста и не требует значительных вычислительных мощностей. Благодаря чему, сегодня существует богатый выбор ПО и оборудования (специализированных DSP), имеющих небольшую стоимость и высокое качество распознавания команд.