Если давать широкое определение распознаванию речи компьютером, то это процесс распознавания речевого сигнала в текстовый поток. То есть, исходя из этого, можно понять, что распознавание речевых команд – это программное распознавание отдельного слова или фразы из заранее заданного словаря.
Как происходит распознавание команд компьютером?
Каждый отдельный звук имеет сложную волновую структуру, которая включает в себя различные частоты и колебания, плюс разные люди будут произносить одно и то же слово по-разному из-за различающихся тембра голоса и интонаций.
Поэтому, собирая библиотеку голосовых команд, машина прослушивает слова, произнесенные и одним человеком, и разными людьми. Собрав достаточное количество вариантов, система распознавания сможет усреднить особенности произношения той или иной команды, чтобы потом, услышав слово, не ошибиться. Этот усредненный вариант и будет образцом команды. После, при прослушивании, звуковые колебания преобразуются в электрические и сравниваются с хранящимися в библиотеке эталонами. Точность распознавания и выполняемые команды будут ограничены объемом заданного системе словаря.
На сегодняшний день существует два типа систем распознавания речи - работающие "на клиенте" (client-based) и по принципу "клиент-сервер" (client-server).
При использовании клиент-серверной технологии речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где системе её обрабатывает и возвращает на устройство уже в виде команды (пример системы - Google Voice, Vlingo). Плюсом является то, что из-за большого количества пользователей, обращающихся к серверу, система распознавания получает большую базу для обучения.
Системы «на клиенте» встречаются реже - в этом случае команда вводится на устройстве пользователя и обрабатывается в нем же (пример системы - Speereo Software, Sphinx). Плюс обработки "на клиенте" – мобильность работы, независимость от наличия связи с удаленным оборудованием и его работы.
Распознавание речевых команд программой Call Office.
Существующая в настоящее время технология распознавания голосовых команд, внедренная в наш программный продукт Call Office открывает новые возможности для пользователей программы. Абонент сможет вести интерактивный диалог с программой, задавая ей команды и речью отвечая на необходимые вопросы.
Программа будет анализировать поток информации, выделяя звуковые фрагменты в речи говорящего и сверять их с указанными в настройках вариантами ответа, например «да» или «нет».
Использование голосовых команд.
Технология распознавания речи позволяет создавать интерактивные системы с расширенными возможностями, которые будут удобны пользователям.
- Например, телефонные IVR системы, ведущие диалог с абонентом и имеющие большое количество вариантов для ответа, где реализация тонального меню довольно затруднительна (системы бронирования).
- Голосовое управление системой, к примеру навигация по личному кабинету или в почте.
- Автоматические телефонные системы опроса общественного мнения, где программа предлагает абоненту назвать номер подходящего ему ответа, регистрируя эту информацию в базе данных.
Как видите, система распознавания голосовых команд может быть полезна абсолютно разным пользователям. При этом распознавание отдельных команд реализуется проще, чем распознавание слитного текста и не требует значительных вычислительных мощностей. Благодаря чему, сегодня существует богатый выбор ПО и оборудования (специализированных DSP), имеющих небольшую стоимость и высокое качество распознавания команд.