В современном мире бурными темпами идёт развитие технологий взаимодействия человека и вычислительной машины. Многие интернет-сервисы уже содержат алгоритмы, создание которых ещё недавно считалось сложной задачей: распознавание голоса, распознавание текста по речи, распознавание лиц и т.д..
По достижению определённого успеха в данных направлениях исследователи перешли на новые, такие как, например – распознавание эмоций по речи или автоматическое определение эмоционального окраса речи. Эта задача относительно новая, существует несколько типов алгоритмов, осуществляющих её решение.
В работе [1] представлены все используемые признаки эмоционального окраса речи для распознавания эмоций, а также предложены новые признаки, благодаря которым возможно получить более эффективные алгоритмы, нежели существующие. Новые предлагаемые характеристики речевого сигнала, по которым можно выделить те или иные признаки эмоционального окраса речи – это гильбертова огибающая речевого сигнала и его собственная мгновенная частота.
Эти функции являются основными в модуляционной теории обработки сигналов [2].
Особенность мгновенной частоты заключается в том, что эта величина зависит от времени, а в классическом представлении спектр сигнала – величина, не зависящая от времени. Вследствие этого мгновенная частота лучше характеризует динамические изменения частоты исходного сигнала.
Для проведения исследования была подготовлена база данных эмоционально окрашенной речи (ЭОР). Для подготовки к эксперименту на профессиональный аудиорекордер была записана речь 10 человек (3 мужчин и 7 женщин), актёров театра, содержащая 6 «базовых» эмоций, предложенных [4]: печаль, страх, отвращение, презрение, гнев и счастье. Также один раз ими был прочитан предложенный отрывок без эмоций, нейтрально.
Эксперты произнесли 2 фразы, которые являются панграммами (содержат в себе все буквы алфавита). Для проведения эксперимента были выбраны 2 панграммы: «Эжно-эфиопский грач увёл мышь за хобот на съезд ящериц» и «Здесь фабула объять не может всех эмоций: шепелявый скороход в юбке тащит горячий мёд». В результате было получено 140 звуковых файлов, содержащих эмоционально окрашенную речь.
Использование панграмм в данном случае имело следующие цели: эмоциональный окрас не должен зависеть от семантического содержания текста и может быть определён только по акустическим признакам сигнала; определить, в каких именно звуках содержатся эти акустические признаки.
Для примера представим огибающую и мгновенную частоту нейтрального высказывания и эмоции «гнев» для мужского голоса (Рис. 1 а-в и 2 а-в).
а – исходный сигнал по времени
б – огибающая исходного сигнала
в – мгновенная частота без СФ
г – мгновенная частота с СФ
Рисунок 1. Графики для мужского голоса, «нейтральная» эмоция
а – исходный сигнал по времени
б – огибающая исходного сигнала
в – мгновенная частота без СФ
г – мгновенная частота с СФ
Рисунок 2. Графики для мужского голоса, эмоция «гнев»
На графиках мгновенной частоты видны частотные пики, которые по своим значениям превышают речевой диапазон. Эти возмущения называются пертурбациями, которые [5] «…связаны обычно с участками резких формантных переходов на границах звуков (в отличие от флюктуаций, которые затрагивают и квазистационарные участки звуков) и в определённой степени отражают сегментный состав отрезка речи…». Величина и количество пертурбаций может использоваться для задач распознавания. К примеру, при эмоции «презрение» пертурбации возникают значительно чаще, чем при нейтральной эмоции, к тому же они гораздо больше по амплитуде.
После применения сглаживающих фильтров мы получили следующие картины для мгновенных частот сигналов (рис. 1 г и 2 г).
По представленным графикам видно, что характеристики речевого сигнала – огибающая и собственная мгновенная частота – являются подходящими для решения задач распознавания эмоций по голосу. Во-первых, благодаря пертурбациям можно определить количество резких формантных переходов в речи, которые говорят о высоких перепадах амплитуды огибающей и маленькой скорости её нарастания. Количество пертурбаций и их значения позволяют успешно классифицировать ту или иную эмоцию.
Во-вторых, по сглаженной функции мгновенной частоты от времени можно определить следующие частотные параметры: частоту основного тона голоса, диапазон изменения основной частоты, характер изменения частоты (например, при эмоции «счастье», частота повышается, при «печали» — понижается), характер мелодичного рисунка речи и т.п.
По огибающей удобно определять паузы в речи, которые в свою очередь делятся на паузы-смычки, паузы хезитации и интонационные [5], определять длительность ударных звуков, их интенсивность и т.д.. К примеру при эмоции «страх» количество пауз и их длительность возрастает по сравнению с нейтральной эмоцией, а интенсивность возрастает с увеличением
Кроме того дальнейшее изучение частотной картины для каждого из предложений позволит определить интонационный рисунок речи.
Практическая реализация алгоритмов выделения этих признаков из огибающей и мгновенной частоты речевого сигнала и нахождение наиболее эффективных из них в целях распознавания эмоционального окраса речи и составляют основную цель дальнейших исследований в данном направлении.
Список литературы:
- Алешин Т.С. Новые признаки эмоционально окрашенной речи в речевом. Научное обозрение, – №1. – 102 с.
- Применение модуляционного анализа-синтеза звуковых сигналов: Монография. Том 3 / Е.Н. Осташевский, В.К. Уваров; под ред. В.К. Уварова. – СПб.: СПбГУКиТ, 2005.
- Уваров В.К. Точное компандирование частотного и динамического диапазонов звуковых сигналов. СПб.: СПбГУКиТ, 2001. – 326 с.
- Экман П. Психология эмоций / пер. с англ. В. Кузин. – СПб.: Питер, 2010. – 336 с.
- Светозарова Н.Д. Интонационная система русского языка. Л.: Изд-во Ленинградского ун-та, 1982. – 176 с.
- Ишуткин Ю.М. Разработка теории модуляционного анализа-синтеза звуковых сигналов и ее практическое применение в технике записи звука кинофильмов: Автореф. дис док. тех. наук. — М.:1. НИКФИ, 1985. 48с.[schema type=»book» name=»РАСПОЗНАВАНИЕ ЭМОЦИЙ ПО РЕЧЕВОМУ СИГНАЛУ С ПОМОЩЬЮ ФУНКЦИЙ МОДУЛЯЦИОННОЙ ТЕОРИИ ЗВУКОВЫХ СИГНАЛОВ» description=»В работе [1] были рассмотрены все существующие функции, которые используются для решения задачи распознавания эмоционального состояния человека по его речевому сигналу, а также предложены гильбертова огибающая и мгновенная частота речевого сигнала как новые функции для этой сферы. Ниже представлены доказательства уместности использования функций модуляционной теории сигналов для определения эмоционального окраса речи, получены графики огибающей и мгновенной частоты для различных эмоций, определён набор признаков, извлечение которых в дальнейшем позволит успешно решить поставленную задачу. » author=»Алешин Тимофей Сергеевич» publisher=»Басаранович Екатерина» pubdate=»2016-12-18″ edition=»euroasia-science_28.04.2016_4(25)» ebook=»yes» ]