Номер части:
Журнал
ISSN: 2411-6467 (Print)
ISSN: 2413-9335 (Online)
Статьи, опубликованные в журнале, представляется читателям на условиях свободной лицензии CC BY-ND

РАСПОЗНАВАНИЕ ЭМОЦИЙ ПО РЕЧЕВОМУ СИГНАЛУ С ПОМОЩЬЮ ФУНКЦИЙ МОДУЛЯЦИОННОЙ ТЕОРИИ ЗВУКОВЫХ СИГНАЛОВ



Науки и перечень статей вошедших в журнал:
DOI:
Дата публикации статьи в журнале:
Название журнала: Евразийский Союз Ученых — публикация научных статей в ежемесячном научном журнале, Выпуск: , Том: , Страницы в выпуске: -
Данные для цитирования: . РАСПОЗНАВАНИЕ ЭМОЦИЙ ПО РЕЧЕВОМУ СИГНАЛУ С ПОМОЩЬЮ ФУНКЦИЙ МОДУЛЯЦИОННОЙ ТЕОРИИ ЗВУКОВЫХ СИГНАЛОВ // Евразийский Союз Ученых — публикация научных статей в ежемесячном научном журнале. Технические науки. ; ():-.

В современном мире бурными темпами идёт развитие технологий взаимодействия человека и вычислительной машины. Многие интернет-сервисы уже содержат алгоритмы, создание которых ещё недавно считалось сложной задачей: распознавание голоса, распознавание текста по речи, распознавание лиц и т.д..

По достижению определённого успеха в данных направлениях исследователи перешли на новые, такие как, например – распознавание эмоций по речи или автоматическое определение эмоционального окраса речи. Эта задача относительно новая, существует несколько типов алгоритмов, осуществляющих её решение.

В работе [1] представлены все используемые признаки эмоционального окраса речи для распознавания эмоций, а также предложены новые признаки, благодаря которым возможно получить более эффективные алгоритмы, нежели существующие. Новые предлагаемые характеристики речевого сигнала, по которым можно выделить те или иные признаки эмоционального окраса речи – это гильбертова огибающая речевого сигнала и его собственная мгновенная частота.

Эти функции являются основными в модуляционной теории обработки сигналов [2].

РАСПОЗНАВАНИЕ ЭМОЦИЙ ПО РЕЧЕВОМУ СИГНАЛУ С ПОМОЩЬЮ ФУНКЦИЙ МОДУЛЯЦИОННОЙ ТЕОРИИ ЗВУКОВЫХ СИГНАЛОВ

Особенность мгновенной частоты заключается в том, что эта величина зависит от времени, а в классическом представлении спектр сигнала – величина, не зависящая от времени. Вследствие этого мгновенная частота лучше  характеризует динамические изменения частоты исходного сигнала.

Для проведения исследования была подготовлена база данных эмоционально окрашенной речи (ЭОР). Для подготовки к эксперименту на профессиональный аудиорекордер была записана речь 10 человек (3 мужчин и 7 женщин), актёров театра, содержащая 6 «базовых» эмоций, предложенных [4]: печаль, страх, отвращение, презрение, гнев и счастье. Также один раз ими был прочитан предложенный отрывок без эмоций, нейтрально.

Эксперты произнесли 2 фразы, которые являются панграммами (содержат в себе все буквы алфавита). Для проведения эксперимента были выбраны 2 панграммы: «Эжно-эфиопский грач увёл мышь за хобот на съезд ящериц» и «Здесь фабула объять не может всех эмоций: шепелявый скороход в юбке тащит горячий мёд». В результате было получено 140 звуковых файлов, содержащих эмоционально окрашенную речь.

Использование панграмм в данном случае имело следующие цели: эмоциональный окрас не должен зависеть от семантического содержания текста и может быть определён только по акустическим признакам сигнала; определить, в каких именно звуках содержатся эти акустические признаки.

Для примера представим огибающую и мгновенную частоту нейтрального высказывания и эмоции «гнев» для мужского голоса (Рис. 1 а-в и 2 а-в).

РАСПОЗНАВАНИЕ ЭМОЦИЙ ПО РЕЧЕВОМУ СИГНАЛУ С ПОМОЩЬЮ ФУНКЦИЙ МОДУЛЯЦИОННОЙ ТЕОРИИ ЗВУКОВЫХ СИГНАЛОВ

а – исходный сигнал по времени

б – огибающая исходного сигнала

в – мгновенная частота без СФ

г – мгновенная частота с СФ

Рисунок 1. Графики для мужского голоса, «нейтральная» эмоция

РАСПОЗНАВАНИЕ ЭМОЦИЙ ПО РЕЧЕВОМУ СИГНАЛУ С ПОМОЩЬЮ ФУНКЦИЙ МОДУЛЯЦИОННОЙ ТЕОРИИ ЗВУКОВЫХ СИГНАЛОВ

а – исходный сигнал по времени

б – огибающая исходного сигнала

в – мгновенная частота без СФ

г – мгновенная частота с СФ

Рисунок 2. Графики для мужского голоса, эмоция «гнев»

На графиках мгновенной частоты видны частотные пики, которые по своим значениям превышают речевой диапазон. Эти возмущения называются пертурбациями, которые [5]  «…связаны обычно с участками резких формантных переходов на границах звуков (в отличие от флюктуаций, которые затрагивают и квазистационарные участки звуков) и в определённой степени отражают сегментный состав отрезка речи…». Величина и количество пертурбаций может использоваться для задач распознавания. К примеру, при эмоции «презрение» пертурбации возникают значительно чаще, чем при нейтральной эмоции, к тому же они гораздо больше по амплитуде.

После применения сглаживающих фильтров мы получили следующие картины для мгновенных частот сигналов (рис. 1 г и 2 г).

По представленным графикам видно, что характеристики речевого сигнала – огибающая и собственная мгновенная частота – являются подходящими для решения задач распознавания эмоций по голосу. Во-первых, благодаря пертурбациям можно определить количество резких формантных переходов в речи, которые говорят о высоких перепадах амплитуды огибающей и маленькой скорости её нарастания. Количество пертурбаций и их значения позволяют успешно классифицировать ту или иную эмоцию.

Во-вторых, по сглаженной функции мгновенной частоты от времени можно определить следующие частотные параметры: частоту основного тона голоса, диапазон изменения основной частоты, характер изменения частоты (например, при эмоции «счастье», частота повышается, при «печали» — понижается), характер мелодичного рисунка речи и т.п.

По огибающей удобно определять паузы в речи, которые в свою очередь делятся на паузы-смычки, паузы хезитации и интонационные [5], определять длительность ударных звуков, их интенсивность и т.д.. К примеру при эмоции «страх» количество пауз и их длительность возрастает по сравнению с нейтральной эмоцией, а интенсивность возрастает с увеличением

Кроме того дальнейшее изучение частотной картины для каждого из предложений позволит определить интонационный рисунок речи.

Практическая реализация алгоритмов выделения этих признаков из огибающей и мгновенной частоты речевого сигнала и нахождение наиболее эффективных из них в целях распознавания эмоционального окраса речи и составляют основную цель дальнейших исследований в данном направлении.

Список литературы:

  1. Алешин Т.С. Новые признаки эмоционально окрашенной речи в речевом. Научное обозрение, – №1. – 102 с.
  2. Применение модуляционного анализа-синтеза звуковых сигналов: Монография. Том 3 / Е.Н. Осташевский, В.К. Уваров; под ред. В.К. Уварова. – СПб.: СПбГУКиТ, 2005.
  3. Уваров В.К. Точное компандирование частотного и динамического диапазонов звуковых сигналов. СПб.: СПбГУКиТ, 2001. – 326 с.
  4. Экман П. Психология эмоций / пер. с англ. В. Кузин. – СПб.: Питер, 2010. – 336 с.
  5. Светозарова Н.Д. Интонационная система русского языка. Л.: Изд-во Ленинградского ун-та, 1982. – 176 с.
  6. Ишуткин Ю.М. Разработка теории модуляционного анализа-синтеза звуковых сигналов и ее практическое применение в технике записи звука кинофильмов: Автореф. дис док. тех. наук. — М.:1. НИКФИ, 1985. 48с.[schema type=»book» name=»РАСПОЗНАВАНИЕ ЭМОЦИЙ ПО РЕЧЕВОМУ СИГНАЛУ С ПОМОЩЬЮ ФУНКЦИЙ МОДУЛЯЦИОННОЙ ТЕОРИИ ЗВУКОВЫХ СИГНАЛОВ» description=»В работе [1] были рассмотрены все существующие функции, которые используются для решения задачи распознавания эмоционального состояния человека по его речевому сигналу, а также предложены гильбертова огибающая и мгновенная частота речевого сигнала как новые функции для этой сферы. Ниже представлены доказательства уместности использования функций модуляционной теории сигналов для определения эмоционального окраса речи, получены графики огибающей и мгновенной частоты для различных эмоций, определён набор признаков, извлечение которых в дальнейшем позволит успешно решить поставленную задачу. » author=»Алешин Тимофей Сергеевич» publisher=»Басаранович Екатерина» pubdate=»2016-12-18″ edition=»euroasia-science_28.04.2016_4(25)» ebook=»yes» ]
Список литературы:


Записи созданы 9819

Похожие записи

Начните вводить, то что вы ищите выше и нажмите кнопку Enter для поиска. Нажмите кнопку ESC для отмены.

Вернуться наверх
pg slot slot demo 2023 slot slot online slot gacor 2023 slot gacor 2023 slot demo slot gacor maxwin https://jdih.uinsatu.ac.id/-/slot-demo-pragmatic/ slot demo slot gacor maxwin slot deposit pulsa slot demo slot demo slot terbaik slot gacor https://tamu.sucofindo.co.id/uploads/tamu/slot-kamboja/ slot dana
404: Not Found