Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования

advertisement
Федеральное государственное бюджетное образовательное учреждение высшего
профессионального образования
«Тверской государственный технический университет»
На правах рукописи
Сидоров Константин Владимирович
БИОТЕХНИЧЕСКАЯ СИСТЕМА МОНИТОРИНГА ЭМОЦИЙ ЧЕЛОВЕКА
ПО РЕЧЕВЫМ СИГНАЛАМ И ЭЛЕКТРОЭНЦЕФАЛОГРАММАМ
Специальность 05.11.17 – Приборы, системы и изделия
медицинского назначения
Диссертация
на соискание ученой степени кандидата технических наук
Научный руководитель:
доктор технических наук,
профессор Филатова Н.Н.
Тверь – 2015
2
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ...……………………………………………………………………...
4
ГЛАВА 1 АНАЛИЗ БИОТЕХНИЧЕСКИХ СИСТЕМ, ПРИМЕНЯЕМЫХ
ДЛЯ МОНИТОРИНГА ЭМОЦИЙ ЧЕЛОВЕКА………………………………... 13
1.1 Мониторинг эмоций для диагностики заболеваний на ранних
этапах……………………………………………………………………... 13
1.2 Компьютерные технологии и технические решения, применяемые
для выявления эмоций на основе анализа речи………………………..
18
1.2.1 Одноканальные системы………….……………...………………... 19
1.2.2 Многоканальные системы………….……………….……………... 26
1.3 Модели эмоций и их применение для анализа эмоционально
окрашенной речи………………..……….………………....……………. 32
1.4 Признаки эмоционально окрашенной речи……....………………..…… 41
1.5 Постановка задач дальнейшего исследования……….…………...…….. 45
Выводы по главе 1……..……………...………………..…………………….. 48
ГЛАВА 2 РАЗРАБОТКА МЕТОДИКИ ИССЛЕДОВАНИЯ ЭМОЦИЙ НА
ОСНОВЕ АНАЛИЗА РЕЧЕВОГО СИГНАЛА………………………………..... 51
2.1 Концепция
интегрированной
БТС
для
мониторинга
эмоций
человека....................................................................................................... 51
2.2 Методика проведения экспериментов…………….…….………………. 57
2.3 Разработка мультимодальной базы эмоций…….………………………. 64
Выводы по главе 2……..……………...………………..…………………….. 75
ГЛАВА 3 РАЗРАБОТКА МОДЕЛИ И АЛГОРИТМОВ ИНТЕРПРЕТАЦИИ
ЭМОЦИЙ ЧЕЛОВЕКА ПО ЕСТЕСТВЕННОЙ РЕЧИ...………………….……. 77
3.1 Влияние эмоционального состояния на спектральную плотность
мощности биомедицинских сигналов………………….………………. 77
3.2 Изменение морфологии аттракторов биомедицинских сигналов,
зарегистрированных при различных эмоциональных реакциях….….. 83
3
3.3 Алгоритмы для оценки морфологических признаков аттрактора….…
96
3.3.1 Максимальные векторы аттрактора…...………...………………... 96
3.3.2 Плотность траекторий аттрактора………....……….……………... 101
3.4 Модель
интерпретатора
эмоций
на
основе
нечетких оценок
характеристик биомедицинских сигналов………………...…………… 105
Выводы по главе 3……..……………...………………..…………………….. 118
ГЛАВА 4
РАЗРАБОТКА
МЕТОДИЧЕСКОГО
И
ПРОГРАММНОГО
ОБЕСПЕЧЕНИЯ БТС EEG/S...………………………………………..…….…… 121
4.1 Структура БТС EEG/S…….……………………………………………… 121
4.2 Программные модули БТС EEG/S..…….….………...………………….. 124
4.3 Испытания БТС EEG/S……….………………..……………....…………
128
Выводы по главе 4……..……………...………………..…………………….. 145
ЗАКЛЮЧЕНИЕ………………………………………………………………........ 146
СПИСОК СОКРАЩЕНИЙ……………………………………………………….
148
СПИСОК ЛИТЕРАТУРЫ.………………………………………………………..
149
ПРИЛОЖЕНИЯ.…………………………………………………………………... 166
4
ВВЕДЕНИЕ
Актуальность темы исследования. Эмоции непрерывно сопровождают
человека на протяжении всей его жизни, они являются мощными стимулами при
достижении людьми биологических и социальных потребностей, от них во
многом зависит физическое и душевное здоровье человека. Задача мониторинга
эмоций актуальна для многих сфер деятельности человека, в том числе для
медицины (психосоматика, неврозология, нейропсихология и т.д.), где оценки
различных эмоциональных состояний человека принимаются во внимание при
диагностике психосоматических и психомоторных нарушений. Мониторинг
эмоций может использоваться в качестве дополнительного инструментария при
клинико-психологическом исследовании пациентов.
В настоящее время для решения задач мониторинга эмоций создаются
специальные методики, основанные на анализе речевых сигналов пациента и
направленные на поиск объективных показателей депрессии, состояния тоски,
тревоги и т.п., позволяющие формализовать операции передачи и дешифровки
невербальной
информации.
С
помощью
обнаруженных
изменений
в
характеристиках речи можно выделить т.н. «фазу дестабилизации», возникающую
при резкой отмене назначенных лекарственных препаратов и необходимую для
прогнозирования
терапевтических
эффектов
при
лечении
эмоционально-
аффективных расстройств и психических заболеваний.
Мониторинг эмоционального состояния человека становится новым
востребованным инструментом, который находит применение как в области
медицины, так и при создании специализированных биотехнических средств
оценки эмоционального состояния человека (т.н. «эмоциональные сканеры»,
обучающие системы, автоматизированные системы оповещения и т.п.).
Степень разработанности темы исследования. Большой комплекс
исследований
эмоций
выполнен
активности головного мозга
при
с
помощью
регистрации
электрической
предъявлении испытуемому различных
5
эмоционально значимых стимулов. Результаты, полученные в работах S. Koelstra,
T. Flaisch, Т.Н. Лапшиной, О.О. Кисловой, Н.В. Рева, Л.Н. Савотиной, Н.Ю. Смит,
Н.В. Шемякиной, иллюстрируют методики регистрации эмоциональных реакций
человека на комбинированные стимулы с помощью электроэнцефалографа.
Большой вклад в развитие теоретических и прикладных решений в области
анализа эмоциональной информации, содержащейся в речи, принадлежит таким
авторам, как Y. Chen, M. Schröder, F. Burkhardt, E. van den Broek, R. Cowie,
E. Douglas-Cowie,
В.Л. Розалиев,
F. Ringeval,
И.Б. Старченко,
V.A. Petrushin,
А.В. Заболеева-Зотова,
А.Ф. Хроматиди,
Ю.С. Перервенко,
М.В. Калюжный, О.Г. Федоренко, В.М. Федоров, А.А. Лукьяница, И.Э. Хейдоров,
А.А. Марьев, Ю.Т. Глазунов, А.Н. Голубинский, А.Г. Давыдов, В.В. Киселёв.
На данном этапе успешный анализ эмоциональной речи осуществляется в
основном для случаев ярко выраженных проявлений эмоций с использованием
большого числа признаков (от нескольких десятков до нескольких сотен).
Современные
средства
анализа
речи
позволяют
получать
упрощенную
интерпретацию эмоции, уверенно идентифицируя в основном только ее знак.
Существующие модели (ООС, KARO, ЕМА, Affective Computing, сегментарная,
иммунная и др.) не позволяют получить достаточно точные оценки уровня и
динамических свойств эмоций на основе характеристик акустической волны или
другого сигнала.
Для построения модели интерпретации эмоциональной информации,
скрытой в речевых сообщениях, необходимо создание биотехнической системы
(БТС), обеспечивающей регистрацию как речевого сигнала, так и другого
биомедицинского сигнала, взаимосвязанного с эмоциональным состоянием
испытуемого. Это позволит использовать для построения модели эмоций только
образцы речи пациента с объективно подтвержденным фактом изменения
эмоционального состояния. В качестве контрольного канала мониторинга
эмоциональной
реакции
целесообразно
использовать
регистрацию
электроэнцефалограмм (ЭЭГ).
Объектом
исследования
является
БТС
обработки
и
анализа
6
биомедицинских сигналов (речевых сигналов и ЭЭГ) для задач диагностики
эмоциональных состояний человека.
исследования являются
Предметом
методы и алгоритмы анализа
биомедицинских сигналов, позволяющих интерпретировать эмоциональные
состояния человека.
Целью
исследования
является
разработка
программных
и
информационных средств мониторинга эмоций человека путем анализа речевых
образцов с объективным подтверждением изменения эмоционального состояния
при помощи регистрации ЭЭГ.
Для достижения поставленной цели необходимо решить следующие задачи:
1.
Выполнить
функционально-структурный
анализ
компьютерных
технологий и технических решений, применяемых для выявления эмоций на
основе анализа речи или ЭЭГ.
2.
Разработать БТС для исследования объективно подтвержденных слабо
выраженных эмоциональных реакций, проявляющихся в естественной речи
человека.
3.
Создать структуру мультимодальной базы эмоций и методику
регистрации
подтверждения
образцов
эмоционально
изменения
окрашенной
эмоционального
речи
состояния
при
человека
условии
путем
регистрации электрической активности головного мозга.
4.
Разработать признаки, позволяющие идентифицировать изменения
эмоционального состояния человека на основе оценки морфологических свойств
аттракторов, восстановленных по биомедицинским сигналам.
5.
Разработать и исследовать модель интерпретатора эмоций человека на
основе анализа биомедицинских сигналов.
6.
Разработать
и
исследовать
алгоритмическое
и
программное
обеспечение БТС для мониторинга эмоций человека.
Методология и методы исследования. В диссертационной работе
использована методология последовательного применения методов научного
познания, включающих экспериментальные и теоретические методы анализа БТС.
7
Для решения поставленных задач использованы методы нелинейной
динамики, нечетких множеств, цифровой обработки сигналов, математической
статистики.
Научная новизна результатов исследования:
1.
Принципы построения БТС для исследования слабо выраженных
эмоциональных
реакций
в
естественной
речи
человека,
объективно
подтверждаемых изменениями сигналов электрической активности мозга.
2.
Система
признаков
для
идентификации
параметров
эмоций,
основанная на оценке морфологических свойств аттракторов, инвариантная к
природе физического сигнала и позволяющая представлять образцы речи и ЭЭГ в
одинаковых признаковых пространствах. Экспериментально доказано совпадение
результатов интерпретации эмоций по образцам речи и ЭЭГ, зарегистрированных
у одного и того же испытуемого. Это позволяет использовать предложенную
систему признаков для проектирования программных средств бесконтактной
дистанционной диагностики с использованием звукозаписывающей аппаратуры.
3.
Математическая модель интерпретатора эмоций, отображающая их
знак, уровень и динамику на основе нечетких оценок максимальных векторов,
плотности
и
равномерности
траекторий
проекций
аттракторов,
реконструированных по двум разным биомедицинским сигналам, позволяет
распознавать изменения эмоциональных состояний человека. Расхождение между
интерпретаций по ЭЭГ и речевому сигналу не превышает 5 %.
Теоретическая значимость работы. Полученные в диссертационной
работе результаты дополняют и развивают теорию создания и применения
специализированных БТС и бесконтактных средств экспресс-диагностики и
мониторинга эмоционального состояния человека в профилактических или
лечебных целях.
Практическая значимость работы:
1.
Создана мультимодальная база эмоций, включающая более 240 пар
образцов речевых сигналов и параллельно зарегистрированных образцов ЭЭГ.
Записи отличаются знаком и уровнем проявления эмоциональных откликов. База
8
эмоций может быть использована специалистами при разработке и тестировании
систем мониторинга эмоционального состояния человека.
2.
Предложена
методика
формирования
образцов
эмоционально
окрашенной речи и создания мультимодальной базы эмоций, основанная на
применении стимулирующего воздействия на испытуемого и объективном
подтверждении изменения эмоционального состояния человека при помощи
регистрации ЭЭГ. Применение методики позволяет повысить достоверность
регистрируемых образцов биомедицинских сигналов, отображающих изменение
эмоционального состояния человека.
3.
Разработаны алгоритмы для оценки морфологических признаков
аттрактора, позволяющие оценивать вариации контуров, площадь и плотность
двухмерных
проекций.
Алгоритмы
позволяют
формировать
описания
биомедицинских сигналов в виде векторов, включающих оценки разнородных
дискретных признаков.
4.
Разработана БТС EEG/S, позволяющая осуществлять мониторинг
эмоций человека по речевым сигналам или ЭЭГ. Система прошла испытания по
мониторингу психофизиологического состояния сотрудников компании ООО
«МУ МГСС» (г. Москва). Реализованные в БТС технические решения позволяют
регистрировать промежуточные и заключительные результаты исследований,
обладают чувствительностью к малым изменениям эмоционального состояния
испытуемого, не требуют проведения продолжительного тестирования и
способствуют уменьшению ошибок при диагностике эмоционального состояния
пациента.
Научные положения, выносимые на защиту:
1.
значимые
Регистрация
стимулы
по
реакции
двум
испытуемого
каналам
на
внешние
(основному
–
эмоционально
речевые
сигналы,
контрольному – сигналы ЭЭГ), позволяет создавать записи образцов с различным
уровнем проявления эмоций в речи с объективным подтверждением по сигналам
ЭЭГ факта изменения эмоционального состояния испытуемого.
2.
Система признаков, характеризующая морфологию аттракторов
9
(максимальные векторы, плотность траекторий и равномерность заполнения
проекций аттрактора), дает возможность использовать специальные методы для
визуализации данных и позволяет создавать интегрированные количественные и
графические
интерпретации результатов исследований,
выполненных при
различных способах регистрации откликов испытуемого.
3.
Математическая
модель
интерпретатора
эмоций
отображает
взаимосвязь между знаком, уровнем и динамикой эмоций и морфологией
проекций аттракторов, реконструированных по образцам речи или ЭЭГ.
Достоверность
подтверждается
научных
положений
математическими
и
выкладками,
результатов
а
также
работы
результатами
экспериментов с опытным образцом БТС EEG/S, которые показали: 1) совпадение
выводов, получаемых с помощью модели интерпретатора эмоций по образцам
речи, с выводами, получаемыми при анализе ЭЭГ сигналов, зарегистрированных
у одного и того же испытуемого; 2) совпадение выводов интерпретатора с
оценками выводов экспертов при анализе образцов международной базы Emo-DB.
Достоверность результатов подтверждается апробацией основных положений
работы на международных и всероссийских конференциях и конгрессах.
Реализация
и
внедрение
результатов
исследований.
Результаты
диссертационного исследования использовались при выполнении НИР по проекту
РФФИ: 14-01-00719-а «Интерпретатор эмоций, проявляющихся в естественной
речи» (2014-2016 гг.).
Отдельные
результаты
получены
при
финансовой
поддержке Минобрнауки РФ в рамках программы ФЦП «Научные и научнопедагогические кадры инновационной России» на 2009-2013 гг., мероприятие 1.4,
соглашение от 14.11.2012 г. № 14.A18.21.2081.
Полученные в ходе исследований теоретические и практические результаты
диссертации внедрены в Тверской государственный технический университет по
направлению подготовки специалистов «Биомедицинская инженерия» и переданы
для
внедрения
в
учебный
процесс
кафедры
нервных
болезней
и
восстановительной медицины с курсом психического здоровья Тверской
государственной медицинской академии. Результаты диссертационной работы
10
также
переданы
в
ООО
«МУ МГСС»
(г. Москва)
для
мониторинга
психофизиологического состояния сотрудников организации.
Апробация
Основные
работы.
результаты,
полученные
в
ходе
исследования, докладывались и обсуждались на: I всероссийском конгрессе
молодых
ученых
(Санкт-Петербург, 2012 г.);
XI всероссийской
научно-
технической конференции «Приоритетные направления развития науки и
технологий» (Тула, 2012 г.); международной научно-практической конференции
«Технические науки - основа современной инновационной системы» (ЙошкарОла, 2012 г.); XХIV всероссийской научно-технической конференции студентов,
молодых ученых и специалистов «Биотехнические, медицинские и экологические
системы
и
комплексы»
(Рязань, 2012 г.);
XXV международной
научной
конференции «Математические методы в технике и технологиях (ММТТ-25)»
(Волгоград, 2012 г.);
XII всероссийской
научно-технической
конференции
«Медицинские информационные системы (МИС-2012)» (Таганрог, 2012 г.);
II международной
летней
школе-семинаре
по
искусственному интеллекту
«Интеллектуальные системы и технологии: современное состояние и перспективы
(ISyT’2013)»
(Протасово, 2013 г.);
международных
конгрессах
по
интеллектуальным системам и информационным технологиям «IS&IT'13»,
«IS&IT'14»
(Дивноморское, 2013-2014 гг.);
четырнадцатой
национальной
конференции по искусственному интеллекту с международным участием «КИИ2014»
(Казань, 2014 г.);
конференциях
XVI и XVII всероссийских
«НЕЙРОИНФОРМАТИКА-2014»,
научно-технических
«НЕЙРОИНФОРМАТИКА-
2015» (Москва, 2014-2015 гг.).
Публикации. Основные положения и результаты диссертационной работы
опубликованы в 27 работах, включающих 11 статей в сборниках научных трудов
и журналах, в том числе 5 статей в изданиях, входящих в перечень ВАК, 11
текстов докладов на международных и российских конференциях, 1 патент на
полезную
модель,
3 свидетельства
о
регистрации
программ
для
ЭВМ,
1 свидетельство о регистрации базы данных.
Личное участие автора. Автор лично выполнил основной объем
11
теоретических
и
экспериментальных
исследований,
сформировал
БД
инструментальных обследований, разработал алгоритмы и программы для
обработки результатов, выполнил анализ полученных результатов, написал текст
диссертации.
Объем и структура диссертации. Диссертация состоит из введения, 4 глав,
заключения,
списка
литературы,
включающего
159
наименований,
и
6
приложений. Основная часть работы изложена на 165 страницах машинописного
текста. Работа содержит 69 рисунков и 27 таблиц.
Во
введении
практическая
обосновывается
значимость
актуальность,
диссертационной
работы.
научная
новизна
Поставлена
и
цель,
сформулированы основные задачи исследования, перечислены методы их
решения. Приведены основные научные положения, выносимые на защиту.
Кратко излагается содержание глав диссертации.
В первой главе рассмотрены вопросы мониторинга эмоций с целью
диагностики
заболеваний
на
ранних
этапах.
Проведен
функционально-
структурный анализ компьютерных технологий и технических решений,
применяемых для выявления эмоций на основе анализа речевых сигналов (РС).
Проведен обзор моделей эмоций и показано их применение для анализа
эмоционально окрашенной речи. Выполнен анализ признаков акустической
волны, применяемых для распознавания эмоций по РС. На основе выполненного
аналитического обзора сформулированы выводы, определены направления
исследований и сделана постановка задач дальнейшего исследования.
Во второй главе предложена концепция и принципы построения новой 2-х
канальной БТС для мониторинга эмоций человека. Приведена новая методика
проведения экспериментов для регистрации эмоционально окрашенной речи с
объективным подтверждением изменения эмоционального состояния с помощью
регистрации другого биомедицинского сигнала (ЭЭГ). Дано описание новой
созданной мультимодальной базы эмоций, которая включает в себя образцы двух
типов сигналов (РС и ЭЭГ), отображающих изменение эмоционального состояния
испытуемого при предъявлении ему стимулов различного эмоционального окраса.
12
В третьей главе рассмотрены задачи разработки модели и алгоритмов
интерпретации эмоций человека по естественной речи. Проведены исследования
паттернов ЭЭГ и параллельно зарегистрированных образцов РС методами
спектрального анализа. Приведены алгоритмы для корректной реконструкции
аттракторов РС и ЭЭГ и для оценки морфологических признаков аттрактора
(максимальных векторов и плотности траекторий). На основе морфологических
признаков дано описание предложенной модели интерпретатора эмоций.
В
четвертой
программного
и
главе
рассмотрены
методического
вопросы
обеспечения
разработки
БТС EEG/S,
структуры,
позволяющей
осуществлять мониторинг и диагностику эмоций человека по РС и ЭЭГ. Даны
описания проведенных испытаний с помощью БТС EEG/S.
В заключении изложены основные выводы, приведены научные и
практические результаты диссертационной работы.
В приложениях приведены прикладные результаты диссертационной
работы, а также акты о внедрении результатов работы.
13
ГЛАВА 1 АНАЛИЗ БИОТЕХНИЧЕСКИХ СИСТЕМ, ПРИМЕНЯЕМЫХ
ДЛЯ МОНИТОРИНГА ЭМОЦИЙ ЧЕЛОВЕКА
1.1 Мониторинг эмоций для диагностики заболеваний на ранних этапах
Эмоции непрерывно сопровождают человека на протяжении всей его
жизни, их значение трудно переоценить. Эмоции имеют огромное значение - они
являются мощными стимулами при достижении людьми социальных и
биологических потребностей. От эмоционального состояния во многом зависит
душевное и физическое здоровье человека [10, 12, 33, 38, 42].
В настоящее время не существует общепринятого определения понятия
«эмоция». При любых попытках его формализации мы натыкаемся на
многообразие теорий эмоциональных процессов, демонстрирующих различные
модели описания эмоций человека. На настоящий момент известно более 2-х
десятков различных теорий эмоций (психологических, нейрофизиологических,
когнитивистских, эволюционных, системных и т.д.), предложенных известными
психологами и физиологами (например, C. Darwin, W. Wundt, W. James-C. Lange,
J. Deway, H. Spencer, G. Maranon, W. Cannon-P. Bard, S. Freud, J. Papez, G. LindseyG. Hebb,
L. Festinger,
M. Arnold-R. Lazarus,
S. Schachter,
П.К. Анохин,
П.В. Симонов, C. Izard, R. Plutchik, R. Zajonc, J. Gray и др.) [12, 33, 57].
Эмоции - одна из наиболее важных сторон психических процессов, которая
характеризует
переживание
человека.
Эмоции
описывают
интегральное
выражение тонуса нервно-психической деятельности, которое отражается на
различных системах организма человека (дыхательной, кровеносной, опорнодвигательной и др.) и оказывает влияние на его психику. Эмоции ориентированы
на выполнение функций по регулировке активности человека на основе
отражения степени значимости при различных внешних и внутренних ситуациях
(стимулах) для активизации его жизнедеятельности [5, 12, 26, 27, 42, 57].
14
Согласно
проанализированным
современным
психофизиологическим
теориям, подчеркивающим дифференцированную структуру эмоциональной
реакции (например, Lazarus, 1984; Афтанас, 2000 и др.), выделяют следующие
этапы возникновения и развития эмоций [58, 62, 67, 108]:
1.
Перцептивный этап (восприятие) - декодирование внешних (речевых,
экспрессивных, поведенческих) и внутренних (когнитивных, интероцептивных)
эмоциональных раздражителей (стимулов); определение знака поступающей
информации и оценка ее значимости для человека.
2.
Переживательный этап (переживание) - субъективные реакции
человека на внешние и внутренние раздражители, которые проявляются в виде
страха или гнева, удовольствия или неудовольствия, грусти или радости и т.д.
Эмоции оказывают активное влияние на церебральные системы, которые
регулируют поведение и набор вегетативных (соматических) функций организма.
3.
Экспрессивный
этап
(переживание)
-
лицевые
(мимические),
постуральные, речевые и вегетативные изменения, возникающие во время
генераций эмоций (эмоциональных состояний).
Для
исследования
(диагностики
и
мониторинга)
эмоций
человека
применяют различные экспериментально-статистические методики экспертного
оценивания эмоций и дифференциации методов обработки сигналов по
доступным каналам регистрации откликов человека. Предложенные решения
позволяют генерировать описания закономерностей и формировать правила,
характеризующие отдельные виды эмоций путем анализа: 1) РС (речевых
сообщений) [2, 14, 18, 19, 21, 29, 37, 39, 46, 54, 55, 57, 95, 96, 104, 105, 112, 113.
114, 116, 117, 119, 127, 141, 143, 149, 156, 157]; 2) видеофрагментов,
отображающих мимику и жесты человека [6, 111, 115, 139, 140, 154];
3) физиологических сигналов (ЭЭГ, ЭКГ, ЭМГ и др.) [28, 36. 38. 58, 62, 67, 93,
108,
109,
121,
137,
140];
4) биохимических
показателей
(параметры
функционирования кровеносной и дыхательной систем и др.) [16, 47, 86, 122, 150,
151]; 5) параметров клавиатурного и рукописного текста [24]; 6) психологических
тестов [11, 40].
15
Для большинства подходов выявлен один существенный недостаток,
заключающийся в том, что регистрация сигнала (отклика) требует установки
контактных датчиков (биосенсоров). Каналы формирования эмоциональных
откликов человека отличаются «тонкостью» в передаче оттенков эмоционального
состояния. Для каждого канала предусматривается свой специализированный
алфавит эмоций. С нашей точки зрения, очевидно, что на современном этапе для
передачи эмоций у человека наиболее развит его речевой аппарат.
В
рамках
диссертационной
работы
предлагается
в
качестве
диагностического критерия для оценки эмоционального состояния человека
использовать изменения в структуре его РС, что упрощает аппаратную поддержку
методов диагностики.
Несмотря на то, что эмоции сопровождают человека на протяжении всего
периода бодрствования, степень и характер их проявления может существенно
меняться. Следует отметить, что этот процесс может протекать не вполне
осознанно, т.е. человек может пытаться скрыть какую-то информацию от
собеседника, но эмоциональная реакция его выдаст. Учитывая способности
человека контролировать и управлять своей мимикой и жестами, наиболее
важным источником сведений об его эмоциональном состоянии становится речь.
Обычно человек использует эмоции как дополнительный источник информации
(невербальной), которую он хочет передать собеседнику [8, 13, 22, 23, 55, 57].
Исследования РС проводились многими учеными с целью описания
различных характеристик речи (акустических, просодических, лингвистических и
т.п.). Огромный вклад по развитию науки в сфере речевой акустики принадлежит
таким ведущим ученым как Г. Фант, Н.В. Витт, Дж. Фланаган, В.Н. Сорокин,
Н.Ю. Секунов, Б.М. Лобанов, М.А. Сапожков, В.И. Галунов, Е.Л. Чойнзонов,
Л.В. Златоустова, Т.К. Винцюк, Н.Г. Загоруйко, Ю.А. Косарев, А.В. Аграновский,
А.Л. Ронжин,
Р.К. Потапова,
В.К. Иоффе,
М.В. Хитров,
В.Г. Михайлов,
С.Л. Коваль, В.П. Бондаренко, Л.Н. Балацкая и др. [2, 64, 106].
В последние десятилетия наблюдается явное усиление интереса к анализу
РС как объективных показателей эмоционального состояния человека-оператора,
16
выполняющего различную ответственную деятельность космонавта, летчика,
диспетчера аэропорта, диспетчера РЖД, диспетчера центра МЧС, оператора
контакт-центра
Хроматиди, 2005;
и
т.д.
(Congleton, 1997;
Airas, 2006;
Rothkrantz, 2004;
Johannes, 2007;
Sigmund, 2004;
Соловьева, 2008;
Chen, 2008;
Siging, 2009; Розалиев, 2009; Калюжный, 2009; Перервенко, 2009; Morist, 2010;
Карпов, 2010; Давыдов, 2011; Киселёв, 2012; Марьев, 2012; Пенский, 2013 и т.д.)
[54, 75, 89, 91]. Этот интерес объясняется рядом причин. Для записи и анализа РС
можно использовать типичную (обычную) аудиозапись. РС по сравнению с
вегетативными функциями, испытывает меньшее влияние физических нагрузок. В
целом, анализ эмоций человека по речи, является неконтактным и при
необходимости скрытым от испытуемого. Это дает преимущество в виде
исследований человека в комфортной для него обстановке и исключает
возможность маскировки эмоциональных реакций.
Проблема изучения эмоций по РС актуальна для многих сфер деятельности
человека, исследования весьма активно ведутся по различным направлениям,
например, таким как [43, 46]:
1.
Разработка бесконтактных методов диагностики и мониторинга
психоэмоционального состояния человека по голосу.
2.
Разработка усовершенствованных интерфейсов нового поколения
диалогового взаимодействия человека с компьютером, адаптивных роботов и
систем искусственного интеллекта (т.н. «эмоциональные сканеры», обучающие
системы, системы безопасности, автоматизированные системы управления,
реабилитации и протезирования, срочного оповещения и т.д.), в которых система
распознает эмоциональное состояние оператора и эмулирует (генерирует) в ответ
адекватное эмоциональное состояние.
3.
Разработка систем, способствующих правильному восприятию и
выражению эмоций при обучении как национальному, так и иностранным языкам.
4.
Формирование систем идентификации человека на основе анализа его
голоса (установление личности, пола, акцента и т.д.).
17
Особое место в проблеме изучения эмоций человека по РС отведено сфере
медицины. Среди медицинских приложений важное место занимают разработки,
направленные на человека в лечебных, терапевтических и профилактических
целях [3, 7, 13, 32, 43, 45, 53, 90, 92]:
1.
Мониторинг
длительного
времени
эмоционального
при
приеме
состояния
пациента
лекарственных
в
течение
препаратов
(оценка
терапевтического воздействия на пациента, отслеживание динамики изменения
эмоций пациента при приеме лекарств). Формирование специальных тактик
назначения / запрета препаратов.
2.
Диагностика и мониторинг психосоматических, психомоторных и
соматовегетативных нарушений, неврозоподобных и невротических синдромов у
взрослых и детей.
3.
Создание
методик
лечения
и
психокоррекции
эмоциональных
расстройств и синдромов у детей (синдром раннего детского аутизма,
астенический синдром, церебрастенический синдром и т.п.).
4.
Разработка методов по оценке депрессивных расстройств у человека
(психологический стресс, идеаторные расстройства и т.п.).
5.
Создание
средств
аффективных расстройств
диагностики
(алекситимия,
и
мониторинга
гипертимия,
эмоционально-
гипотимия
и
т.п.).
Формирование специальных тактик лечения и психокоррекции.
Психофизиологический анализ эмоций также может быть применен в
качестве
дополнительного
инструментария
при
клинико-психологическом
исследовании пациентов и будет весьма полезен в таких областях как, например,
психосоматика, нейропсихология, неврозология и прочих отраслях медицины.
Проблемы объективных оценок состояний человека можно отнести к числу
актуальных для психофизиологии труда и задач клинической медицины. В
настоящее время удается с хорошей надежностью идентифицировать по голосу
различные эмоциональные состояния (напряженность, тревожность, спокойствие,
эйфорию). Для наиболее точных оценок состояния человека такая грубая
дифференциация недостаточна, необходим учет всей гаммы эмоций [8, 13, 43].
18
Оценка различных состояний человека в норме и при патологиях относится к
числу наиболее актуальных в подобной проблеме. В клинической физиологии это
проблема диагностики, выработки критериев оценки психосоматических и
психомоторных
Выделенные
нарушений,
проблемы
психопатологических
аффективных
прогнозирования
можно
состояний
синдромов
отнести
(например,
при
депрессиях).
терапевтических
к
при
эффектов.
оценкам
оценке
различных
эмоционально-
Эмоциональные
синдромы
дополнительно описываются (характеризуются) устойчивыми изменениями
настроения и могут проявляться в его снижении или повышении (депрессия или
мания) [7, 53, 92].
В
последние
годы
проводят
интенсивные
исследования
влияния
аффективных расстройств на динамику характеристик речи. В основном это
связано с оценкой т.н. «темпоральных» характеристик речи. Показано, что с
помощью этих характеристик можно выделить т.н. «фазу дестабилизации»,
которая
возникает
при
отмене
назначенных
лекарственных
препаратов.
Выделение этой фазы играет большую роль в процессе лечения [43].
Анализ речи также необходим для определения ведущего аффекта у
больных с не дифференцируемым типом депрессии. Изменение параметров речи
может
позволить
определить
ведущий
аффект
на
начальных
стадиях
депрессивного состояния. На основе характеристик РС существует возможность
объективной
и
количественной
регистрации
выраженности,
структурных
особенностей и динамики депрессивных состояний пациентов (например,
маниакально-депрессивный психоз), а также оценки влияния на организм
пациента различных психотропных препаратов [43, 45, 90, 92].
1.2 Компьютерные технологии и технические решения, применяемые для
выявления эмоций на основе анализа речи
Эмоции, являясь прежде всего прерогативой психологической науки, тем не
19
менее, как объект исследований, давно заняли важное место в искусственном
интеллекте и робототехнике [31]. Основные достижения в области исследования и
мониторинга эмоций принадлежат таким кампаниям и учреждениям, как Sound
Intelligence, Ugobe, VibraImage, TruMedia, Federal Express, FaceReader, Affective
Computing Research, Machine Perception, NeuroSky, MIT, Microsoft, Apple, Sony,
Центр Речевых технологий и т.д. [24].
Все существующие на данный момент компьютерные технологии и
технические решения по исследованию и мониторингу эмоций человека условно
можно разделить на две группы: одноканальные и многоканальные системы.
1.2.1 Одноканальные системы
Под одноканальными системами понимаются системы, позволяющие
исследовать эмоции человека по сигналам, поступающим только с одного канала.
В данном случае в качестве канала мы будем рассматривать речевой аппарат
человека, генерирующий РС.
Система эмоциональной стабилизации речевых коммуникаций «ЭМОС» [4]
предназначена для использования в отраслях психофизиологии и клинической
нейрофизиологии.
Система
реализована
в
виде
программно-аппаратного
комплекса с применением компьютерной системы эмоциональной стабилизации
(рисунок 1.1).
В
системе
«ЭМОС»
используется
выделение
сигнала
из
шума,
широкополосный спектральный анализ частотно-амплитудных, интонационных
голосовых параметров и анализ соотношения фрагментов РС в условиях
комфортного
психоэмоционального
состояния
и
в
условиях
реакций
информационного стресса. Данная система может найти применение в качестве
средства
раннего
(информационного
предотвращения
стресса)
в
синдрома
процессе
информационной
межличностных
травмы
коммуникаций
(видеоконференцсвязи, телефонии и т.п.), сопровождающихся высокой степенью
20
риска или эмоциональной агрессии [4]. Система дает возможность в режиме
реального времени осуществлять оценку информационного стресса для человека.
Система «ЭМОС» не ориентирована на анализ положительных эмоций.
Рисунок 1.1 – Система «ЭМОС» (Баклаев и др., 2010)
Предложенное в работе [68] техническое решение предусматривает
распознавание эмоций человека на основе изменений интенсивности, темпа и
интонации голоса во времени, а также по динамике изменения частоты основного
тона у человека (рисунок 1.2). На основе введенного РС оценивают изменения во
времени интенсивности сигнала, темпа речи и интонации. Дополнительно
определяют частоту основного тона и ее изменение во времени. На основе этого
генерируют оценки эмоций, идентифицируя гнев, страх, печаль и удовольствие.
Данное техническое решение ориентировано на распознавание конкретных видов
эмоций, но не предусматривает оценку их уровня и направления развития.
21
Рисунок 1.2 – Структура технического решения (Саитов и др., 2014)
Известна система аудиоанализа психофизиологического состояния [55],
разработанная в ЮФУ (г. Таганрог). Система включает в себя четыре блока:
источник речи, устройство записи и оцифровки речи, блок обработки и анализа
речевого сигнала (персональный компьютер, программное обеспечение для
анализа), блок отображения информации (рисунок 1.3). Система позволяет
проводить аудиоанализ психофизиологического состояния человека-оператора в
условиях его профессиональной деятельности с целью распознавания признаков
психологического стресса.
Работа системы организована следующим образом: сигнал от источника
(человека-оператора) подается через микрофон на фильтр низких частот для
выделения полезной полосы частот до 4 кГц. Полученный звуковой сигнал
оцифровывается и передается в оперативную память (буфер ОЗУ) для
22
формирования сигнала. Сигнал поступает на устройство обработки от шума,
использующее метод спектрального вычитания (из спектра полезного сигнала
вычитается спектр шума). На основе обратного преобразования Фурье сигнал
подается на блок поиска аномалий (сигнал проверяется на наличие участков,
выделяющихся по уровню, и такие участки система сглаживает автоматически).
Далее сигнал записывается в текстовый файл формата *.ASCII для обеспечения
возможности проведения фонемного анализа, на основе которого сигнал
разбивается на домены. Домены сравниваются с базой фонем и относятся к
предполагаемому классу. На следующий уровень передается выделенная фонема.
Рисунок 1.3 – Блок-схема системы Stress Test (Перервенко, 2009)
Далее сигнал обрабатывается методами нелинейного анализа (графический
анализ и вычисление инвариант). Результат обработки сохраняется в базе
23
априорных параметров для формирования обновляемых образцов инвариантов
речи оператора. Блок визуализации отображает текущие значения параметров.
При выходе значений показателей за пределы базы априорных параметров
выдается сообщение о вероятностном критическом состоянии человека-оператора
(блок принятия решения) [55].
В работе [57] описана автоматизированная система определения эмоций
(рисунок 1.4), разработанная в ВолГТУ (г. Волгоград). Данная разработка
предоставляет возможность определения по РС знака эмоциональных реакций и
эмоционального тона человека, что позволяет отслеживать изменения отношения
людей к происходящим событиям. Это дает возможность автоматизированной
системе эффективно и своевременно реагировать на изменения в состоянии
человека, устраняя негативные последствия взаимодействия, в том числе
последствия, возникающие от психологического стресса.
Рисунок 1.4 – Архитектура системы определения эмоций (Розалиев, 2009)
Работа системы организована следующим образом: на первом уровне
24
определяется знак эмоциональной реакции путем выделения акустических
параметров
и
анализа
полученной
экспериментально
функциональной
зависимости; на втором уровне выделяются слова, отражающие эмоциональные
реакции; на третьем уровне выявляются характеристики фонем четырех гласных
звуков с последующим переходом к лингвистическим переменным, в результате
чего
на
основе
процедур
нечеткого
логического
вывода
определяется
эмоциональная реакция человека [57].Вопросы оценки уровня эмоций и динамики
их развития в этой работе не затронуты.
Еще одна интересная разработка приведена в работе [46]. Для решения
задачи автоматического интонационного распознавания эмоций по речи была
разработана
система, структурная
схема
которой проиллюстрирована
на
рисунке 1.5.
Рисунок 1.5 – Структурная схема системы интонационного анализа речи:
ИС - источник сигнала; БИ - блок измерителей; ПП - преобразователь параметров;
К - классификатор; УВ - устройство вывода (Марьев, 2012)
Система реализована в виде программы для ЭВМ, имеющей возможность
обработки не только звукозаписей, но и речевого сигнала, полученного в
реальном времени. Под источником сигнала подразумевается источник отсчетов
цифрового
аудиосигнала
(РС),
полученного
в
реальном
времени
или
воспроизводимого из ранее созданной аудиозаписи. Измерения производятся
единовременно в трех масштабах времени: окна длиной 50 мс (фреймы);
отдельные вокализованные звуки; окна длиной 1 сек., содержащие только
вокализованные звуки (блоки). Объектом классификации является блок - окно
длиной 1 сек. Преобразователь параметров получает совокупность векторов
вероятностей параметров на основе вектора-столбца параметров с выхода блока
25
измерений. Классификатор оптимален по максимуму информации. Устройство
вывода - индикатор либо устройство хранения информации [46].
Эффективность разработанного средства проверена на распознавании и
идентификации семи эмоциональных состояний (злость, отвращение, скука,
страх,
радость,
нейтральное
состояние,
огорчение.).
Для
верификации
применялась немецкая база эмоциональной речи (Emo-DB) [110], содержащая 495
записей речи нескольких дикторов (мужчин и женщин).
Проблема распознавания вида эмоций (вернее знака эмоций) нашла
отражение в новых функциях современных средств поддержки процесса
коммуникаций.
Характерным
примером
является
тип
современных
профессиональных голосовых анализаторов эмоциональных реакций, который
прошел
проверку
на
практике
и
нашел
широкое
применение,
как
в
государственных структурах, так и в частном бизнесе (таблица 1.1).
Таблица 1.1 – Новейшие разработки в области выявления эмоций по речи
№
Разработчик
1
Центр
Речевых
Технологий
2
Affective
Computing
Research
Group
(MIT)
3
Астерос
Особенности технологии / разработки
Система мониторинга и оценки качества работы операторов
контакт-центров «Smart Logger II» позволяет осуществлять оценку
параметров голоса и речи, характеризующих эмоциональное и
психофизическое состояние дикторов. Система определения
эмоционального фона диалога разделяет все записи переговоров на
положительные, нейтральные и негативные, фиксируя все случаи,
когда клиент доволен и благодарит оператора контактного центра,
или наоборот, выражает свое недовольство [128].
Программа «Emotive Alert» распознает эмоции по голосу,
устанавливается непосредственно на автоответчик владельца и
индексирует входящие сообщения. На основе первых десяти секунд
каждого голосового высказывания составляется эмоциональный
портрет говорящего. «Emotive Alert» ссылается на заложенные в
базе образцы, в соответствии с которыми классифицирует каждое
сообщение по той или иной эмоциональной окраске [57, 129].
Система «MagInify Assistant» (технология «eXaudios») улавливает и
распознает эмоции, содержащиеся в голосе человека, позвонившего
в контакт-центр. Система распознает нюансы в интонации клиента и
выявляет руководящие им скрытые мотивы. Основываясь на данной
информации, оператор может более точно подстраиваться под
настроение клиента и с большей эффективностью осуществлять
продажи или проводить обслуживание, оставляя о себе наиболее
благоприятное впечатление [130].
26
4
5
Голосовой детектор лжи «Ex-Sense Pro-R» при ведении переговоров
по телефону или в прямом разговоре может оценивать
эмоциональное состояние и искренность собеседника в реальном
времени. Технология «Sense» позволяет проводить многослойный
анализ голоса (глубокий анализ круга эмоций субъекта) [131].
«Голосовой детектор эмоционального состояния» позволяет на
основе анализа переговоров персонала по технологической
(селекторной) связи своевременно выявить работников, которых
возможно стоит отстранить от работы во избежание принятия и
реализации неверных решений, следствиями которых могут
являться промышленные аварии и катастрофы [132].
АреопагЦентр
Безопасные
Биосистемы
Приведенные в таблице 1.1 сведения взяты из рекламных изданий и могут
рассматриваться только как направления для практического использования.
Разработки, направленные конкретно на медицинские задачи, исследователями в
настоящий момент не охвачены.
1.2.2 Многоканальные системы
Под многоканальными системами понимаются системы, позволяющие
исследовать эмоции человека по сигналам, поступающим с двух и более каналов,
например, от речевого аппарата (РС), мимических мышц (видео мимики) и
опорно-двигательной системы (жесты).
В последнее время наибольшей популярностью пользуются системы,
позволяющие проводить распознавание и мониторинг эмоций человека на основе
комплексного
анализа
видеоинформации,
голоса,
физиологических
и
биохимических показателей.
Характерным примером является система для обнаружения эмоций [51],
которая позволяет определять рефлекторные реакции человека в ответ на
направленное на него вербальное воздействие (рисунок 1.6). Система включает:
средство
ввода,
выполненное
с
возможностью
ввода
голосовых
и
мультимедийных данных; анализатор голоса, выполненный с возможностью
обнаружения
эмоций
путем
обработки
голосовых
данных
человека,
27
преобразованных в цифровую форму, и включающий средство генерирования
данных уровня эмоционального состояния.
Рисунок 1.6 – Система для обнаружения эмоций (Наздратенко, 2004)
Средство генерирования выполнено с возможностью изменения голосовых
данных и/или данных видеоизображения в зависимости от уровня обнаруженных
эмоций. Анализатор голоса выполнен с возможностью обнаружения эмоций по
характеристикам
голосовых
данных,
выбранных
из
группы:
интонация,
интенсивность, темп [51].
В работе [87] описана система для восстановления эмоциональноаффективных состояний человека (рисунок 1.7). Система относится к области
медицины и может быть использована в психотерапии для реабилитации больных
с синдромом зависимости от психоактивных веществ и эмоциональноаффективными нарушениями, в частности для снятия депрессивных состояний,
тревожности, возрастных отклонений психического развития и т.д. Работа
системы
основана
на
использовании
бинауральных
ритмов,
которые
соответствуют индивидуальным пространственно-временным характеристикам
электрической активности мозга, определяющих тип патологических изменений и
эмоционально-аффективных состояний человека.
28
1 - компьютерный
электроэнцефалограф;
2 - персональный
компьютер;
3 - пациент;
4 - стереонаушники;
5 - ЭЭГ-электроды.
Рисунок 1.7 – Структура системы (Уразаева и др., 2006)
В работе [151] приведено описание системы «System and method for P300based concealed information detector having combined probe and target trials»
(рисунок 1.8).
Рисунок 1.8 – Архитектура системы (Rosenfeld, 2008)
Система содержит персональный компьютер с монитором (дисплеем) для
предъявления визуальных стимулов испытуемому (субъекту); комплект ЭЭГ-
29
электродов, соединенный с устройствами усиления (усилителями) и аналогоцифрового
преобразования
сигналов,
подключенными
к
персональному
компьютеру, снабженному монитором (дисплеем) для оператора. Работа
установки основана на анализе показателей БМС (ЭЭГ, ЭОГ) испытуемого при
воздействии
на
него
визуальных
стимулов.
По
изменениям
указанных
показателей определяется эмоциональное состояние испытуемого.
Изменение эмоционального состояния также обычно идентифицируется в
системах типа полиграфа (т.н. «детекторы лжи»). Известна система (рисунок 1.9)
«Method for a classification guilty knowledge test and integrated system for detection
of deception and information» [122].
Рисунок 1.9 – Архитектура системы (Farwell, 2005)
Система
содержит: персональный
компьютер
с
электроакустическим
преобразователем (наушники), синтезатором речи и монитором для предъявления
30
акустических и визуальных стимулов испытуемому (субъекту); комплект ЭЭГэлектродов для длительной регистрации ЭЭГ, соединенный с устройством
усиления и аналого-цифрового преобразования сигналов, подключенным к
персональному компьютеру, снабженному монитором для оператора. Работа
установки основана на комплексном анализе ряда показателей физиологических
сигналов испытуемого. Снятие сигналов с испытуемого проводится непрерывно, в
независимости от его состояния. По изменениям параметров БМС (РС,
электрической активности мозга и мышц лица, параметрам функционировании
кровеносной
и
дыхательной
систем
и
т.д.)
испытуемого,
вызванным
предъявляемыми ему визуальными и акустическими стимулами, определяется ряд
показателей, по которым судят об эмоциональном состоянии испытуемого и его
видоизменениях (ложь, правда, конкретная эмоция). Недостатком указанной
системы является то, что устройство предъявления стимулов воздействует только
на слуховые и зрительные анализаторы испытуемого.
Интересный вариант системы интерпретации эмоций (рисунок 1.10) от
испытуемого предложен в работе [24].
Рисунок 1.10 – Архитектура системы (Заболеева-Зотова и др., 2014)
31
На вход системы подается видеосигнал, РС и фрагменты рукописного текста.
На выходе система информирует об эмоциональных состояниях (и их
видоизменениях) у исследуемых людей. В системе объединяются не только
непроизвольные эмоциональные реакции испытуемых, которые существуют в
мимике и речи, но и осмысленные реакции, проявляющиеся в синтаксисе
текстовых сообщений. Данная система, несомненно, интересна для служб
безопасности, но не ориентирована на задачи и нужды медицинской диагностики.
Обзор наиболее интересных с нашей точки зрения одноканальных (ОКС) и
многоканальных (МКС) систем для выявления и мониторинга эмоций человека по
БМС, дает возможность сопоставления данных систем на функциональноструктурном уровне (таблица 1.2).
Таблица 1.2 – Достоинства систем мониторинга эмоций
МКС
+
+
+
+
Достоверность
результатов
Объективность
результатов
Точность
результатов
+
Эффективность
+
Функциональность
+
Надежность
+
Чувствительность
+
Безопасность
+
Сложность
реализации
Экономичность
+
Ресурсоемкость
Мобильность
использования
ОКС
Удобство
использования
Оперативность
(быстродействие)
Тип систем
Параметры (критерии) оценки систем
+
+
+
Результаты анализа указывают на то, что для соответствующих типов
систем интерпретации эмоций человека по БМС существуют свои широко и узко
профильные сферы применения. Разработчики подобных систем определяют
функционально-структурные особенности таких систем исходя из поставленных
перед ними задач. С нашей точки зрения наиболее приемлемый вариант системы
для проведения исследований в рамках диссертационной работы - вариант
многоканальной системы с двумя каналами передачи эмоций (речевой аппарат и
электрическая активность головного мозга).
32
1.3 Модели эмоций и их применение для анализа эмоционально
окрашенной речи
Как следует из анализа компьютерных технологий (§ 1.2), техническое
обеспечение систем диагностики и мониторинга эмоционального состояния
реализуется на основе широко применяемых средств регистрации БМС. Основные
различия между системами связаны с их программным обеспечением, которое
может быть основано на разных моделях и методах оценки эмоциональных
реакций.
В настоящее время при построении моделей эмоций разработчики
применяют
разнообразные
математические
аппараты
(например,
скрытые
Марковские модели, опорные векторы, нечеткая логика, нейронные сети,
имитационное моделирование, иммунные системы и т.п.) [29, 46, 55, 105, 150].
Наибольшую
известность
получили
модели
ОСС,
KARO,
EMA,
Affective Computing, модель И.Б. Фоминых.
Модель
ОСС
(Ortony,
Clore,
Collins)
описывает
качественную
и
количественную сторону 22 видов эмоций (качественно ОСС описывает условия
возникновения эмоции; количественно ОСС указывает какие переменные,
определяют интенсивность каждой эмоции) [147].
Модель KARO (Knowledge, Actions, Results and Opportunities) является
формализацией модели ОСС на основе формальной логики [155].
Модель EMA [123] также основана на развитии модели ОСС. Для описания
эмоций используется несколько переменных, например, такие как, полезность,
желательность, вероятность события и т.п.
Модель Affective Computing дает возможность распознавания эмоций
человека роботом с помощью ограниченного числа биосенсоров. Переход из
одного эмоционального состояния в другое может быть описан, например, с
помощью цепей Маркова [148].
В качестве наиболее характерного примера формальной модели эмоций
33
стоит особо выделить модель И.Б. Фоминых [88]. Данная модель сочетает в себе
принципы
и
результаты,
озвученные
в
работах
Г.А. Голицына
[20]
и
О.В. Леонтьева [42]. В этой модели эмоция определяется как числовая функция от
некоторого набора параметров. Для каждого вида эмоций описан свой набор
параметров. Для каждого агента и для каждой эмоции возможна своя функция F.
Такие общие представления близки к модели ОСС (различие заключается в
наборе параметров, соответствующих каждой эмоции).
В модели И.Б. Фоминых предложены дерево эмоций и алгебра эмоций.
Эмоции рассматриваются как средства оптимального управления поведением
системы (субъекта), направляющих ее к достижению максимума ее целевой
функции L (максимума взаимной информации между условиями среды и
реакциями системы).
Увеличение
целевой
функции
L
сопровождается
положительными
эмоциями, уменьшение L - отрицательными эмоциями. Поскольку L зависит от
некоторых переменных хi, то эмоции е вызываются изменениями этих
переменных [88]:
e
dLi dLi dxi


,
dt
dxi dt
где dLi означает изменение L, обусловленное изменением переменной хi.
Первичной переменной в дереве эмоций является целевая функция Li
субъекта i, а исходной величиной для оценки является скорость ее изменения
dLi/dt, которая согласно исходным предположениям является простейшей
эмоцией еi: положительной (удовольствие еi+) или отрицательной (страдание еi).
Предполагается, что состояние субъекта i связано с состоянием субъекта j.
Тогда если еi - эмоция, испытываемая субъектом i, а cji - оценка субъекта i
субъектом j, то величина еji может быть интерпретирована, как оценка субъектом j
эмоции, переживаемой субъектом i: еji=cji еi . Величина и знак эмоции еji
получаются путем перемножения величин и знаков [57, 88]:
1. еji+=cji+ еi+ (субъект i испытывает удовольствие, субъект j относится к
субъекту i положительно (удовольствие); эмоция субъекта j - радость).
34
2. еji=cji еi+. (субъект i испытывает удовольствие, субъект j относится к
субъекту i отрицательно (страдание); эмоция субъекта j - зависть, досада).
3. еji=cji+ еi (субъект i испытывает страдание, субъект j относится к
субъекту i положительно (огорчение); эмоция субъекта j - сочувствие).
4. еji+=cji еi (субъект i испытывает страдание, субъект j относится к
субъекту i отрицательно (радость); эмоция субъекта j - злорадство).
Имеется еще ряд узко профильных разработок по формальным моделям
эмоций, в которых предлагаются некоторые математические описания процесса
эмоционального возбуждения и эмоциональной реакции.
В
работе
[133]
И.А. Васильевым
предложена
формальная
модель
распознавания и формирования эмоциональных реакций для систем управления
виртуальными агентами. Эмоция в представленной модели определяется через
двумерную модель, в которой введены две составляющие эмоционального
процесса: эмоциональное напряжение и эмоциональный тон.
В
работе
[134]
А.И. Лущенко
приведена
символическая
модель
самообучающегося автономного агента, в котором эмоции выполняют оценочную
и прогностическую функцию.
Особо стоит выделить также модель эмоционального переживания
(процесса), предложенную Ю.Т. Глазуновым [15]. Существенным плюсом данной
модели является то, что она позволяет отслеживать развитие интенсивности
(динамики) эмоционального переживания во времени (рисунок 1.11). Модель
позволяет определять критические точки в развитии эмоционального процесса.
К сожалению, в приведенные модели трудно ввести объективные
характеристики акустической волны, и, следовательно, для построения модуля
интерпретатора речи они не подходят.
Существующие модели эмоций, применяемые для исследования и анализа
ЭОР, можно разделить на две группы.
В первую группу (менее многочисленную) входят модели, построенные на
описании функциональной взаимосвязи между параметрами акустической волны
и определенной характеристикой эмоции.
35
Рисунок 1.11 – Кривая интенсивности эмоционального переживания: τ0 - начало
эмоционального переживания; C - стартовое значение, от которого начинается
плавное изменение интенсивность эмоции; τmax - момент наивысшего
эмоционального переживания; Jmax - «пик» эмоционального переживания; τ1, τ2 левая и правая точки перегиба кривой; τk - момент достижения критического
значения эмоционального фона; Qk - критическое значение эмоционального фона
(затемнённая область); J - интенсивность (переживание) эмоции; τ - время
протекания эмоции (Глазунов, 2011)
Модели первой группы позволяют решать не только задачи анализа и
распознавания эмоций, но и могут использоваться для задач синтеза ЭОР.
Во вторую группу входят т.н. «атрибутивные модели», позволяющие
создавать представление о классах образцов ЭОР с помощью ограниченного
числа признаков.
Характерный
сегментарная
пример
модель
функционального
ЭОР
(рисунок 1.12),
подхода
иллюстрирует
предложенная
в
т.н.
работе
М.В. Калюжного [29]. В ее основу положена информационная модель просодии
речевого сигнала, включающая факторы, характеристики, параметры и связи
между ними. Основными факторами просодии являются смысл, вкладываемый в
высказывание говорящим, его дикция и эмоциональное состояние.
36
Рисунок 1.12 – Сегментарная модель ЭОР (Калюжный, 2009)
Правила построения сегментарной модели ЭОР:
1. Вокализованный участок разбивается на периоды основного тона
(периоды последовательно нумеруются):
1.1. В качестве начальной точки выбирается точка i с максимальным
значением сигнала xi в первом сформировавшемся периоде (рисунок 1.12).
1.2. На интервале [1; 2], соответствующем наиболее вероятному значению
периода, вычисляется значения автокорреляционной функции (АКФ):
37
1 
R ( )   xi  t  * xi  t ,   [ 1 ; 2 ] .
 t 0
1.3. Определяется длительность периода основного тона исходя из
максимального значения АКФ, вычисленного на интервале [1; 2]:
j  i 
max R ( ) .
1.4. Осуществляется коррекция периода основного тона путём переноса
конечной границы в точку ближайшего локального максимума (АКФ максимальное значение АКФ; корр - скорректированное значение АКФ).
1.5. Операции по п.п. 1.2-1.4 выполняются для следующего периода.
1.6. При определении длительности последнего периода основного тона
вычисление АКФ производится в обратном порядке, начиная с отсчёта k со
значением xk, соответствующим последнему на участке локальному максимуму:
R ( ) 
1 
 xk  t  * xk  t .
 t 0
2. Каждый период основного тона разбивается на сегменты - участки с
одинаковым знаком приращения сигнала (границами сегментов являются точки
изменения знака приращения).
В дискретной последовательности отсчёт i со значением xi является
граничным, если:
( xi 1  xi  xi 1 )  ( xi 1  xi  xi 1) .
(1.1)
Сегменты каждого периода последовательно нумеруются от 0 до S-1.
3. Вычисление параметров сегментов. При разбиении временного ряда
граничными точками по формуле (1.1), в полученных сегментах можно выделить
общие признаки формы. Для этого в работе [29] предложено описывать сегменты
некоторой аппроксимирующей функцией:
 i  m
xi  xm  H * sin k  *
 , H  xn  xm , L  n  m ,
L 
2
где H, L - высота и длительность сегмента.
(1.2)
38
В формуле (1.2) xi - значение произвольного отсчёта i в сегменте,
ограниченном отсчётами m и n со значениями xm и xn. Каждый сегмент РС
характеризуется следующими параметрами: номером m и значением xm
начального отсчёта, длительностью L, высотой H и коэффициентом формы k.
Задача аппроксимации сводится к нахождению по известным значениям
отсчётов РС параметров сегментов, позволяющих с заданной точностью
представить сигнал.
Сегментарная модель ЭОР (1.2) дает возможность компактно и адекватно
описывать гласные и вокализованные согласные во временной области.
Параметры сегментарной модели интегрированы в модель просодии, что
позволяет, изменяя параметры сегментов, управлять просодией речевого сигнала,
в том числе его эмоциональным окрасом. Экспериментальные результаты,
приведенные в работе [30], подтверждают взаимосвязь длительности сегментов l ,
их отношений dl и средних значений длительности сегментов l со степенью
выраженности положительных эмоций в РС.
Другой подход к построению функциональных моделей, отображающих
изменения
акустических
параметров
РС,
нашел
отражение
в
работе
В.Л. Розалиева, где была предложена гибридная модель эмоционального тона,
построенная с применением иммунного подхода и нечёткого вывода [57].
Гибридная модель эмоционального тона предполагает, что эмоциональная
реакция человека есть функция:
f  Ob  X  E S  Y ,
где Ob - некоторое событие, вызывающее ощущение X , после оценки E S ,
которого, возникает эмоциональная реакция Y (эмоциональный тон возникает как
следствие всякого события).
Процесс идентификации эмоциональной реакции человека проводится по
методике (рисунок 1.13). Эмоциональная реакция описывается в виде иммунного
(неспецифического / врожденного или специфического / приобретенного) ответа.
39
Рисунок 1.13 – Определение эмоционального тона и эмоции (Розалиев, 2009)
Модель
эмоционального
тона
(эмоций)
описывается
системой
дифференциальных уравнений. В основе модели лежит аппарат иммунных
систем.
Модель
ограничена
тремя
компонентами: объектом
(стимулом),
вызывающим эмоциональное реагирование; знаниями об объекте, вызывающем
эмоциональное реагирование; способностями к обучению, позволяющими
получать знания о стимуле.
Модель эмоционального тона в общем виде [57]:
dx
 f ( x ,  , x  ), x (0)  x 0 ,
dt
где x - вектор переменных модели,  - вектор коэффициентов, x  - вектор
концентраций взаимодействующих элементов.
В ситуациях, когда на человека воздействует несколько различных событий
или действие объекта неопределенно, применяется модель эмоционального тона,
представленная в виде специфического ответа:
ETS  Ob , t , ETN , ETM ,   ,
где: Ob - это некоторый объект, вызывающий эмоциональное реагирование; t время появления объекта; ETN - значение эмоционального тона, определенного
по неспецифическому ответу; ETM - значение и знак эмоционального тона,
40
полученные с использованием методики определения знака эмоционального тона;
 - согласованное множество отдельных нечетких продукционных правил.
Гибридная модель эмоций построена с применением принципов алгебры и
дерева эмоций, предложенных И.Б. Фоминых [88], и принципов максимума
взаимной
информации
между
условиями
среды
и
реакциями
системы,
разработанных Г.А. Голициным [20].
На
основе
модели
эмоционального
тона
сформирована
модель,
позволяющая исследовать ЭОР. В качестве информативных признаков речевого
потока использованы статистические оценки распределения параметров текущего
спектра
речи
(спектральные
признаки)
и
частоты
основного
тона,
характеризующие поток в целом за определенный промежуток времени.
При вычислении спектральных признаков РС представлен в виде
последовательности
значений
кратковременных
энергетических
спектров,
измеренных в моменты времени j  0,1,..., J каждые 5,7 мсек. РС подвергался
спектральному анализу посредством быстрого преобразования Фурье, спектры
вычисляются последовательно по РС с применением набора из 24-х фильтров,
соответствующим 24-м критическим полосам. В конечном итоге, модель РС
принимает следующий вид [57]:
{x(0, j ),...x(i, j ),...x(23, j )}, j  0,1,..., J ,
где x (i , j ) - значение сигнала на выходе i -го полосового фильтра в j -м
кратковременном спектре; J - общее количество спектральных срезов на
анализируемом отрезке.
По найденным параметрам экспериментально была получена функция,
характеризующая
зависимость
между
акустическими
параметрами
и
эмоциональным тоном:
y
 195,097  0,353 X H  0,614t H  0,344 PH  0,000162 X H2  0,0000751X H t H 
 0,000314 X H PH  0,0146t H2  0,00071t H PH  0,000189PH2
, (1.3)
где X H - нормированные значения спектра; t H - нормированное время
пребывания сигнала в полосах спектра; PH - относительная мощность спектра
41
речи в полосах.
Полученная зависимость (1.3) используется при определении знака
эмоционального тона и позволяет определять эмоциональный тон только по
акустическим параметрам речевого сигнала [57].
Как видно из приведенных примеров, обе модели (сегментарная и
гибридная) включают эмпирические коэффициенты, которые будут изменяться
при изменении выборки образцов ЭОР, что может привести к ошибкам при
использовании моделей.
Проанализировав различные модели эмоций, установлено, что на данном
этапе проблема распознавания эмоционального состояния человека путем анализа
его речи решается довольно успешно. Особо стоит выделить тот факт, что в
основном это условие работает для случаев сильных и ярко выраженных
проявлений эмоций. Число вычисляемых для этого признаков обычно составляет
от нескольких десятков до нескольких сотен. Как следствие, необходима
разработка более простой модели, описывающей взаимосвязи между основными
параметрами эмоций (знака, уровня, силы, направления развития и др.) и
объективными оценками фазово-пространственных характеристик наблюдаемого
акустического сигнала. Решение этой задачи позволит создать такую модель
интерпретатора эмоций по естественной речи, которая обеспечит достаточную
чувствительность к малым изменениям эмоционального состояния и будет
учитывать гендерные и возрастные особенности человека.
1.4 Признаки эмоционально окрашенной речи
Наиболее простым способом формализованного описания ЭОР является
применение
атрибутивных
моделей,
основанных
на
оценке
признаков,
характеризующих изменение эмоционального состояния диктора. Выделенные из
акустической волны признаки могут быть использованы системами для
классификации и интерпретации речевых паттернов, в соответствии с различным
42
эмоциональным окрасом.
Системы мониторинга эмоций позволяют на сегодняшний день получать
разнообразные результаты, например, в работе [46] утверждается, что вероятность
правильного распознавания эмоционального состояния диктора может составлять
50-95 %.
Литературный
обзор,
охватывающий
результаты
исследований
отечественных [2, 14, 18, 19, 21, 29, 37, 39, 46, 54, 55, 57, 95, 96, 104, 105] и
зарубежных [112, 113, 114. 116, 117, 119, 127, 141, 143, 149, 156, 157] авторов,
показывает, что на настоящий момент существует очень большое количество
разнообразных признаков для вышеприведенных систем (варьирование признаков
составляет от нескольких десятков до нескольких сотен), которые можно извлечь
из акустической волны.
В
работе
[43]
предлагается
все
акустические
характеристики
классифицировать на три представительные группы: темпоральные, спектральные
и нелинейные показатели. В другой работе [19] предлагается в особую группу
также выделить признаки, получаемые на основе вейвлет-анализа. В работе [29]
существующие методы выделения и анализа признаков ЭОР также предлагается
классифицировать три группы: параметрические, фонетические и неакустические.
С нашей точки зрения, все разнообразие характеристик ЭОР на данном
этапе целесообразно разбить на четыре группы объективных признаков
(таблица 1.3), которые можно применять для интерпретации эмоций человека по
РС:
- спектрально-временные признаки;
- кепстральные признаки;
- амплитудно-частотные признаки;
- признаки нелинейной динамики.
В рамках диссертационной работы нами отобраны только те множества
признаков акустической волны, которые позволяют с точностью 85-100 % решать
задачу классификации / интерпретации речевых паттернов в соответствии с
эмоциональными состояниями испытуемых [75].
43
Таблица 1.3 – Признаки эмоционально окрашенной речи
ОбознаИсследования
чение
I. Спектрально-временные признаки
X (i )
1) Среднее значение спектра РС
3) Относительное время пребывания сигнала в полосах
t (i)
спектра
mH (i)
5) Медианное значение спектра речи в полосах
[57]
Pн(i)
6) Относительная мощность спектра речи в полосах
V (i)
7) Вариация огибающих спектра речи
9) Коэффициенты кросскорреляции спектральных
R (i, k )
огибающих между полосами спектра
10) Длительность сегмента, фонемы, фразы
[2, 29, 57, 104]
l
11) Высота сегмента
h
[29]
12) Коэффициент формы сегмента
k
II. Кепстральные признаки
13) Коэффициенты спектра линейного предсказания
LPC
14) Коэффициенты кепстра линейного предсказания
[112, 157]
LPCC
15) Коэффициенты мощности частоты регистрации
LFPC
16) Коэффициенты линейного предсказания с
коррекцией на неравномерность чувствительности
PLP
[157]
человеческого уха
17) Мел-частотные кепстральные коэффициенты
MFCC
III. Амплитудно-частотные признаки
18) Энергия
[143, 149]
E
19) Частота основного тона (ЧОТ)
[57, 66, 112]
F0
F1 , F 2 ,
20) Формантные частоты
[57, 104, 112]
F3 , F 4
i, A
21) Интенсивность, амплитуда
[2, 104, 157]
22) Оператор Тигера
[66, 105, 157]
TEO
23) Джиттер
[66, 112]
Ji
24) Шиммер
[66, 112, 157]
Sh
K ( x, y )
25) Радиальная базисная ядерная функция
[105]
IV. Признаки нелинейной динамики
Yn
26) Аттрактор
t i
27) Отображение Пуанкаре
[55, 65, 104]
Ri , j
28) Рекуррентный график
29) Максимальный характеристический показатель
j
Ляпунова
Название признака
44
Спектрально-временные характеристики [57] описывают РС на основе
оценки составляющих трех видов:
1) периодических участков акустической волны;
2) непериодических участков акустической волны;
3) участков, которые не содержат РС.
Признаки
этой
группы
позволяют
отображать
особенности
форм
временных рядов и спектров импульсов голоса у различных лиц. Эти признаки
описывают
особенности
речевых
потоков,
связанных
с
динамикой
артикуляционного органа речи диктора.
Следует особо отметить группу кепстральных признаков (коэффициентов)
[112]. Большое количество систем распознавания ЭОР акцентируют усилия на
нахождении частотных характеристик речевого тракта, при этом происходит
отбрасывание характеристик сигналов возбуждения. Для локализации сигналов
возбуждения от сигналов речевых трактов применяют кепстральный анализ (в том
числе и линейное предсказание). Принцип линейного предсказания основан на
том, что текущий отсчет РС аппроксимируется линейной комбинацией из
предшествующих отсчетов. Коэффициенты линейного предсказания находятся на
основе среднего квадрата разности (его минимизации) между отсчетами и
предсказанными значениями. Например, на практике широко используются в
качестве набора признаков для описания РС мел-частотные кепстральные
коэффициенты ( MFCC ), позволяющие учитывать психоакустические принципы
восприятия речи, поскольку используется специальная шкала, связанная с
критическими полосами слуха [75]. В целом, модели сигналов, использующие
кепстральные коэффициенты, позволяют уменьшить размерность исходного
признакового пространства, что сказывается на быстродействии вычисления
различных параметров РС.
Признаковые модели, построенные на основе анализа амплитудночастотных параметров РС, широко применяются для решения разнообразных
задач классификации и интерпретации эмоций [2, 143, 149]. Параметры моделей
сигналов, использующих амплитудно-частотные признаки, существенно зависят
45
от использованных при их вычислении параметров дискретного преобразования
Фурье. Применение этих моделей для задачи классификации РС (определение
эмоций диктора) дает удовлетворительную точность классификации только при
большом числе (от 100 и выше) признаков [75].
Для решения задач классификации РС довольно успешно применяются
методы нелинейной динамики [55, 65, 104], которые позволяют создавать
отображения РС в новых признаковых пространствах. В группе характеристик
нелинейной динамики РС анализируется как скалярная величина, которая
наблюдается в голосовом тракте человека. Нелинейные процессы играют весьма
важную роль в речеобразовании. Процесс речеобразования относится к
нелинейным процессам [65] и, следовательно, его можно анализировать при
помощи методов нелинейной динамики. Признаки этой группы начали применять
позднее вышеупомянутых объективных групп признаков. В настоящий момент
существует большое количество разных подходов к их оценке. Применение
признаков нелинейной динамики при обработке РС позволяет создавать
графические интерпретации и количественные инварианты образцов речи,
различающиеся в зависимости от эмоций, испытываемых говорящим.
1.5 Постановка задач дальнейшего исследования
Как показал проведенный обзор, оценка эмоционального состояния
человека имеет весьма важное значение для диагностики психоневрологических,
психосоматических,
психомоторных
и
других
заболеваний.
Мониторинг
эмоционального состояния человека, оценка валентности, уровня и динамики
развития
эмоций
позволяют
врачу
получать
неинвазивными
методами
дополнительную невербальную информацию с довольно тонкими оценками
состояния пациента.
Существующие
технологии
анализа
эмоций
человека
недостаточно
эффективны и в настоящее время могут применяться только в игровых
46
приложения, а также в средствах диалогового взаимодействия человека и ЭВМ, а
также в телекоммуникационных системах.
Высокий результат распознавания знака эмоций достигается: а) при
применении нескольких десятков признаков; б) в случаях ярко выраженных
эмоций; в) с использованием нескольких разных каналов регистрации БМС.
Существующие методы и алгоритмы оценки параметров эмоциональных
реакций основаны на экспериментально-статистическом подходе, поэтому особое
значение при оценке качества алгоритмов и их совершенствования имеют
методики создания БД с паттернами эмоциональных реакций, которые имеют не
только субъективные оценки испытуемых или внешних экспертов, но и
подтверждаются объективными фактами изменения психофизиологического
состояния испытуемых.
Проведенный
технических систем
анализ
и
показал
способов
наличие
для
существенно
оценки
различающихся
эмоциональных состояний
испытуемых, причем это техническое разнообразие приводит к созданию
различных по математическому аппарату способов формализованного описания
механизма
эмоциональных
реакций.
Как
следствие,
необходимо
найти
инвариантный к виду БМС математический аппарат для формирования
признакового
пространства
и
построения
модели
эмоций.
Учитывая
существующую гипотезу о том, что механизм эмоций выполняет функции,
относящиеся к управлению различными системами в организме человека [10], для
создания его модели можно исходить из парадигмы распределенных систем с
параллельными каналами формирования реакций. Обобщенная схема одного
такого канала может быть представлена как совокупность двух виртуальных
блоков (рисунок 1.14), границы которых определены только на функциональном
уровне.
Канал должен иметь один вход, определяемый видом информации,
доступной для восприятия, и один выход, определяемый видом реакций,
формируемых физиологической подсистемой.
47
X
Механизм
эмоций
Е
Физиологическая
подсистема
Y
Рисунок 1.14 – Обобщенная схема канала проявления эмоциональных реакций в
некотором физиологическом сигнале: X - внешний или внутренний стимул
вызывающий эмоциональную реакцию; E - эмоциональная реакция,
проявляющаяся в изменениях электрической активности головного мозга (ЭЭГ);
Y - регистрируемый сигнал, связанный с функционированием одного и группы
органов человеческого организма (РС, ЭКГ, ЭМГ и др.)
Учитывая, что авторы известных моделей эмоций по умолчанию исходят из
предположения, что в формировании эмоциональных реакций принимает участие
мозг человека, в схеме канала выделяется промежуточный сигнал (Е),
эквивалентный проявлению активности мозга при формировании эмоциональных
реакций. Если эмоцию рассматривать как некоторую невербальную информацию,
которая формируется мозгом в ответ на внешние или внутренние (мысленные)
стимулы, то функциональная подсистема будет выступать в роли интерпретатора
[59]. Тогда в зависимости от ее вида мы будем получать интерпретации,
созданные с использование различных алфавитов (мимики, жестов, речевых
интонаций, изменений в ритме частоты сердечных сокращений и т.д.).
Как видно из приведенного обзора, среди создателей формализованных
описаний моделей эмоций можно выделить два подхода. Часть работ связана с
описанием собственно механизма эмоций без привязки к виду функциональной
подсистемы, которая только и позволяет регистрировать объективные данные о
состоянии человека. Наиболее характерным примером является работа [88], в
которой
предложена
формализованная
модель
эмоций,
имеющая
определительный характер и не позволяющая проследить количественную связь
между силой эмоции и измеряемыми физическими характеристиками (например,
параметрами акустической волны, параметрами РС).
Существенные
и
практические
результаты
получены
в
работах
48
представителей второго направления, которые фактически рассматривают задачу
построения модели эмоций на основе анализа реальных БМС (Y). В зависимости
от вида функциональных подсистем и вида Y модели существенно различаются.
В диссертации мы сосредоточили внимание на проблеме построения модели
интерпретатора
эмоций
с
использованием
в
качестве
функциональной
подсистемы речевого аппарата человека.
На данном этапе проблема распознавания эмоционального состояния
человека путем анализа его речи решается довольно успешно в основном для
случаев сильных проявлений отрицательных эмоций (гнев, стресс, депрессия и
т.п.) и с использованием нескольких десятков признаков.
Необходимо создание специализированных технических, информационных
и математических средств для исследования и построения формализованного
описания эмоциональных реакций человека, которые можно будет использовать
для идентификации или прогнозирования развития эмоций. Также дополнительно
необходима разработка модели, описывающей взаимосвязи между основными
параметрами эмоций (знака, силы и направления развития) и объективными
оценками
характеристик
фазово-пространственных
моделей
наблюдаемого
временного ряда (РС).
Выводы по главе 1
1.
организма
Эмоции можно рассматривать как определенные виды реакций
человека
на
внешние
и/или
внутренние
(материальные,
информационные и т.д.) раздражители. Особое место в проблеме изучения
эмоций человека по РС отведено сфере медицины. Применительно к данной
области можно выделить различные научные разработки, расположенные на
стыках психологии, физиологии, акустики, лингвистики, радиотехники и т.д.,
позволяющие, например, осуществлять диагностику эмоций для выявления
заболеваний человека на ранних этапах. Среди подобных медицинских
49
приложений особое место занимают разработки, направленные на человека в
лечебных, терапевтических и профилактических целях.
2.
Для
(нейтральное
диагностики
состояние,
и
мониторинга
отклонений
и
эмоционального
видоизменений
от
состояния
нейтрального
состояния) человека в настоящее время целесообразно шире применять
компьютерные технологии для количественной оценки эмоций по речевым
сообщениям. Выполненный функционально-структурный анализ компьютерных
технологий и технических решений, применяемых для выявления эмоций на
основе анализа речи, позволил установить, что большинстве случаев в основе
предложенных инженерных разработок лежат теории распознавания образов,
которые могут быть реализованы с помощью искусственных нейронных сетей,
методов нечеткого логического вывода, методов кластерного анализа и т.д. В
целом анализ эмоций проводить довольно затруднительно – отсутствует
эффективный метод. Ни один из проанализированных способов (анализ мимики
лица, жестов, голоса, физиологических и биохимических показателей и т.д.) не
является точным и надежным методом распознавания эмоций. Все перечисленное
функционирует лучше всего тогда, когда рассматривается совместно (т.н.
«многоканальные системы»).
3.
Многоканальные
системы
по
сравнению
с
одноканальными
системами позволяют получать более высокую точность распознавания и
интерпретации эмоциональных состояний человека. Многоканальность системы
отражается на ее сложности и, соответственно, ее возможности технической
реализации.
С
нашей
точки
зрения
наиболее
приемлемый
вариант
многоканальной системы - система с двумя каналами передачи эмоций (речевой
аппарат и электрическая активность головного мозга).
4.
они
Обзор существующих моделей эмоций позволил установить, что все
имеют
один
существенный
недостаток
-
ориентированность
на
классификацию РС и интерпретацию только достаточно ярко выраженных
эмоций, т.е. модели сосредоточены на случаи, когда говорящий может дать
субъективную оценку своего эмоционального состояния или, когда такую
50
субъективную оценку проявления эмоций в речи дает слушатель.
5.
Проанализировав
различные
варианты
признаков
акустической
волны, отметив при этом соответствующие недостатки и преимущества
предложенных характеристик (признаков) эмоций, принято решение в рамках
диссертационной работы использовать математический аппарат, интегрирующий
в
себе
следующие
признаки:
морфологические
признаки
аттрактора,
реконструированного по БМС, а также спектральные характеристики сигналов.
6.
В соответствии с целью диссертационной работы сформирована
постановка задач дальнейшего исследования.
51
ГЛАВА 2 РАЗРАБОТКА МЕТОДИКИ ИССЛЕДОВАНИЯ ЭМОЦИЙ НА
ОСНОВЕ АНАЛИЗА РЕЧЕВОГО СИГНАЛА
2.1 Концепция интегрированной БТС для мониторинга эмоций человека
Необходимость исследования и мониторинга эмоциональных состояний
определяется их вкладом в обеспечение эффективности и надежности состояния
пациента и человека-оператора при выполнении им его профессиональных
обязанностей. Несмотря на большое разнообразие автоматизированных систем и
т.н. «тренажеров», позволяющих моделировать различные проблемные ситуации,
в настоящее время требуется разработка БТС, позволяющих исследовать эмоции
и проводить оценку (контроль) адаптации пациента и человека-оператора к
воздействию различных факторов.
В
последние
годы
в
области
информационных
технологий
и
психофизиологии появляется много исследований, посвященных проблеме
построения модели эмоций, в которой количественно согласуется интерпретация
сигналов,
связанных
с
функционированием
одного
и
группы
органов
человеческого организма (Y) и полученных от эмоциональных реакций,
проявляющихся в изменениях электрической активности головного мозга
человека (E), и вопросу изучения механизмов формирования эмоциональных
откликов субъекта на некоторые внешние и внутренние раздражители (X) (см.
рисунок 1.14). Интерес к этому направлению вполне оправдан, так как позволяет
выявить и формализовать операции передачи и дешифровки невербальной
информации.
При построении модели эмоций, в которой количественно согласуется
интерпретация сигналов E и Y, необходимо построение формализованного
описания этих сигналов на основе общего признакового пространства или хотя бы
с использованием одинаковых признаков. Наиболее перспективным путем, повидимому,
является
создание
специализированных
БТС,
позволяющих
52
использовать различные каналы предъявления стимулов X и осуществлять
регистрацию сигналов E и Y. Идейной основой для этого может служить
парадигма построения систем, ориентированных на обработку компьютером
сигналов от биосенсоров, например, на основе технологии Affective Computing
[148].
Примером
подобной
системы
является
разработка
(рисунок 2.1),
представленная в работе [119].
Рисунок 2.1 – БТС на основе Affective Computing (E.L. van den Broek, 2011)
53
В данной БТС основное внимание уделено разнообразию каналов
регистрации откликов, что хорошо согласуется с целями этой системы.
Учитывая, что наиболее чувствительным к дифференциации оттенков
эмоций, переживаемым человеком, является РС [43], а все остальные (мимика,
жесты, физиологические и биохимические показатели и т.п.) обеспечивают более
«грубые» реакции, исходя из этого допущения, в предлагаемой концепции БТС
целесообразно ограничиться созданием как минимум 2-х канальной системы.
Подобная система позволит пользователю выбирать канал предъявления и
восприятия стимулов для формирования у испытуемого соответствующего
эмоционального состояния.
В работе [100] рассмотрен способ регистрации образцов речи, основанный
на объективных данных, характеризующих состояние источника речевых
сообщений (рисунок 2.2). Для контроля эмоционального состояния человека
применяется регистрация ЭЭГ, характеризующая электрическую активность
головного мозга диктора. Это позволяет повысить точность и достоверность
правил интерпретации эмоций по образцам речи.
Рисунок 2.2 – Структура БТС
Учитывая
индивидуальные
особенности
испытуемых
в
восприятии
информации по разным каналам, различную значимость стимулов для каждого из
54
них, в предлагаемой БТС необходимо включить несколько каналов предъявления
стимулов. Каждый канал необходимо связать с соответствующим типом
биосенсора. Вариация каналов предъявления позволит использовать в качестве
каналов зрительный, акустический, тактильный или обонятельный анализаторы,
что позволит создавать сложные интегрированные эмоционально значимые
стимулы и соответствующие реакции испытуемых, что дает возможность
приблизить
модельные
эксперименты
к
реальным
условиям
обработки
эмоционально значимой информации.
Развитием
этого
предложения
(electroencephalogram / speech signal),
является
концепция
предназначенная
для
БТС EEG/S
исследования
проявлений (ярко выраженных, слабо выраженных) эмоциональных реакций
человека на внешнее воздействие (рисунок 2.3). К особенностям концепции этой
БТС относится четыре независимых канала подачи стимулов (визуальных (V),
акустических (A), тактильных (Т) и обонятельных (О)) и два канала регистрации
откликов испытуемого (канал регистрации ЭЭГ сигналов (E) и канал регистрации
РС (Y)). Информация, получаемая при обработке сигналов E, отображает
эмоциональные реакции человека, которые он сознательно не корректирует.
Оценки эмоционального состояния человека на основе сигналов Y могут быть
искажены в силу субъективных причин, например, сознательным желанием
испытуемого не демонстрировать явно своих оценок предъявляемого стимула.
Главное преимущество 2-х канальной БТС связано с возможностью регистрации
речевого сообщения только после регистрации изменений в ЭЭГ, вызванных
восприятием соответствующего стимула. Такой подход повышает доверие к
выборкам образцов речи, которые в дальнейшем используются для формирования
правил распознавания (интерпретации) классов эмоций.
Работа БТС осуществляется следующим образом. Оператор, используя блок
управления, должен осуществить выбор режимов работы системы (U1 - U6), тем
самым определить каналы для предъявления испытуемому соответствующих
стимулов (V, A, О или Т).
55
Рисунок 2.3 – Концепция интегрированной БТС EEG/S для исследования эмоций:
U - выбор режима работы системы: U1 - режим работы с акустическими
стимулами (А); U2 - режим работы с визуальными стимулами (V); U3 - режим
работы с обонятельными стимулами (О); U4 - режим работы с тактильными
стимулами (Т); U5 - режим записи РС (РС); U6 - режим регистрации ЭЭГ
Например, при подаче блоком управления управляющего сигнала U1
происходит активация блока предъявления акустических стимулов, стимулы
поступают из БД акустических стимулов (БД_А). Аналогично работают другие
блоки предъявления стимулов испытуемому. Далее оператор с помощью
56
управляющего сигнала U6 активизирует процесс регистрации ЭЭГ. Регистрация
ЭЭГ осуществляется в блоке регистрации, первичной обработки и визуализации
ЭЭГ.
В
данном
блоке
электроэнцефалографа,
предусматривается
подключенного
к
расположение
компьютерного
персональному
компьютеру
с
соответствующим программным обеспечением, позволяющим осуществлять
регистрацию ЭЭГ как минимум по 19 отведениям, проводить предобработку и
сохранение сигналов, проводить экспорт обработанных сигналов в БД ЭЭГ
(БД_ЭЭГ).
Оператор отслеживает изменение эмоционального состояния объекта в
зависимости от предъявляемого ему типа стимула. При изменениях характера
сигналов ЭЭГ оператор с помощью управляющего сигнала U5 активизирует
запись РС. Регистрация РС проводится в блоке регистрации, первичной обработки
и визуализации РС. В данном блоке предусматривается расположение микрофона,
подсоединенного к персональному компьютеру с соответствующим программным
обеспечением, позволяющим проводить запись речи в амплитудно-временном
представлении,
осуществлять
предобработку
сигналов
(фильтрацию
и
нормализацию образцов) и экспорт сигналов в блок сегментации РС. Сегментация
сигналов позволяет разделить речевое сообщение на фразы, отдельные слова и
фонемы. Далее обработанные сигналы поступают в БД РС (БД_РС).
Из БД_РС и БД_ЭЭГ образцы сигналов поступают в блок определения
информативных дискретных признаков. В данном блоке для расчета параметров
используется два вида дискретных признаков [85], вычисляемых на основе СПМ
или двухмерных проекций реконструкций аттракторов.
В блоках формирования моделей РС и ЭЭГ создаются два типа
гетерогенных векторных моделей сигналов. Модели первого типа (РС) описывают
характеристики акустической волны (фразы, слова, фонемы), а модели второго
типа (ЭЭГ) отображают особенности всех отведений ЭЭГ. Векторные модели
сигналов (РС, ЭЭГ) поступают на вход классификатора. Для их классификации
используются специальные продукционные правила (БД_RULE).
57
2.2 Методика проведения экспериментов
В последние десятилетия появляется всё больше методик исследований
[41], посвящённых измерению и распознаванию эмоций человека (таблица 2.1).
Таблица 2.1 – Методики для измерения и распознавания эмоций человека
№
Методика
1 Эмоциональный слух [50]
2
MERT [111]
3
MSCEIT [144]
4
JACBART [145]
5
DANVA [146]
6
PONS [153]
Стимулы
Аудиозаписи
Видеозаписи, аудиозаписи
Фотографии лиц, изображения
Фотографии лиц
Фотографии лиц и аудиозаписи
Видеозаписи
Эмоция
Разработчик
Разработчик
Эксперт
Эксперт
Разработчик
Разработчик
В таблице 2.1 приводится обобщённая характеристика описанных методик с
акцентом на стимулы, которые предъявляются испытуемым. Все стимулы можно
разделить на две группы (акустические и визуальные). Главным недостатком
предложенных методик является то, что распознавание эмоций человека
подтверждается качественной (субъективной) экспертной оценкой, при этом
отсутствует количественное (объективное) подтверждение эмоции. Эксперт (сам
разработчик, профильный специалист или группа специалистов) интерпретирует
эмоции, основываясь на своем опыте, знаниях и умении анализировать
услышанную информацию.
Необходимость разрешения выявленного недостатка потребовала поиска
дополнительных путей и средств осуществления распознавания эмоций. В
диссертационной работе разработана новая методика проведения экспериментов
для регистрации и распознавания эмоциональных состояний человека.
Подтверждение изменения эмоционального состояния испытуемого в
предложенной методике основано на субъективной и объективной оценках. В
качестве субъективной оценки выступает косвенный метод анализа - самооценка
испытуемого, который описывает по 10-бальной шкале изменение своего
эмоционального состояния (до, во время и после завершения предъявления ему
58
стимулов). Для объективного подтверждения изменения эмоций у испытуемого
применяется регистрация его БМС: запись РС и регистрация ЭЭГ, которая
позволяет в реальном времени отслеживать, как изменяется электрическая
активность головного мозга при подаче и восприятии стимулов различного
эмоционального окраса.
Преимуществами предложенной методики являются:
1.
Регистрация
естественной
(натуральной)
речи
без
сокрытия
испытуемым эмоционального окраса речевых сообщений.
2.
Объективное подтверждение изменений эмоциональных реакций
испытуемых.
3.
Согласованность
результатов
интерпретации
эмоций
по
двум
различным типам БМС.
4.
Чувствительность к малым изменениям эмоционального состояния,
что позволяет интерпретировать слабовыраженные эмоциональные реакции
испытуемых.
5.
Возможность предъявления испытуемому стимулов по трем каналам
(акустический, визуальный и обонятельный).
Алгоритм работы с помощью предложенной методики проведения
экспериментов по исследованию эмоций приведен на рисунке 2.4.
Методика позволяет при исследовании эмоций задействовать слуховой,
зрительный и обонятельный анализаторы человека для активизации у него
соответствующих эмоций (таблица 2.2).
Таблица 2.2 – Типы каналов и стимулов, применяемых в новой методике
Тип
стимулов
Нейтральные
Положительные
Отрицательные
Обозначение
St_N
St_+
St_-
Длительность,
сек
120 - 300
Тип
канала
Акустический
Визуальный
Обонятельные
Обозначение
А
V
O
59
Рисунок 2.4 – Методика проведения экспериментов
60
В качестве стимульного материала предлагается использовать аудиозаписи,
видеозаписи и различные запахи с тематикой, ориентированной на разные вкусы,
для
активизации
у испытуемых эмоций
разного
эмоционального
знака
(таблица 2.3). Предварительно каждый испытуемый должен ознакомиться с
образцами
стимулов,
чтобы
для
него
был
сформирован
и
настроен
индивидуальный сценарий исследования.
Таблица 2.3 – Примеры стимулов
Стимул
St_N
Канал
А
V
O
А
St_+
V
O
А
V
St_-
O
Примеры стимулов
Аудиозаписи звуков живой природы.
Видеозаписи сцен с природными ландшафтами.
Запахи окружающей испытуемого обстановки.
Аудиозаписи классической и современной музыки.
Видеозаписи сцен юмористического характера с участием
людей и животных.
Запахи эфирных масел, свежеиспеченного хлеба, ванили.
Аудиозаписи шумов различной физической природы.
Видеозаписи сцен хирургических операций, жестокого
обращения над животными и насилия над людьми.
Запахи простейших аминов, сульфидных соединений.
Предположим, что воздействие некоторого внешнего стимула (А, V или О)
вызывает
у
человека
определенную
эмоциональную
реакцию.
Примем
допущение, что после снятия стимула объект останется в достигнутом
эмоциональном состоянии в течение всего времени формирования им речевого
сообщения (Y). Тогда образцы РС можно рассматривать как паттерны временных
рядов, содержащих информацию о некоторой эмоциональной реакции.
Чтобы проверить данное утверждение, на реальных записях РС и ЭЭГ были
осуществлены
экспериментальные
исследования,
описанные
в
текущем
параграфе. Общая схема эксперимента (рисунок 2.4) включает серии из
двухэтапных испытаний. На первом этапе испытуемому по выбранному
оператором каналу предъявляются стимулы одной из трех серий (таблица 2.4), и
регистрируется его ЭЭГ (отклик E).
61
Таблица 2.4 – Серии экспериментов
№
1
2
3
Серия сеанса
Последовательность операций
St_N / РС / St_N / РС / St_+ / РС / St_+ / РС / St_N / РС /
Серия_1
St_N / РС / St_- / РС / St_- / РС / St_N / РС / St_N / РС
St_+ / РС / St_+ / РС / St_N / РС / St_N / РС / St_- / РС /
Серия_2
St_- / РС / St_N / РС / St_N / РС / St_+ / РС / St_+ / РС
St_- / РС / St_- / РС / St_N / РС / St_N / РС / St_+ / РС /
Серия_3
St_+ / РС / St_N / РС / St_N / РС / St_- / РС / St_- / РС
Общее время проведения одной серии составляет от 40 до 90 минут
На втором этапе происходит регистрация РС (отклик Y). Испытуемый
произносит контрольную фразу «А голос мой звучит примерно так». Это
происходит в моменты времени, когда сам испытуемый чувствует эмоциональное
возбуждение либо по команде оператора. Команда оператора подается в том
случае, если визуально наблюдается существенное различие в электрической
активности
головного
мозга
при
восприятии
стимулов
разных
типов
(рисунок 2.5).
а - положительные эмоции
б - нейтральное состояние
Рисунок 2.5 – Примеры ЭЭГ испытуемого при восприятии визуальных стимулов
С помощью предложенной методики проведен комплекс исследований с
целью создания мультимодальной базы эмоций, которая будет необходима при
тестировании разработанной интегрированной системы для мониторинга эмоций
человека (БТС EES/S).
В качестве испытуемых выступили условно здоровые люди (студенты,
аспиранты и сотрудники ТвГТУ). Всего в экспериментах участвовало 20 человек,
родным языком которых является русский. Испытуемые, возраст которых
варьировался от 18 до 60 лет (5 женщин и 15 мужчин), обладали хорошей
дикцией. У всех испытуемых нормальная эмоциональная выразительностью
62
голоса, и они не владели искусством декламации. Часть сеансов проведена со
студентами-иностранцами, родной язык которых французский.
Каждый испытуемый дал свое добровольное согласие на участие в
проведении исследований, после того как был подробно проинструктирован по
задачам и действиям, которые ему необходимо выполнить во время проведения
экспериментов.
Эксперименты проводили в дневное время суток при осуществлении
подбора условий, максимально приближенных к естественным условиям
восприятия и передачи эмоций человеком. Во время предъявления стимулов
(акустических, визуальных и обонятельных) по различным каналам и при
соответствующей регистрации откликов (ЭЭГ и РС) испытуемые располагались в
удобном кресле в затемненной комнате.
При проведении экспериментов неукоснительно соблюдались три основных
требования: 1) испытуемый должен находиться в комфортной для него
обстановке; 2) при обнаружении признаков усталости у испытуемого оператор
частично или полностью прекращает сеанс записи; 3) у испытуемого должно быть
желание к сотрудничеству и активному участию в проведении экспериментов.
Для допуска к участию в экспериментах каждый испытуемый перед
началом исследования проходил психологическое тестирование (методика САН,
подробно описана в работах [62, 108]). При неприемлемых показателях
пройденных психологических тестов сеанс переносился на другое время или же
мог быть отменен вовсе.
Инструментарий
для
исследований
представляет
собой
аппаратно-
программное средство, включающее в себя несколько персональных компьютеров
с соответствующим программным обеспечением и подключенным к ним
компьютерным энцефалографом «Энцефалан-131-03» (производитель НПФ
«Медиком»,
г. Таганрог,
Россия)
и
микрофоном
(акустоэлектрическим
преобразователем).
Испытуемые располагались на расстоянии не менее 1,5 м от стандартного
монитора персонального компьютера, на котором предъявлялись визуальные
63
стимулы. Акустические стимулы подавались с помощью звуковых колонок
(электроакустического
соответствующем
преобразователя),
расстоянии
(обычно
которые
это
были
расположены
приблизительно
0,8 метра
на
от
испытуемого). Обонятельные стимулы предъявлялись с помощью аромалампы,
расположенной на расстоянии не более 2 м от испытуемого.
Техническое и программное обеспечение для регистрации БМС (откликов E
и Y) испытуемого можно представить в виде трех модулей.
Первый модуль (регистрация сигнала): каждый сеанс регистрации диктора
проводился с измерения значения уровня фонового шума, который обусловлен
акустическим шумом в помещении, а также помехами в электрическом тракте.
Запись образцов РС (контрольная фраза «А голос мой звучит примерно так»)
осуществлялась при помощи микрофона на подставке «Genius», расположенного
не более 40 см ото рта диктора (частотный диапазон 50 Гц-20 кГц; импеданс
2,2 кОм; чувствительность -60±4 дБ). Съем ЭЭГ осуществлялся с помощью
компьютерного энцефалографа «Энцефалан-131-03», использовалась стандартная
международная система отведений «10-20» (рисунок 2.6), предложенная в работе
[136]. Регистрация ЭЭГ производилась по 19 отведениям: O2-A2, O1-A1, P4-A2,
P3-A1, C4-A2, C3-A1, F4-A2, F3-A1, Fp2-A2, Fp1-A1, T6-A2, T5-A1, T4-A2, T3-A1,
F8-A2, F7-A1, Pz-A1, Cz-A2, Fz-A1.
1
2
3
Рисунок 2.6 – Система монтажа электродов «10-20» (цифрами указан порядок
измерений контура головы) (Jasper, 1958)
64
Международная система «10-20» позволяет точно указывать на черепе
местонахождение электродов. В соответствии с данной системой, у каждого
человека проводят точное измерение расстояния от середины переносицы
(назион) и твердого костного бугорка на затылке (инион) черепа, а также
дополнительно между ушными (правой и левой) ямками. Точки местонахождения
электродов определены интервалами, которые составляют 10% или 20%
указанных расстояний на черепе [9, 52, 55].
Второй модуль (оцифровка и сохранение сигнала): микрофон подключен к
звуковой карте «Creative SoundBlaster AWE64» персонального компьютера
TOSHIBA Satellite L300D. Образцы РС были сохранены в файлах формата *.wav
(частота дискретизации 22050 Гц, разрешение 16 бит, продолжительность от 2 до
6 секунд). Записи ЭЭГ были сохранены в файлах формата *.ASCII (частота
дискретизации 250 Гц, продолжительность 10 минут).
Третий модуль (предобработка сигнала): данный модуль представляет
собой пакет программного обеспечения. Для записи и предобработки РС
использовался редактор «Adobe Audition 1.0». Для регистрации и предобработки
ЭЭГ применялась программа «Encephalan EEG».
2.3 Разработка мультимодальной базы эмоций
Современные исследования в области речевых технологий по созданию так
называемых
«интерпретаторов
эмоций»
основаны
на
экспериментально-
статистических методах мониторинга эмоций. При настройке и тестировании
разработанных систем в качестве исходных данных в подобных исследованиях
применяются базы речевых образцов, произнесенных дикторами в определенных
эмоциональных
состояниях.
Для
формирования
баз
паттернов
речевых
сообщений обычно используются образцы искусственной (сценической) или
естественной (натуральной) речи. В первом случае (например, база Emo-DB [110])
паттерны получают из фраз дикторов (обычно профессиональных актеров или
65
оперных певцов), имитирующих определенный вид эмоции. При втором подходе
(например, база RUSLANA [143]) в качестве примеров используют записи речи
операторов,
или других специалистов,
профессионально
участвующих в
коммуникационном процессе. Присутствие эмоций в образцах речи и их
валентность определяются на основе оценок экспертов, прослушивающих эти РС.
Учитывая субъективность процессов восприятия эмоций человеком, при таком
подходе в базы обычно включаются образцы речи с ярко выраженными
эмоциями. Границы кластеров, отображающих объемы понятий о РС с эмоциями
разного знака и с разной интенсивностью проявления, могут содержать
достаточно большие пересечения.
В работе с помощью разработанной интегрированной системы для
мониторинга эмоций человека БТС EES/S создана новая мультимодальная база
эмоций («Мультимодальная база образцов естественной речи с объективно
подтвержденным фактом изменения эмоционального состояния диктора»),
содержащая объекты сигналов с ярко и слабо выраженным наличием
эмоционального окраса. На базу получено свидетельство о государственной
регистрации [73]. Новизна мультимодальной базы эмоций заключается в создании
интегрированной структуры, объединяющей т.н. «сырые» данные, полученные в
процессе экспериментов с БТС EES/S, а также результаты их фрагментации в
соответствии принятыми методиками обработки.
Наличие
эмоций
в
образцах
сигналов
подтверждается
на
основе
объективного подхода и экспертного оценивания. В целом, мультимодальная база
эмоций представляет собой результат интеграции двух типов БМС (РС и ЭЭГ),
отображающих
изменение
эмоционального
состояния
испытуемого
при
предъявлении ему стимулов различного эмоционального окраса.
В ходе проведения экспериментов возникает потребность в хранении не
только полученных записей сигналов, но и данных о ходе проведения
эксперимента, индивидуальной информации об испытуемых, данных о сеансах и
т.д. Часто при анализе возникает потребность сделать выборки по определенному
признаку, например, по полу, возрасту и т.п. При неорганизованном хранении
66
подобных данных сложно сделать необходимые выборки, а если БД записывалась
в другой лаборатории, или на другом языке, то задача сделать типовые выборки
становится довольно трудоемкой. В связи с этим возникает необходимость в
создании собственной оригинально построенной структуры БД.
Реализация
разработки
структуры
мультимодальной
базы
эмоций
производилась в СУБД MS ACCESS 2007 (приложение 1, рисунок 5.1).
Мультимодальная база эмоций, состоящая из двух частей (образцов
эмоционально окрашенной речи и паттернов ЭЭГ), позволяет создавать описания
состояний объектов на основе шаблона вида:
Isp  Sp i , E i , name, d  , d  {  1, 0 ,  1 } ,
(2.1)
где Sp i - речевой образец i -го испытуемого; E i - паттерн ЭЭГ i -го испытуемого;
name - идентификатор испытуемого; d - значение разделительного признака: -1,
0, +1 (отрицательные эмоции (cluster 1), нейтральное состояние (cluster 2),
положительные эмоции (cluster 3), соответственно).
На основе разделительного признака
d сформированы выборки из образцов
речи ( ОВspeech ) и паттернов ЭЭГ ( ОВeeg ):
ОВspeech  Sp 1 ( d  1)  Sp 0 ( d  0)  Sp 1 ( d  1),
ОВeeg  E 1 (d  1)  E 0 (d  0)  E 1 (d  1).
В таблице 2.5 приведен состав базы эмоций (Cluster 1, 2, 3 - отрицательные
эмоции, нейтральное состояние, положительные эмоции, соответственно).
В состав мультимодальной базы эмоций входят: 266 фраз («А голос мой
звучит примерно так») различных дикторов, продолжительностью от 2 до
6 секунд
(рисунок 2.7, а);
2660
гласных
фонем
(из
каждой
фразы
сегментировалось 10 гласных фонем), продолжительностью 0,025-0,25 секунд
(рисунок 2.7, в); соответствующие во временном представлении, 240 очищенных
от артефактов паттернов ЭЭГ, продолжительностью по 12 секунд (рисунок 2.8).
67
Таблица 2.5 – Состав мультимодальной базы эмоций (формула 2.1)
Количество объектов
Всего Cluster 1 Cluster 2 Cluster 3
Выборка
Типы объектов
ОВ1speech
Фразы
266
114
66
86
ОВ2 speech
Гласные фонемы
2660
1140
660
860
ОВeeg
Паттерны ЭЭГ
240
80
80
80
а - фраза «А голос мой звучит примерно так»
б - слово«голос»
в - ударная фонема «о» слова «голос»
Рисунок 2.7 – Примеры сегментированных РС испытуемого в амплитудновременном представлении, испытывающего положительные эмоции
Рисунок 2.8 – Примеры ЭЭГ испытуемого при восприятии визуальных стимулов:
а - положительные эмоции; б - нейтральное состояние; в - отрицательные эмоции
68
Первая часть мультимодальной базы эмоций состоит из 2 уровней,
1
связанных иерархически. Уровень 1 ( ОВ speech) включает образцы фраз от разных
дикторов. Для получения гласных фонем (уровня 2 - ОВ2 speech ) использовалась
ручная разметка и применена программа для автоматической сегментации
акустической волны.
Программа представляет реализацию авторского метода автоматической
генерации речевых объектов [78], который позволяет проводить сегментацию РС
в соответствии с фонетической транскрипцией языка.
Процесс сегментации представляет собой операцию по разбиению РС на
элементарные лингвистические элементы - фонемы (отдельные звуки). В русском
языке фонемы классифицируются на два класса:
I класс - гласные фонемы (а, о, у, э, и, й, ы);
II класс - согласные фонемы.
Согласные фонемы подразделяются на глухие согласные (ф, фь, с, сь, ш, х,
хь, ц, чь), звонкие согласные (з, зь, ж, м, мь, н, нь, л, ль, р, рь, в, вь) и взрывные
согласные (б, бь, п, пь, д, дь, т, ть, г, гь, к, кь). Длительность фонем может
варьироваться в пределах от 25 до 250 мс [1, 61, 94].
В диссертации предложен метод автоматической сегментации РС. Метод
реализован в виде алгоритма генерации речевых объектов, основанный на анализе
межфонемных переходов. На рисунке 2.9 приведена блок-схема данного
алгоритма [78].
РС представляет собой последовательность квазистационарных участков,
соответствующих
располагаются
голосовым
участки
с
и
шумовым
быстрым
фонемам,
изменением
между
параметров
которыми
сигнала,
соответствующие переходам между фонемами. Метод выделения фонем является
амплитудным, при этом пороговые величины формируются в процессе
выделения.
69
Начало
1. Ввод:
X, M, N, K
12. i=i+1
Нет
13. i>M
Да
2. k=1
14. i=1
3. i=1
15. Zi<>Zi+1
Да
4. Si
16. Вывод:
граница i-го
отрезка
5. i=i+1
Нет
Нет
17. i=i+1
6. i>M
Нет
Да
18. i=M
7. Sk
Да
19. k=k+1
8. i=1
Нет
11. Zi=«+»
Нет
9. Si<Sk
Да
20. k>K
Да
Конец
10. Zi=«-»
Рисунок 2.9 – Блок-схема алгоритма автоматической генерации речевых объектов
На первом шаге алгоритма в качестве предобработки РС нормализуется: все
отсчеты делятся на максимальное значение для установки единых пороговых
значений для любых входных сигналов. Входной сигнал X разбивается на K
отрезков по 449 мсек, что соответствует 9900 отсчетам при частоте дискретизации
22050 Гц и разрешении 16 бит. Каждый K отрезок разбивается на M фреймов
продолжительностью по 13,6 мсек, что соответствует 300 отсчетам ( N ).
Шаги 2-6 иллюстрируют нахождение дисперсии амплитуды РС S i для
каждого M фрейма:
70
Si 
1 N
 xik  x ,
N  1 k 1
где i - номер фрейма, (0  i  32) , xik - значение амплитуды на k -ом отсчете i -го
фрейма, x  128 , 1  xik  256 (под знаком суммы стоят отклонения от средней
линии), N - количество отсчетов в одном фрейме, N  300 .
На седьмом шаге выполняется расчет средних значений дисперсий
амплитуды РС S k :
Sk 
1 M
 Si ,
M i 1
где M - количество фреймов в одном K отрезке.
Шаги с 8 по 13 - каждому M фрейму присваиваются «+» и «-» значения:
«+», если
S i  S k и «-», если S i  S k . Границы между значениями «+» и «-»
принимаются за искомые границы выделения фонем.
Шаги с 14 по 20 - отслеживание смены знака отрезков, обнаружение
которого является критерием выбора границ фонем, т.е. данный блок позволяет
сделать вывод о нахождении межфонемного перехода. Процедура повторяется
для каждого K отрезка.
Во избежание ложных межфонемных переходов (границ), в алгоритме
устанавливается минимальный интервал фонемы - 25 мсек. Все границы,
расположенные на расстоянии менее установленного интервала, объединяются в
группы, верхней границей назначается переход по центру группы.
Для
реализации
математические
алгоритма
операции,
была
выполняемые
выбрана
среда
в процессе
MATLAB.
Все
работы программы,
формализованы на языке системы MATLAB непосредственно в программном
коде в виде m -файла. В программу загружается речевой образец, для которого
необходимо произвести сегментацию фонем. После прохождения программой
всех шагов алгоритма автоматически происходит разбиение исходного речевого
образца на фонемы (отдельные гласные и согласные звуки). Результаты
сегментации сохраняются в отдельных файлах в txt -формате для дальнейшей
работы с ними [78].
71
Результаты автоматической сегментации фраз приблизительно в 60-85 %
случаев близки к тем, что получены при экспертной ручной разметке [78]. В
целом, разработанный алгоритм автоматической генерации речевых объектов
позволяет проводить сегментацию участков речи, выделяя границы гласных и
согласных фонем, тем самым обеспечивая результаты, приемлемые для того,
чтобы применять его с целью формирования базы фонем дикторов из потока РС.
Вторая
часть
мультимодальной
базы
эмоций
представляет
собой
совокупность паттернов ЭЭГ ( ОВeeg ). Каждый паттерн ЭЭГ представляет собой
очищенный
от
аппаратно-физиологических
артефактов
участок,
продолжительностью в 12 секунд.
Для удаления артефактов из записи ЭЭГ в диссертации предложена
собственная разработка, на которую получено свидетельство о государственной
регистрации программы для ЭВМ («Автоматическая локализация аппаратнофизиологических артефактов электроэнцефалограмм») [72]. В работе [84] нами
предложен новый алгоритм автоматической локализации артефактов по глазным
отведениям (Fp2-A2, Fp1-A1), т.е. нахождения артефактов ЭОГ.
Артефакты разделяются по происхождению на две группы [25, 60]:
физические
Причина
(аппаратные)
возникновения
и
биологические
физических
(физиологические)
артефактов
состоит
в
артефакты.
нарушении
технических правил эксплуатации аппаратуры и регистрации ЭЭГ, а также в
несовершенстве
артефактов
оборудования.
обусловлена
Причина
дополнительной
возникновения
физиологических
регистрацией
функциональной
активности органов и систем организма помимо головного мозга. Причинами
могут служить вызванные потенциалы: 1 - движения и моргания глаз (ЭОГ); 2 мышечных сокращений (ЭМГ); 3 - мышц и проводящей системы сердца (ЭКГ);
4 - глотательных движений; 5 - кожно-гальванических рефлексов.
В среде MATLAB разработана программная реализация алгоритма,
основанного на методе сегментации кривых и предназначенного для локализации
артефактов ЭОГ из многоканальных сигналов ЭЭГ (рисунок 2.10).
72
Начало
11. Присутствие артефакта в j-ой эпохе
1. Загрузка ЭЭГ (формат *.ASCII)
12. Определение номеров эпох с
артефактами в i-ом отведении
2. Определение размерности ЭЭГ
(количество и длительность отведений)
ДА
13. Наличие
отведения
3. Выделение i-го отведения
НЕТ
4. Разбиение на эпохи (d=250 отсчетов)
14. Определение номеров эпох с
артефактами в каждом отведении
5. Выделение j-ой эпохи
15. Объединение всех отведений
6. Вычисление СКO(j) для j-ой эпохи
16. Удаление соответствующих эпох с
артефактами в каждом отведении
7. Наличие эпохи
17. Восстановление всех эпох без
артефактов в один вектор для каждого
отведения (матрица ЭЭГ)
ДА
НЕТ
8. Нахождение среднего значения
СКО(s) для i-го отведения
НЕТ
9. СКO(j)  СКО(s)
18. Определение размерности матрицы
ЭЭГ (длительность отведений)
19. Сохранение ЭЭГ (формат .ASCII)
ДА
10. Отсутствие артефакта в j-ой эпохе
Конец
Рисунок 2.10 – Алгоритм автоматической локализации артефактов ЭОГ
Работа алгоритма осуществляется следующим образом. По каждому
глазному отведению (временному ряду) с помощью специального расчетного
окна b , длина которого равна одной эпохе ( b  250 отсчетов, 1 сек), вычисляется
среднеквадратическое отклонение (СКО) амплитуды временного ряда [84]:
СКО( j )  N 1   lN1(xl -x )2 ,
где СКО( j ) - СКО для j -ой эпохи; xl - l -ый элемент j -ой эпохи; l  1, N ; N общее количество элементов в j -ой эпохе; x - ср. арифметическое j -ой эпохи.
73
Затем расчетное окно перемещается вправо на собственную длину и расчет
признака повторяется. Оценки признака СКО( j ) сравниваются с оценкой
среднего значения СКО по всему отведению ( СКО (s) ):
СКОi(s)  M 1  M
k 1 СКО (k ) ,
где k - номер эпохи в i -ом отведении; k  1, M ; M - общее количество эпох в i ом отведении; i  1, P ; P - общее количество отведений в ЭЭГ.
Алгоритм синхронно удаляет соответствующие эпохи (артефакты ЭОГ) во
всех отведениях ЭЭГ, для которых СКО ( j )  СКО ( s) хотя бы в одном из глазных
отведений.
Программа позволяет получать информацию о локализованных артефактах
ЭОГ из многоканального сигнала ЭЭГ (количество артефактов, графическое
представление восстановленной очищенной ЭЭГ и локализованных артефактов).
Программная реализация алгоритма подготавливает массивы данных ЭЭГ на
основе
предложенной
системы
дискретных
признаков,
использующей
характеристики каждой эпохи по всем отведениям (рисунок 2.11). В основу
признаков положены оценки значений СКО, дисперсии, амплитуды, частоты и
автокорреляционной функции временных рядов очищенной ЭЭГ [84].
Запись ЭЭГ
Отведения
...
…
…
Признаки по
эпохам
Рисунок 2.11 – Формирование оценок дискретных признаков по ЭЭГ
На рисунке 2.12 показан пример исходной ЭЭГ, продолжительностью
2500 отсчетов (10 секунд), содержащей артефакты ЭОГ в глазных отведениях
(Fp1-A1 (левом) и Fp2-A2 (правом)), выделенные экспертом, которые необходимо
при помощи разработанного алгоритма программно локализовать.
74
Рисунок 2.12 – Исходная ЭЭГ
В таблице 2.6 отображены результаты работы предложенного алгоритма.
Таблица 2.6 – Результаты локализации артефактов ЭОГ
Отведение
Эпохи
СКО( j )
СКО (s)
Отведение
Эпохи
СКО( j )
СКО (s)
Локализация
артефактов
1
78.3
1
76.7
2
199.2
2
196.0
3
71.6
3
57.2
4
47.3
Fp1-A1
5
6
164.3
82.7
7
60.5
8
54.1
9
264.4
10
58.8
4
78.6
108.1
Fp2-A2
5
6
123.9
57.5
7
48.4
8
78.1
9
217.0
10
57.6
99.1
Номера эпох с артефактами ЭОГ
2, 5, 9
Номера эпох без артефактов ЭОГ
1, 3, 4, 6, 7, 8, 10
На рисунке 2.13 приведены графические представления восстановленного
безартефактного сигнала ЭЭГ и локализованных артефактов ЭОГ.
Алгоритм автоматической локализации артефактов ЭОГ, основанный на
коррелированности СКО амплитуд по каждому глазному отведению ЭЭГ, с
высокой надежностью позволяет выделять артефакты и восстанавливать
очищенный сигнал.
75
а
б
Рисунок 2.13 – ЭЭГ с глазными отведениями Fp1-A1 и Fp2-A2:
а - восстановленная очищенная ЭЭГ; б - локализованные артефакты ЭОГ
Работоспособность предложенного алгоритма обнаружения артефактов
ЭОГ
доказана
на
реальных сигналах ЭЭГ.
Единственным
недостатком
предложенного алгоритма является то, что он приводит к потере некоторых
участков ЭЭГ (размером не более 1 сек). Это связано с тем, что вырезается весь
участок многоканального сигнала ЭЭГ, хотя артефакты ЭОГ проявляются, в
основном, только в глазных отведениях.
Выводы по главе 2
1.
Предложена
концепция
новой
интегрированной
БТС
для
исследования и мониторинга эмоций человека, ориентированная на обработку
БМС, поступающих от ограниченного числа биосенсоров (указанную систему
можно отнести к технологии Affective Computing).
76
2.
Предложены
принципы
построения
2-х
канальной
системы
БТС EEG/S, позволяющей осуществлять регистрацию речевых сообщений только
после обнаружения изменений в электрической активности головного мозга
испытуемого, вызванных восприятием соответствующих стимулов. БТС EEG/S
позволяет создавать сложные интегрированные эмоционально значимые стимулы
для испытуемого, затрагивая при этом его зрительный, акустический, тактильный
и/или обонятельный анализаторы.
3.
Разработана
новая
методика
проведения
экспериментов
для
регистрации и распознавания эмоциональных состояний человека, основанная на
субъективной и объективной оценках подтверждения наличия и изменения
эмоций у человека. Для объективного подтверждения изменения эмоциональных
реакций у испытуемого применяется регистрация его БМС: запись РС и
регистрация ЭЭГ, которая позволяет в реальном времени отслеживать изменения
в ЭЭГ при восприятии различных эмоционально значимых стимулов.
4.
Методика проведения экспериментов предоставляет возможность
предъявления испытуемому трех типов стимулов (акустический, визуальный и
обонятельный), тем самым задействовав у человека слуховой, зрительный и
обонятельный
анализаторы.
слабовыраженными
Методика
эмоциональными
позволяет
реакциями
также
работать
со
испытуемых (повышается
чувствительность к малым изменениям эмоционального состояния) и дает
возможность осуществлять регистрацию естественной (натуральной) речи без
сокрытия испытуемым эмоционального окраса речевых сообщений.
5.
Создана новая мультимодальная база эмоций, которая включает в себя
образцы двух типов БМС (РС и ЭЭГ), отображающих изменение эмоционального
состояния
испытуемого
при
предъявлении
ему
стимулов
различного
эмоционального окраса. Получено свидетельство о государственной регистрации
БД.
77
ГЛАВА 3 РАЗРАБОТКА МОДЕЛИ И АЛГОРИТМОВ ИНТЕРПРЕТАЦИИ
ЭМОЦИЙ ПО ЕСТЕСТВЕННОЙ РЕЧИ
Для построения модели интерпретатора эмоций (МИЭ), основанной на
интеграции БМС (ЭЭГ и РС), необходимо выделить количественные признаки,
которые демонстрировали бы одинаковую чувствительность к изменениям
эмоционального состояния испытуемого при анализе любого из этих сигналов.
Учитывая влияние эмоций на амплитуду и частоту БМС, для обработки и анализа
результатов исследований были выбраны методы спектрального анализа и методы
нелинейной динамики.
3.1 Влияние эмоционального состояния на спектральную плотность
мощности биомедицинских сигналов
Для описания зарегистрированных БМС (таблица 3.1) можно применять как
гомогенный, так и гетерогенный набор признаков, однако, в обоих случаях
необходимо учитывать амплитудно-частотный состав сигнала. Для этой задачи в
качестве разделяющих признаков могут быть использованы спектральные
характеристики, что обосновано наличием определенного частотного состава у
образцов РС и ЭЭГ с характерным эмоциональным окрасом.
Таблица 3.1 – Структура экспериментальной выборки сигналов
Сигнал
Выборка
Количество объектов
Cluster 1
Cluster 2
Cluster 3
Кластеры объектов
РС ( ОВ1speech)
ЭЭГ ( ОВeeg )
В
Обучающая выборка (ОВ)
Тестовая выборка (ТВ)
Обучающая выборка (ОВ)
Тестовая выборка (ТВ)
качестве
спектральных
{эмоции_-}
{нейтраль_N}
{эмоции_+}
50
37
30
50
29
24
30
50
31
39
30
50
характеристик
используются
отсчеты
78
спектральных плотностей мощностей (СПМ). Для нахождения СПМ использован
метод Уэлча, применяющий оконное быстрое преобразование Фурье [101, 102].
Каждый объект представляется вектором вида X  {x1 , x 2 , ..., x i , ..., x u } , где xu ордината спектра мощности на частоте f u  f  u ; xu - соответствует значению u
-го признака; f - шаг по частоте; f  f x / Fw; f x - частота дискретизации; Fw ширина окна быстрого преобразования Фурье. В исследовании использовалось
окно преобразования Хемминга (ширина 1024 для РС, ширина 128 для ЭЭГ).
Границы частотного диапазона для РС составляют 0-11 кГц, для ЭЭГ - 0-125 Гц.
Описание объекта выборки (таблица 3.1) представляется в следующем виде:
X(z)speech  {x1, x2 , ..., xk } , X(s)eeg  {x1, x2 , ..., xr }1, {x1, x2 , ..., xr }l ,
(3.1)
где X(z)speech , X(s)eeg - векторы признаков СПМ; Z - номер объекта РС; Z  1, 210
(фразы) или Z  1, 2100 (гласные фонемы); S - номер объекта ЭЭГ; S  1, 240 ; k номер признака СПМ для РС; k  1, 400 (шаг расчета СПМ составляет 11 Гц в
частотном диапазоне 1,1-5,1 кГц); r - номер признака СПМ для ЭЭГ; r  1, 41
(шаг расчета СПМ составляет 3 Гц в частотном диапазоне 0-125 Гц); l - номер
отведения ЭЭГ; l  1, 8 .
Исследования СПМ сигналов на основе нейроподобного иерархического
классификатора [97, 98, 101] показали возможность выделения интервалов
наиболее информативных признаков, позволяющих обеспечить хороший уровень
обобщения и уточнения описания объектов в кластерах. Для паттернов ЭЭГ
таковыми оказались признаки, получаемые из отведений правого полушария
(рисунок 3.1). Каждое из 8 отведений (отведение Fp2-A2 не анализируется)
описывается 41 признаком вида X(s)eeg (формула 3.1). Для РС наиболее
информативные
признаки
СПМ
находятся
в
диапазоне
1100-5100 Гц
(рисунок 3.2). В конечном итоге, каждый объект РС вида X(z)speech описывается
400 признаками (X100-X500), а представление объекта ЭЭГ вида
рассматривается вектором, состоящим из 328 признаков (X1-X328).
X(s)eeg
79
O2-A2, P4-A2, C4-A2, F4-A2, Fp2A2, T6-A2, T4-A2, F8-A2, Cz-A2
Рисунок 3.1 – Отведения ЭЭГ правого полушария головного мозга
Картина распределения образцов сигналов по признакам СПМ имеет
довольно сложную структуру. Для образцов РС (рисунок 3.2) и паттернов ЭЭГ
(рисунок 3.3) характерна ситуация множественного пересечения границ кластеров
на всем частотном диапазоне. С помощью классификатора созданы правила,
описывающие объекты РС и ЭЭГ (Cluster 1, 2, 3). Применение созданных правил
к ОВ и ТВ сигналов показано в таблице 3.2.
Таблица 3.2 – Классификации ЭЭГ и РС по признакам СПМ ( X(z)speech и X(s)eeg )
Сигнал
Выборка
Успешность классификации, %
Успешность классификации Cluster 1, %
Успешность классификации Cluster 2, %
Успешность классификации Cluster 3, %
ЭЭГ
ОВ
100
100
100
100
РС
ТВ
77
71
73
86
ОВ
100
100
100
100
ТВ
87
87
83
91
Полученные результаты исследований показали приемлемую точность
классификации образцов РС и паттернов ЭЭГ в соответствии со знаком
порождаемой эмоции (Cluster 1, Cluster 2, Cluster 3). Объединение результатов
классификации показывает, что неправильно классифицированные образцы РС и
паттерны ЭЭГ принадлежат одним и тем же людям. Безошибочно разделяются
два крайних класса (Cluster 1 и Cluster 3), ошибки возникают при попытке
разделить объекты из Cluster 1и Cluster 2 или объекты из Cluster 2 и Cluster 3.
80
80
70
60
50
40
30
20
0
100
200
300
400
сluster1
500
600
cluster2
700
800
cluster3
900
1000
54
50
46
42
38
100
150
200
250
сluster1
300
cluster2
350
400
cluster3
450
500
а - распределение вектора признаков X(z)speech в центре кластеров
65
60
55
50
45
40
35
30
100
150
200
250
min_сluster1
max_cluster2
300
350
max_сluster1
min_cluster3
400
450
min_cluster2
max_cluster3
б - распределение вектора признаков X(z)speech по кластерам
Рисунок 3.2 – Распределение признаков (X100-X500) в РС
(абсцисса - номер признака; ордината - СПМ, ус. ед. (3.1))
500
81
55
40
25
10
-5
-20
0
41
82
123
min_cluster1
max_cluster2
164
205
max_cluster1
min_cluster3
246
287
min_cluster2
max_cluster3
328
а - распределение вектора признаков X(s)eeg по кластерам
45
30
15
0
-15
0
41
82
123
cluster1
164
cluster2
205
246
cluster3
287
328
б - распределение вектора признаков X(s)eeg в центре кластеров
55
45
40
30
25
15
10
-5
0
-20
-15
42
52
62
72
82
42
52
62
72
82
Рисунок 3.3 – Распределение признаков (X1-X328) по 8 отведениям ЭЭГ
(абсцисса - номер признака; ордината - СПМ, ус. ед. (3.1))
На рисунке 3.4 приведены примеры дисперсий кластеров сигналов по
признакам СПМ. Положительные эмоции (cluster 3) характеризуются наибольшим
82
разбросом дисперсии спектров мощности, нейтральное состояние (cluster 3)
принимает в большинстве случаев минимальные значения дисперсии по СПМ.
Дисперсия
20
15
10
5
0
200
225
250
275
300
325
Номер признака
cluster1
cluster2
350
375
400
cluster3
Дисперсия
а - для РС (частотный диапазон 2,1-4,1 кГц)
40
35
30
25
20
15
10
5
0
0
5
10 15 20 25 30 35 40 45 50 55 60 65 70 75 80
Номер признака
cluster1
cluster2
cluster3
б - для ЭЭГ (на примере двух первых отведений F8-A2, F4-A2)
Рисунок 3.4 – Дисперсия кластеров по СПМ
Применение
методов
спектрального
анализа
позволяет
получить
следующие выводы: 1) при использовании аппарата СПМ наблюдается картина
множественного пересечения кластеров БМС [80]; 2) характерна одинаковая
сходимость результатов классификации объектов РС и ЭЭГ; 3) есть потребность в
изменении системы признаков (необходим переход к другому математическому
аппарату).
83
3.2 Изменение морфологии аттракторов биомедицинских сигналов,
зарегистрированных при различных эмоциональных реакциях
Направление
исследования
современной
нелинейных
математики,
динамических
ориентированное
систем,
называется
на
задачи
нелинейной
динамикой. Один из актуальных разделов нелинейной динамики - теория
динамического
(детерминированного)
хаоса.
Основоположниками
данного
раздела были такие ученые как А.М. Ляпунов, А.Н. Колмогоров, Ж.А.Пуанкаре и
др. [9, 35, 107].
В соответствии с правилами и установками нелинейной динамики,
динамическая система - система различной природы (физическая, химическая,
биологическая и т.д.), состояние которой изменяется во времени. Биосистема
рассматривается здесь как относительно детерминированная лишь в отдельные
промежутки времени [9, 65].
Методы нелинейной динамики используются в тех случаев, когда по
данным
можно
судить
об
устойчивых
и
последовательно
нелинейных
детерминистских свойствах. Присутствие в сигнале дополнительного шума
приводит к нарушению соотношений и вызывает ограничение прогноза. К
сожалению, стоит отметить тот факт, что большая часть реальных сигналов
(временных рядов) содержит одновременно как стохастические, так и нелинейные
составляющие. Исследовать такие случаи довольно затруднительно, применяя
известные методы нелинейной динамики. В таких ситуациях рекомендуется
использовать классические способы (например, спектральные методы анализа), а
методы нелинейной динамики применять только в тех случаях, когда
присутствуют доказательства нелинейности [9, 55, 65].
Изучение БМС по методам нелинейной динамики выполнялись различными
исследователями
и
учреждениями.
Большой
вклад
для
теории
анализа
одномерных рядов принадлежит таким ученым как Ф. Такенс, И. Прокаччиа,
П. Грассберг,
А.М. Фрайзер,
А. Вольф,
А. Реньи,
Н.Х. Паккард
и
др.
84
Исследования
ЭЭГ
на
основе
нелинейной динамики выполнены рядом
исследователей (А.А. Меклер, О.С. Борисова и др.) [9, 48, 49].
Особо
стоит
отметить
работы
А.Ф. Хроматиди,
Ю.С. Перервенко,
О.С. Борисовой, которые были выполнены на кафедре электрогидроакустической
и медицинской техники Южного федерального университета (г. Таганрог) под
руководством И.Б. Старченко [9, 55, 65, 104]. В данных работах доказана
возможность эффективного применения методов нелинейной динамики для
анализа РС (фраз и фонем) и ЭЭГ.
Стоит особо отметить тот факт, что неопределенность различных авторов
при использовании терминов нелинейной динамики привела к ситуациям, когда
даже
ведущие
специалисты
могут
иногда
применять
один
термин
в
противоположных смыслах. Поэтому в рамках диссертационной работы под
терминами нелинейной динамики понимаем следующее: пространство, заданное
для восстановления аттрактора по временному ряду методом задержки координат
- пространство вложения; множество точек, моделирующее (генерирующее)
исходный аттрактор - восстановленный аттрактор; проекция восстановленного
аттрактора на плоскость - реконструкция аттрактора.
Методы
нелинейной
динамики
основываются
на
определенной
математической теории. В основе этой теории лежит теорема Ф. Такенса [158].
Данная теорема позволяет подводить математическую основу теории под идею
авторегрессии и дает возможность восстановить (реконструировать) аттрактор на
основе временного ряда. Для реконструкции аттрактора временной ряд
x1 , x2 , ..., x N подвергается методу задержки координат (рисунок 3.5), т.е. в
фазовом
пространстве
строятся
реконструированные
векторы,
которые
получаются из элементов временного ряда [17]:
yn  ( xn , xn  ,..., xn  ( m 1) ), n  0,..., s  1, s  N  (m  1) ,
 - задержка по
лаг); m - размерность
где N - общее число элементов (точек) временного ряда;
времени между элементами временного ряда (временной
вложения (размерность лагового пространства).
(3.2)
85
Рисунок 3.5 – Временной ряд (а) (при N  6 ); реконструкция аттрактора (б)
(при 
 1, m  2)
При практической реализации реконструкции аттрактора исследователи
сталкиваются с проблемами. Проблемы возникают в большинстве случаев из-за
того,
что
длина
временных
рядов
ограничена
стационарностью
[17].
Стационарность временных рядов в нелинейной динамике - время, в течение
которого, показатели рядов не изменились, и исследуется одни и те же временные
ряды. Так, например, в работе Р.Э. Пащенко [135] доказано, что добавление
малого шума кардинально меняет всю динамику ряда при малых масштабах.
Количество информации, которое можно извлекать из конечных множеств
точек временных рядов ( N ), зависит от характеристик (свойств) поверхностей
аттракторов, а также от свойств функций, основавших и породивших аттракторы.
Однако, при реконструкции аттрактора его свойства поверхности и функции
неизвестны (априорно неизвестны), вследствие конечные оценки свойств
реконструкции аттрактора сделать проблематично или вообще невозможно.
Можно только разумно распорядиться несколькими параметрами - задержкой по
времени ( ) и размерностью вложения ( m ).
При
реконструкции
аттрактора
необходимо
корректно
определять
86
оптимальные значения параметров
N, m и
(3.2). Анализ литературы [17, 35,
44, 48, 49, 55, 65, 104, 107, 118, 120, 123, 124, 138, 142] показал, что существует
большое количество рекомендаций и способов по выбору оптимальных
(приемлемых) значений данных параметров, но не существует универсальных
методов, позволяющих определить их оптимальные значения. Вследствие этого, в
диссертационной работе использовались различные комплексные методы выбора
указанных параметров.
Анализ вышеуказанных работ по выбору значения
большинство
исследователей
вычисляют
оптимальные

показал, что
значения
данного
параметра на основе определения следующих характеристик временного ряда:
1. Автокорреляционной функции.
2. Средней взаимной информации между двумя измерениями.
3. Спектра мощности.
В диссертационной работе нами использовались только первые два способа.
При выборе значения временной задержки  используется идея о том, что
если
точки,
образующие
временной
ряд,
взаимно
независимые,
то
реконструированные векторы (3.2) совмещают в себе максимальное количество
информации о временном ряде. Необходимо выбирать

таким образом, чтобы
корреляция между xn и xn1 элементами временного ряда была минимальной.
Данный выбор осуществляется при определении автокорреляционной функции
(временная задержка

соответствует значению времени, когда происходит
первое пересечение нуля автокорреляционной функцией (рисунок 3.6) [17]:
B ( )  1 k kk 10 ( xn  x )  ( xn1  x ), k  N   ,
где
x
- математическое ожидание.
Существует альтернатива указанному методу - использование функции
средней взаимной информации, отражающей связь (линейную, нелинейную)
между двумя переменными.
87
Рисунок 3.6 – Выбор оптимального значения задержки по времени  с помощью
автокорреляционной функции на примере образца РС
Значение временной задержки

при применении функция средней
взаимной информации выбирается по шкале абсцисс при достижении первого
минимума на кривой [17, 44, 48, 49], характеризующей значения средней
взаимной информации (рисунок 3.7):
I ( )  i , j pij ( ) ln( pij ( ) / pi p j ) ,
где pi - вероятность попадания элемента временного ряда в i -ый интервал; p j вероятность попадания элемента временного ряда в j -ый интервал; pij ( ) совместная вероятность попадания одного элемента временного ряда в i -ый
интервал, а другого элемента, взятого с задержкой  - в j -ый интервал.
Исследования по определению значений параметра

, проведенные в
диссертационной работе, показали, что каждый из вышеуказанных способов
расчета задержки может выдавать различные значения искомой величины
(разброс может быть минимальным либо же колоссально большим). Полученные
результаты не противоречат выводам, полученным в работах [17, 55, 49, 65].
Параметр временной задержки

оказывает существенное влияние на
форму (морфологию) реконструкции аттрактора. В работе [135] подобное влияние
рассмотрено на примере искусственного гармонического сигнала. На рисунке 3.8
88
показаны реконструкции аттракторов гармонического сигнала (синусоидальное
колебание единичной амплитуды и произвольной частоты), построенные при
различных значениях параметров задержки ( 1   2   3   4 ).
Рисунок 3.7 – Выбор оптимального значения задержки по времени  с помощью
функции средней взаимной информации на примере образца РС
Рисунок 3.8 – Реконструкции аттракторов гармонического сигнала:
1 (а),  2 (б),  3 (в),  4 (г) (Пащенко, 2009)
89
Форма аттрактора (рисунок 3.8) синусоидального сигнала при варьировании

изменяется существенно, окружность преобразуется в эллипс и даже может
вырождаться в прямую. При этом поворот (влево или вправо) и величина малой
полуоси эллипса (расширение или сжатие) также зависит от времени задержки
.
На рисунке 3.9 приведены реконструкции аттракторов реального образца
РС при различных значениях временной задержки (  5 ,   50 и   500 ).
Рисунок 3.9 – Реконструкции аттракторов образца РС (абсцисса - Xn, отсчеты;
ордината - Xn+ τ, отсчеты):   5 (а),   50 (б),   500 (в)
Установлено, что от правильного выбора значений

будет существенно
зависеть конечный вид реконструкции аттрактора. При малых значениях

реконструкция аттрактора спрессовывается вдоль главной диагонали (может
вырождаться в прямую линию), возникают ложные соседи в реконструкции, и
становится проблематичным исследование деталей аттрактора на мелких
масштабах. При больших значениях  реконструкция аттрактора растягивается и
90
складывается на некоторых масштабах. На этих масштабах исследуется уже не
структура множества точек аттрактора, а структура полученных складок.
Полученные в диссертационной работе результаты по изучению влияния на

реконструкцию аттрактора значений величины
согласуются с результатами,
приведенными в работах [17, 44, 48, 49].
Для определения оптимального значения параметра
m
используют
способы, основанные на вычислении: 1) корреляционного интеграла; 2) ложных
ближайших соседей; 3) собственных значений матрицы ковариации.
В диссертационной работе применялись только первые два способа.
Величина размерности вложения
m
может быть определена посредством
поиска ложных ближайших соседей (false nearest neighbors, FNN ). Для
вычисления
относительного
количества
FNN
применялся
алгоритм,
предложенный в работе [138]. Выбираются две соседние точки реконструкции
аттрактора ( xi и x j ) для вычисления расстояния между ними, далее определяется
расстояние между следующими двумя точками xi 1 и x j 1 . Вычисляется
отношение
между
этими
величинами:
K  xi1  x j 1 / xi  x j
[17].
Если
полученное значение K превышает некоторое пороговое, то точки xi и x j можно
считать ложными ближайшими соседями (рисунок 3.10).
Иная альтернатива этому методу - определение необходимой величины
m
с позиции достаточности (насыщения), используя определение значений
корреляционного интеграла C( ) и корреляционной размерности D2 [17, 118,
120,
124,
125,
138].
Корреляционный
интеграл
C( ) ,
отображающий
относительное количество пар точек аттрактора xi , x j , располагающихся на
расстоянии не большем  , определяется как [17]:
C ( )  lim 1 M ( M  1)   iM, j 1 (  r ( xi , x j )), r ( xi , x j )   m
k 1 ( xik - x jk )/m ,
M 
D2  lim log C ( ) log  ,
 0
где i, j  1,..., M ; M - число рассматриваемых состояний xi (количество точек xi
91
на аттракторе); r - расстояние между точками аттрактора;  - размер ячейки
разбиения аттрактора;  ( ) - ступенчатая функция Хевисайда.
После нахождения C( ) и D2 , строится зависимость корреляционной
размерности D2 от размерности вложения
m,
определяется точка, при которой
кривая наклонов насыщается (рисунок 3.11): корреляционная размерность
составляет 3.6 ( D2  3.6 ), она достигается при размерности, равной 5 ( m  5 ).
Рисунок 3.10 – Выбор оптимального значения размерности вложения
m
с
m
с
помощью метода поиска FNN на примере образца РС
Рисунок 3.11 – Выбор оптимального значения размерности вложения
помощью корреляционной размерности на примере образца РС
92
Алгоритм расчета значений параметра
m
посредством достаточности был
предложен в 1983 г. П. Грассбергом, И. Прокаччиа [124, 125]. С того времени это
один из самых популярных алгоритмов нелинейной динамики.
На настоящий момент известны разнообразные критерии [17, 118, 120, 138,
142] по оценке минимальной длины временного ряда N . Согласно данным
критериям, временной ряд должен желательно содержать приблизительно N  10 5
значений. Данное условие в большинстве случаев удовлетворить затруднительно,
поэтому обычно вводят дополнительные модификации. Одной из подобных
модификаций является окно Тейлера, суть которого заключается в том, что точки,
которые расположены во временном ряду близко друг к другу, оказываются
скоррелированными.
систематическим
интеграла.
Во
При
ошибкам
избежание
конечности
при
временного
определении
подобных
ряда
это
значений
ситуаций,
в
приводит
к
корреляционного
процессе
вычисления
корреляционного интеграла нужно не брать в расчет точки, которые расположены
во временном ряду на расстоянии меньшем, чем  шагов (величина  называется
окном Тейлера). В работе [17] указана рекомендуемая    и минимальная
величина этого окна -    (2 / N ) 2 / m .
Исследования, проведенные в диссертационной работе, показали, что
рекомендуемое значение величины окна Тейлера может быть слишком
завышенным или недостаточным. В подобных случаях не существует гарантии,
что модификация алгоритма компенсирует малую длину временного ряда.
В работах [55, 65, 104] приводятся результаты исследований фонем речи
методами
нелинейной
динамики.
Доказана
и
обоснована
возможность
использования аппарата аттракторов для анализа фонем РС.
Таким образом, процесс реконструкции аттрактора можно представить в
виде последовательности следующих этапов (рисунок 3.12) [126]:
Этап 1. Выбор и загрузка паттерна сигнала (фраза, фонема или паттерн
ЭЭГ), преобразование временного ряда (переход в отсчеты).
Этап 2.
Определение
задержки
по
времени

между элементами
93
временного ряда.
Этап 3. Нахождение размерности вложения
m.
Этап 4. Реконструкция аттрактора временного ряда, преобразование
аттрактора (переход к двухмерной или трехмерной проекциям).
Рисунок 3.12 – Реконструкция двухмерной проекции аттрактора по паттерну ЭЭГ
Учитывая проведенные ранее исследования [55, 65], в диссертационной
работе для обработки БМС использованы размерности вложения m  2 и m  3 ,
94
что приводит к построениям двухмерных и трехмерных проекций аттракторов
паттернов ЭЭГ, а также соответствующих речевых образцов.
На рисунке 3.13 и рисунке 3.14 приведены примеры проекций аттракторов
РС и паттернов ЭЭГ, взятых из мультимодальной базы эмоций (см. таблица 2.5).
  20
  15
Контрольные речевые фразы (при m  3 )
  79
  40
ЭЭГ (отведение F4-A2 при m  3 )
Cluster 1 {эмоции_-}
Cluster 3 {эмоции_+}
Рисунок 3.13 – Трехмерные проекции аттракторов
(абсцисса - Xn, ус. ед.; ордината - Xn+ τ, ус. ед.; аппликата - Xn+2τ, ус. ед.)
95
Рисунок 3.14 – Двухмерные проекции аттракторов русских фонем «и», «о» и «у»:
а - Cluster 3 {эмоции_+}; б - Cluster 2 {нейтраль_N} (абсцисса - Xn, отсчеты;
ордината - Xn+τ, отсчеты (при m  2 ))
Как показала практика, в некоторых случаях при интерпретации эмоций
человека по его БМС имеется возможность визуального разделения морфологий
проекций аттракторов как первого (по речевым фразам и фонемам), так и второго
(по паттернам ЭЭГ) типа на три группы в соответствии со знаком порождаемой
эмоциональной реакции испытуемого, т.е. наблюдается взаимосвязь геометрии и
частотного состава (плотности) аттрактора с состоянием эмоционального
возбуждения человека.
Стоит
особо
выделить
тот
факт,
что
для
большинства
случаев
интерпретации аттракторов характерна ситуация, когда подобное визуальное
разделение весьма затруднительно либо вообще невозможно. В связи с этим есть
потребность в создании системы количественной оценки проекций аттракторов
(их геометрии (морфологии), площади и плотности).
96
3.3 Алгоритмы для оценки морфологических признаков аттрактора
Наблюдается различная зависимость форм и размеров аттракторов,
реконструированных по БМС,
показывающих изменение
эмоционального
состояния человека, причем эти изменения тем значительнее, чем сильнее
реакция испытуемого на предъявляемые стимулы.
В диссертационной работе разработана система по количественной оценке
двухмерных проекций аттракторов БМС [69, 70, 81, 82]. Для оценки вариаций
проекций аттракторов предлагается использовать новые признаки: 1) длины
максимальных векторов R, описывающих контуры двухмерных проекций
аттракторов и характеризующих БМС по амплитудному составу; 2) плотность
траекторий двухмерных проекций аттракторов
 , отражающих варьирование
частотного состава в БМС.
3.3.1 Максимальные векторы аттрактора
Алгоритм определения максимальных векторов двухмерных проекций
аттрактора R позволяет существенно снижать размерность описаний БМС (фраз,
фонем или паттернов ЭЭГ) и позволяет осуществлять количественно сравнение
самих аттракторов, оценивая изменения их контуров (форм, морфологий).
Для формализованного описания двухмерных проекций аттракторов БМС
i, j
, i  1, 3, j  1, 4 ),
будет достаточно четырех однородных признаков ( Rmax
каждый из которых можно рассматривать как длину вектора, описывающего
фрагмент контура аттрактора в пределах j-го квадранта в i-ой проекции. Модель
может быть расширена дополнительным признаком, характеризующим среднюю
i
по четырем квадрантам оценку векторов ( R max ) [69].
Алгоритм нахождения максимальных векторов R основан на разбиении
трехмерного аттрактора на три двухмерных проекции xn  xn  , xn  xn  2 ,
97
xn   xn  2 . Для определения размеров контура проекции аттрактора его
двухмерная проекция условно разделяется на четыре квадранта, в каждом из
которых определяется вектор максимальной длины (рисунок 3.15). На основе
таких оценок по 4-м квадрантам находится усредненный вектор для одной ( i -ой)
i
проекции Rmax :
i
i,j
i,j
Rmax
 0,25 4j 1 Rmax
, Rmax
 max { xh2  xh2 τ } ,
где xh , xh  - значения временного ряда в h -ый и h   -ый моменты времени; i номер проекции; i  1, 3 ( i  1 при xn  xn  ; i  2 при xn  xn  2 ; i  3 при
xn   xn  2 ); j - номер квадранта проекции; j  1, 4 .
.1
Рисунок 3.15 – Определение значения максимального вектора R1max
в первом
квадранте проекции xn  xn  аттрактора
Таким образом, алгоритм определения максимальных векторов аттрактора
можно представить в виде последовательности следующих шагов:
Шаг 1. Реконструкция аттрактора БМС, переход к двухмерным проекциям
( xn  xn  , xn  xn  2 , xn   xn  2 ).
1.1
.4
1
Шаг 2. Проекция xn  xn  : поиск векторов Rmax
 R1max
, Rmax
.
98
2.1
2.4
2
Шаг 3. Проекция xn  xn  2 : поиск векторов Rmax
 Rmax
, Rmax
.
3. 1
3. 4
3
Шаг 4. Проекция xn   xn  2 : поиск векторов Rmax
 Rmax
, Rmax
.
i. j
i
Шаг 5. Формирование вектора признаков БМС: ( Rmax
, Rmax
).
Получено свидетельство о государственной регистрации программы для
ЭВМ («Интерпретатор двухмерных проекций аттракторов биоэлектрических
сигналов») [71].
Используя
вышеприведенный
алгоритм,
описание
каждого
объекта
созданной мультимодальной базы эмоций (см. таблица 2.5) представляется в виде:
1.1
1.4
1
2.1
2.4
2
3.1
3.4
3
A(z)speech  {Rmax
 Rmax
, Rmax
, Rmax
 Rmax
, Rmax
, Rmax
 Rmax
, Rmax
} ,
.1
1.4
1
2.1
2.4
2
3.1
3.4
3
{R1max
 Rmax
, Rmax
, Rmax
 Rmax
, Rmax
, Rmax
 Rmax
, Rmax
}1 ,
A(s)eeg
.1
1.4
1
2.1
2.4
2
3.1
3.4
3
{R1max
 Rmax
, Rmax
, Rmax
 Rmax
, Rmax
, Rmax
 Rmax
, Rmax
}2 ,

,
...
1.1
.4
1
2.1
2.4
2
3.1
3.4
3
{Rmax
 R1max
, Rmax
, Rmax
 Rmax
, Rmax
, Rmax
 Rmax
, Rmax
}l
(3.3)
i,j
где A(z)speech , A(s)eeg -векторы признаков аттрактора по РС и ЭЭГ; Rmax - длина
максимального вектора
i
j -го квадранта i -ой проекции; Rmax
- длина
усредненного вектора i -ой проекции аттрактора; Z - номер объекта РС; Z  1, 266
(фразы) или Z  1, 2660 (гласные фонемы); S - номер объекта ЭЭГ; S  1, 240 ; l номер отведения ЭЭГ; l  1, 8 .
Анализ
паттернов
ЭЭГ
проводился
по
наиболее
информативным
отведениям (8 отведений правого полушария, глазное отведение Fp2-A2 не
анализировалось) (см. рисунок 3.1).
Таким образом, в соответствии с (3.3), каждый объект РС вида A(z) speech
i. j
i
описывается 15 признаками (( Rmax
, Rmax
) или (R1-R15)), а каждый объект ЭЭГ
вида A(s)eeg - 120 признаками (R1-R120).
i. j
i
Переход в новое признаковое пространство ( Rmax
, Rmax
) позволяет
получить оценки образцов РС, которые количественно иллюстрируют тенденции
99
в изменении морфологий (размеров контуров) проекций аттракторов при
изменении валентности эмоций. Аналогичные результаты получаются при
анализе выборки моделей аттракторов, построенных по сигналам ЭЭГ.
Исследования проекций искусственных гармонических сигналов, а также
i. j
i
реальных БМС позволили выявить изменения значений векторов ( Rmax
, Rmax
)
проекций аттрактора
в зависимости
от амплитуды и
частоты сигнала
(рисунок 3.16).
Рисунок 3.16 – Проекция аттрактора ( xn  xn  ) временного ряда функции
y  sin x (абсцисса - Xn, отсчеты; ордината - Xn+τ, отсчеты):
а - постоянная амплитуда (L1-L4); б - различная амплитуда (L1-L4)
100
На рисунке 3.16 приведены примеры проекции аттрактора ( xn  xn  )
гармонического сигнала временного ряда функции y  sin x с постоянной
единичной амплитудой на 4-х интервалах сигнала (L1-L4) с соответствующими
частотами 100, 1000, 2000 и 5000 Гц (рисунок 3.16, а) и с различной амплитудой
на всех интервалах сигнала (рисунок 3.16, б). Для интервалов сигнала (L2-L4)
(рисунок 3.16, б), на которых произошло снижение амплитуды сигнала, визуально
i. j
i
наблюдается закономерность уменьшения значений векторов ( Rmax
, Rmax
) в
проекции ( xn  xn  ) аттрактора. Аналогичные изменения характерны и для
проекций ( xn  xn  2 , xn   xn  2 ).
На рисунке. 3.17 показаны примеры проекции ( xn  xn  ) аттрактора РС.
Рисунок 3.17 – Модельные данные
(абсцисса - Xn, отсчеты; ордината - Xn+τ, отсчеты):
а - исходный временной ряд РС; б - проекция ( xn  xn  ) по интервалам L1 и L2
101
Временной ряд РС содержит два интервала (L1, L2), отличающихся
амплитудой. Для интервала L2 с малой амплитудой, визуально характерны
i. j
i
минимальные значения максимальных векторов ( Rmax
, Rmax
).
i. j
i
Количественная оценка изменения значений векторов ( Rmax
, Rmax
) в
зависимости от амплитуды и частоты проведена на примерах искусственного
гармонического
сигнала
функции
y  sin x
(приложение 2,
рисунок 5.2,
i. j
i
рисунок 5.3). Продемонстрированы изменения значений векторов ( Rmax
, Rmax
)
проекций аттрактора для двух синусоидальных сигналов с постоянной частотой
100 Гц и произвольной амплитудой (рисунок 5.2) и для двух синусоидальных
сигналов с постоянной амплитудой и произвольной частотой (100 Гц и 400 Гц)
(рисунок 5.3).
Таким образом, в ходе исследований экспериментально установлено, что
i. j
i
значения максимальных векторов ( Rmax
, Rmax
) проекций аттрактора ( xn  xnt ,
xn  xn2t , xnt  xn2t ) прямо пропорционально зависят от амплитуды исходного
временного ряда БМС, на основе которого осуществляется реконструкция
i. j
i
аттрактора. На значения векторов ( Rmax
, Rmax
) почти не оказывает влияние
варьирование сигнала в частотном диапазоне.
3.3.2 Плотность траекторий аттрактора
Алгоритм определения плотности траекторий (  ) проекции аттрактора дает
возможность уменьшать размерность описания БМС и позволяет проводить
анализ площади и плотности траекторий реконструированного аттрактора.
Для определения плотности траекторий

каждая из проекций аттрактора
xn  xn  , xn  xn  2 , xn   xn  2 покрывается регулярной сеткой с шагом
  const . На основе сеточной модели формируется матрица плотностей
траекторий проекции Mγ  γ N, M , N, M  14 (рисунок 3.18).
102
Столбец
Строка
1
2
…
M
1
γ1,1
γ1,2
…
γ1,M
2
γ2,1
γ2,2
…
γ2 ,M
…
…
…
…
…
N
γN,1
γN,2
…
γN,M
Рисунок 3.18 – Матрица плотностей траекторий проекции аттрактора Mγ
( i - номер строки матрицы Mγ ; i  1, N ; j - номер столбца матрицы Mγ ; j  1, M )
На основе сеточной модели можно оценить плотность траекторий и
площадь проекции аттрактора [59, 99, 100]. Регулируя параметр  , можно
изменять количество ячеек (L) на проекции аттрактора, подстраивая  таким
образом, чтобы получить целое число ячеек в каждом ряду и столбце сетки.
Путем пробных расчетов на множестве проекций аттракторов речевых
сигналов и ЭЭГ, взятых из мультимодальной базы эмоций (см. таблица 2.5),
установлено, что при   100 отсчетов, число ячеек Mγ составляет L  196.
Учитывая спиральную траекторию проекции аттрактора, очевидно, что в
каждую ячейку матрицы плотностей будет попадать различное число точек
аттрактора. Для оценки этого показателя вводится характеристика плотность
аттрактора на i,j-ом участке проекции (  i, j ). Для каждой i, j -ой ячейки
определяется число точек, попавших внутрь ( hi , j ). Количество точек
( ri 1, j , ri 1, j , ri , j 1 , ri , j 1 ), оказавшихся на границе ячеек i, j -ой и i  1, j -ой;
i  1, j -ой; i , j  1 -ой; i , j  1 -ой, соответственно, делится поровну между
граничными ячейками. Отношение числа точек проекции, связанных с ячейкой
Pi , j  hi , j  ri 1, j / 2  ri 1, j / 2  ri , j 1 / 2  ri , j 1 / 2 к ее площади ( S i , j   2 )
условно определяется как плотность проекции на i, j -ом участке  i , j  Pi , j / Si , j .
Существует
эмпирическое
ограничение
для
нахождения
плотности
103

траекторий
, заключающееся в том, что должно соблюдаться следующее
условие 4 S i , j  S all ( S all - площадь всех ячеек проекции аттрактора).
Для любой проекции аттрактора получается график распределения
характеристики

1
0
0
0
0
0
0
0
0
0
0
0
0
0
0

1
2
3
4
5
6
7
8
9
10
11
12
13
14
в зависимости от номеров ячеек (рисунок 3.19).
2
0
0
0
0
0
1
0
0
0
0
0
0
0
0
3
0
0
0
0
1
1
1
1
0
0
0
0
0
0
4
0
0
0
1
2
5
8
5
6
4
0
0
0
0
5
6
7
8
9 10 11 12 13 14
0
0
0
0
0
0 0 0 0 0
0
1
0
0
1
0 0 0 0 0
1
1
0
0
1
0 0 0 0 0
1
6
6
8
7
3 0 0 0 0
11 26 58 39 25 9 3 0 0 0
19 86 131 142 95 42 9 0 2 0
38 119 256 213 129 46 5 2 0 0
39 130 219 226 156 45 6 1 0 0
21 68 115 144 78 19 4 0 0 0
7 22 28 34 29 7 4 0 0 0
1
4
14
6
4
0 0 0 0 0
0
0
2
1
1
0 0 0 0 0
0
0
1
1
0
0 0 0 0 0
0
0
0
0
0
0 0 0 0 0
Плотность
траекторий, ус. ед.
300
250
200
150
100
50
0
0
14
28
42
56
70
84
98 112 126 140 154 168 182 196
Номер ячейки
Количество нулевых ячеек: k 0  118
Рисунок 3.19 – График распределения плотности  (на примере паттерна ЭЭГ)
Применение сеточной модели позволяет выполнить «грубую» оценку
площади траекторий проекции аттрактора в виде:
1, при  N ,M  0
k 0  196  rS N ,M , r  
.
0
,
при


0
N ,M

104
Счетчик
k0
морфологических
рассматривается
характеристик
как
аттрактора,
дополнительный
характеризующий
признак
количество
нулевых ячеек в Mγ , т.е. показывающий равномерность заполнения проекции
аттрактора.
Получено свидетельство о государственной регистрации программы для
ЭВМ («Оценка и анализ площади проекции аттрактора временного ряда») [86].
Таким образом, алгоритм оценки плотности траекторий

по площади
проекции аттрактора включает следующие шаги:
Шаг 1. Реконструкция аттрактора БМС, переход к двухмерным проекциям
( xn  xn  , xn  xn  2 , xn   xn  2 ).
Шаг 2. Наложение регулярной сетки (настройка параметра
 ).
Шаг 3. Нахождение плотностей траекторий всех ячеек матрицы Mγ (  i, j ).
Шаг 4. Суммирование плотностей траекторий по 4-м центральным ячейкам
матрицы Mγ (  _ i ).
Шаг 5. Определение количества нулевых ячеек (счетчик k0 _ i ).
Шаг 6. Формирование вектора признаков БМС: (  _ i , k0 _ i , i  1, 3 ).
Оценка изменения плотности траекторий

и количества нулевых ячеек k 0
проекций аттрактора в зависимости от изменения амплитудно-частотной
составляющей сигнала проведена на образцах РС. Количественная оценка
изменения значений

и k 0 проиллюстрирована на примере двух образцов РС
(приложение 3, рисунок 5.4, рисунок 5.5).
Результаты по слежению за характеристиками

и k 0 в ситуации, когда
исходные сигналы имеют произвольную амплитуду и одинаковый частотный
диапазон, показывают, что плотность траекторий
амплитуде сигнала (наблюдается возрастание
сигнала и убывание



обратно пропорциональна
при снижении амплитуды
при увеличении амплитуды сигнала). В ситуации, когда
сигналы имеют произвольный частотный диапазон, наибольшие значения

105
принимает для образца сигнала с более высокочастотным составом.
Экспериментально установлена взаимосвязь количества нулевых ячеек k 0 с
амплитудой и частотой сигнала. Характеристика k 0 обратно пропорциональна
амплитуде сигнала (чем выше амплитуда сигнала, тем больше ячеек матрицы Mγ
будет задействовано в процессе вычисления

). На характеристику k 0
практически не оказывает влияние варьирование частотного состава сигнала.
3.4 Модель интерпретатора эмоций на основе нечетких оценок
характеристик биомедицинских сигналов
Модель интерпретатора эмоций (МИЭ) на основе нечетких оценок
характеристик БМС позволяет отслеживать изменение эмоционального состояния
человека под воздействием оказываемых на него различных факторов. При ее
создании мы исходим из следующих требований: 1) модель должна быть
ориентирована на интервальные оценки параметров БМС; 2) в состав модели
включаются только те компоненты, которые необходимы для вывода информации
об эмоциональном состоянии человека в определенный момент времени ( ti ) и
для прогнозирования изменения его эмоционального состояния ( ti  ).
Анализ
работ
в
области
психофизиологических
исследований
и
формализованного описания эмоций [29, 36, 46, 57, 133, 134, 155, 156] показал,
что в большинстве случаев основными компонентами, характеризующими
проявление эмоций в БМС, являются: знак (валентность) эмоций ( Z ); уровень
(сила проявления) эмоций в БМС ( U ).
Однако эти два компонента не отражают полностью картину изменения
БМС по мере развития процесса эмоционального возбуждения. Эксперименты
показывают [78, 82, 83, 103], что при снятии внешнего стимула эмоциональный
отклик, проявляющийся в БМС (РС, ЭЭГ и т.п.), ослабевает. Следовательно,
логично предположить, что изменение эмоционального состояния должно
106
развиваться во времени, поэтому в предлагаемую МИЭ необходимо включить
третий компонент - динамику эмоционального отклика ( D ), т.е. характер
изменения эмоции на протяжении регистрируемого интервала времени.
Базовой основой алфавита для представления компонентов МИЭ являются
морфологические
признаки
двухмерных
проекций
аттракторов,
которые
представлены в информационной модели паттерна БМС (рисунок 3.20).
Информационная
модель
паттерна
БМС
отражает
взаимосвязь
морфологических признаков аттрактора:
i, j
i
МПБМС  Rmax
,  Rmax
,   _ i ,  k0 _ i  ,
где i  1, 3 ;
(3.4)
i, j
j  1, 4 ; Rmax - максимальный вектор j -го квадранта i -ой
i
проекции аттрактора; Rmax - усредненный вектор i -ой проекции аттрактора;
 _i
- суммированная плотность траекторий по 4-м центральным ячейкам i -ой
проекции аттрактора; k 0 _ i - количество нулевых ячеек i -ой проекции аттрактора.
Учитывая физическую природу подобных характеристик, интерпретацию:
1)
знака
( Z )
эмоций
будем
формировать
с
использованием
i
максимальных векторов Rmax ;
2)
уровня эмоционального отклика ( U ) - с помощью обобщенной оценки
плотности траекторий аттрактора
3)
;
динамики эмоционального отклика ( D ) - на основе обобщенной
оценки количества нулевых ячеек
k 0 в матрице Mγ плотности аттрактора.
Учитывая существенную вариабельность оценок компонентов модели (3.4),
в связи с индивидуальными различиями испытуемых в МИЭ целесообразно
использовать лингвистические переменные (ЛП) для описания основных
характеристик эмоций.
107
Паттерн БМС
Реконструкция аттрактора ( m  3 )
Двухмерные проекции
аттрактора ( m  2 )
Морфологические признаки
аттрактора
xn  xn :
1 .1
1.2
1.3
1.4
1
( Rmax
, Rmax
, Rmax
, Rmax
, Rmax
)





_1


k
0
_
1


xn  xn 2 :
2.1
2 .2
2 .3
2 .4
2
( Rmax
, Rmax
, Rmax
, Rmax
, Rmax
)


 _2




k
0
_
2


xn  xn 2 :
3.1
3 .2
3 .3
3 .4
3
( Rmax
, Rmax
, Rmax
, Rmax
, Rmax
)


 _3




k
0
_
3


i, j
МПБМС  Rmax
,
i
 Rmax
,
____
____
  _ i ,  k0 _ i ; i  1, 3 ; j  1, 4
Рисунок 3.20 – Обобщенная структура информационной МПБМС
108
В сложившейся ситуации для описания БМС создана система признаков по
ЛП. Для анализа и интерпретации БМС использован математический аппарат
нечеткой логики (нечетких множеств):
1
[y1:: ЛП1] - лингвистическая переменная «длина усредненного вектора Rmax »,
найденного по 1-ой проекции аттрактора xn  xn  .
[y2, y3:: ЛП2, ЛП3]
-
аналогичные
2
лингвистические
переменные
«длин
3
усредненных векторов Rmax и Rmax », вычисленных по 2-ой ( xn  xn  2 ) и 3-ей
( xn   xn  2 ) проекциям аттрактора.
[y4:: ЛП4] - лингвистическая переменная «относительное изменение плотности
траекторий
d
», найденное по 4-м центральным ячейкам матрицы Mγ для 1-ой
проекции аттрактора xn  xn  (при положительных эмоциях).
[y5:: ЛП5] - аналогичная лингвистическая переменная «относительное изменение
плотности траекторий
d
» (при отрицательных эмоциях).
[y6:: ЛП6] - лингвистическая переменная «приращение числа нулевых ячеек
dk 0 _ 1 », определенное по 1-ой проекции аттрактора xn  xn 
(при
положительных эмоциях).
[y7, y8:: ЛП7, ЛП8] - аналогичные лингвистические переменные «приращений
dk 0 _ 2 и dk 0 _ 3 », вычисленных по 2-ой ( xn  xn  2 ) и 3-ей ( xn   xn  2 )
проекциям аттрактора (при положительных эмоциях).
[y9, y10, y11:: ЛП9, ЛП10, ЛП11] - лингвистические переменные «приращений dk 0 _ 1 ,
dk 0 _ 2 , dk 0 _ 3 », определенных по 1-ой ( xn  xn  ), 2-ой ( xn  xn  2 ) и 3-ей
( xn   xn  2 ) проекциям аттрактора (при отрицательных эмоциях).
Тогда формализованное представление МИЭ в БМС примет вид [99. 100]:
МИЭ 
i
i
i
{Rmax
, {T Rmax
},
μ(T
R
); d , {Tdγ _ i },  (Td  );
max
_i
dk 0 , {Tdk 0 _ i }, μ(Tdk 0 )}
,
(3.5)
109
i
i
Rmax
(«малый» TRmax _ 1 ,
i
где {T Rmax _ i } - терм-множество для оценки признака
i
i
i
μ(TRmax
) - функции принадлежности
«средний» TRmax _ 2 , «большой» TRmax
_ 3 );
нечетких
подмножеств
универсального
множества
([5000; 45000] - для речи; [80; 700] - для ЭЭГ);
оценок
i
Rmax
[ A; B]
{Tdγ_ i } - терм-множество для
оценки изменения dγ («малое» Td _1 , «среднее» Td _ 2 , «большое» Td  _ 3 );
μ(Td ) - функции принадлежности нечетких подмножеств универсального
множества оценок d  [C; E] ([0,4; 1,7] - для речи; [0,2; 1,9] - для ЭЭГ);
{Tdk0 _ i } - терм-множество для оценки приращения dk0 («малое» Tdk0 _1 ,
«большое» Tdk0 _ 2 ); μ(Tdk 0 ) - функции принадлежности нечетких подмножеств
универсального множества оценок dk 0  [ H ; F ] ([0,1; 1,8] - для речи; [0,45; 1,6] для ЭЭГ).
Нахождение компонентов МИЭ:
1. Знак эмоций ( Z ).
В каждой проекции аттрактора ( xn  xn  , xn  xn  2 , xn   xn  2 )
определяется значение усредненного вектора по 4 квадрантам
i
( Rmax
,
____
i  1, 3 ).
i
Переход от значений базовых переменных ( Rmax ) к соответствующим
i
i
значениям лингвистических переменных (ЛП) (ЛПi: {TRmax _ i } , μ(TRmax
) )
осуществлен по специально построенным функциям принадлежностей (ФП),
отражающим мнения экспертов и результаты исследований. Они могут быть
заданы в виде графика (рисунок 3.21) или с помощью таблиц (таблица 3.3).
Модель настраивается на образцы произвольной длительности с помощью
i
 [ A; B ] ,
ограничений на универсальное множество оценок признака Rmax
характеризующего размеры проекций аттрактора.
110
i
Таблица 3.3 – Множества оценок признака Rmax
Ограничения
i
Rmax
 [ A; B]
Объекты БМС
РС
5000
45000
A
B
ЭЭГ
80
700

1
0,8
0,6
0,4
0,2
0
6000
12000
18000
ФП::"малый"
24000
30000
ФП::"средний"
1
36000 Rmax
ФП::"большой"
а - для РС (для фраз)

1
0,8
0,6
0,4
0,2
0
150
175
200
225
250
ФП::"малый"
275
300
325
ФП::"средний"
350
375
400
1
425 Rmax
ФП::"большой"
б - для паттернов ЭЭГ
i
Рисунок 3.21 – ФП к термам {T Rmax _ i }
для лингвистических шкал y1-y3 (ЛП1-ЛП3)
i
Процедура фазификации признака Rmax
осуществляется с использованием
треугольной конормы:
Max(A, B) = AB,
max { μ
i
(R max
i
T Rmax
_1
), μ
i
(R max
i
T Rmax
_2
), μ
i
(R max
i
T Rmax
_3
i
.
)}   T R max
_ j , j  1, 3
(3.6)
111
Составлены правила, которые позволяют определять принадлежность
описания БМС классам по одной проекции аттрактора: «отрицательный» (L1),
«нейтральный» (L2) и «положительный» (L3) (таблица 3.4) и тем самым
интерпретировать проявление в БМС эмоции определенного знака (ЛП1
1
2
3
определяется по шкале Rmax ; ЛП2 - по шкале Rmax ; ЛП3 - по шкале Rmax ).
Таблица 3.4 – Правила интерпретации знака эмоции
N
Нечеткие высказывания, определяющие
характерные признаки классов
1
i
i
i
 ЛП2= TRmax
 ЛП3= TRmax
ЛП1= TRmax
_1
_1
_1
i
2 ЛП1= TRmax _ 2
3
i
ЛП1= TRmax
_3
Класс, объединяющий
эмоции одного знака
L1  D1 ::" отрицатель ный"
i
i
 ЛП2= TRmax
_ 2  ЛП3= TRmax _ 2
i
i
 ЛП2= TRmax
 ЛП3= TRmax
_3
_3
L2  D2::"нейтрал ьный"
L3  D3 ::" положитель ный "
Решением задачи распознавания класса эмоций для выделенной проекции
будет четкое высказывание (наименование класса L j  D j , μ PRj  min ),
являющееся заключением в правиле с минимальным значением.
Окончательное решение задачи распознавания (интерпретации) класса
эмоций формируется на основе результатов применения правил (таблица 3.4) для
всех найденных проекций аттрактора. Для этого набор правил дополнен
импликациями следующего вида:
1)
Если по всем трем проекциям аттрактора определяется один класс,
например, (Lf), то его наименование используется для определения итогового
знака эмоций ( Z  L f ). Степень соответствия этого заключения принимается
равной
максимальной
функции
принадлежности
нечетких
множеств,
построенных для трех проекций.
2)
Если по двум проекциям (ЛПi, ЛПj) определяется один класс,
например, (Lg), а по одной проекции (ЛПk) распознается другой класс, например,
(Lv), то для определения знака эмоций используется наименование класса Lg
( Z  L g ). Степень соответствия этого заключения принимается равной
112
минимальной функции принадлежности нечетких множеств, соответствующих
двум проекциям.
3)
Если по всем трем проекциям распознаются разные классы, например,
(Lf, Lg, Lv), то следует повторить процедуру интерпретации, используя другой
образец БМС.
2. Уровень эмоционального отклика ( U ).
Для оценки U в диссертационной работе приняты два допущения:
1.
Уровень эмоционального отклика U может быть определен только
для положительных и отрицательных эмоций. В нейтральном состоянии
изменение U отсутствует.
2.
Оценка U осуществляется на основе анализа матрицы плотностей
траекторий Mγ (см. рис. 3.18) только в одной проекции аттрактора ( xn  xn  ).
Данная проекция считается наиболее значимой по сравнению с двумя ( xn  xn  2 ,
xn   xn  2 ) другими.
Известно, что наибольшее число траекторий наблюдается вблизи «центра»
аттрактора, поэтому для оценки

представляет интерес четыре центральные
ячейки матрицы плотности Mγ . Так для матрицы размером ( N  M ) наибольшая
плотность наблюдается в центральных ячейках матрицы Mγ :
1
1
1
1
1_ ячейка:[ N; M ]
2 _ ячейка: [ N; M  1]
2
2
2
2
M 
,
1
1
1
1
3 _ ячейка: [ N  1; M ] 4 _ ячейка: [ N  1; M  1]
2
2
2
2
где i - номер строки матрицы Mγ ; i  1, N ; j - номер столбца матрицы Mγ ;
j  1, M .
Исходя из принятых допущений, с учетом разного характера изменения U
(варьирование значений признака

) для положительных и отрицательных
эмоций необходимо построение двух отдельных лингвистических шкал.
Для построения лингвистических шкал по оценке U в качестве базовой
переменной предложено использовать относительное изменение плотности
113
траекторий
в
четырех
центральных
ячейках
матрицы
d
плотностей
(таблица 3.5):
d _ i   iE /  iN ,
где
 iE -
(3.7)
суммированная плотность по четырем центральным ячейкам Mγ при
положительной или отрицательной эмоции;
 iN
- суммированная плотность по
четырем центральным ячейкам Mγ в нейтральном состоянии.
Таблица 3.5 – Множества оценок признака
Эмоции
Объекты БМС

Положительные ( d _ i )
Отрицательные ( d  _i )
d
Ограничения d  [C ; E ]
РС
ЭЭГ
РС
ЭЭГ
С
E
0,4
0,2
1
1,1
1
1
1,7
1,9
Для перехода от значений базовых переменных ( d ) к соответствующим
значениям ЛП (ЛПi: {Tdγ _i } , μ(Td) ) построены ФП (рисунок 3.22, рисунок 3.23).

1
0,8
0,6
0,4
0,2
0
0,6
0,65
0,7
ФП::"большое"
0,75
0,8
ФП::"среднее"
0,85
ФП::"малое"
а - положительные эмоции (cluster 3)
0,9 d
114

1
0,8
0,6
0,4
0,2
0
1,1
1,15
1,2
1,25
ФП::"малое"
1,3
1,35
1,4
ФП::"среднее"
1,5 d
1,45
ФП::"большое"
б - отрицательные эмоции (cluster 1)
Рисунок 3.22 – Графики ФП к термам {Tdγi } для РС (y4-y5 (ЛП4-ЛП5))

1
0,8
0,6
0,4
0,2
0
0,4
0,45
0,5
0,55
0,6
ФП::"большое"
0,65
0,7
0,75
0,8
ФП::"среднее"
0,85
0,9 d
ФП::"малое"
а - положительные эмоции (cluster 3)

1
0,8
0,6
0,4
0,2
0
1,2
1,25
1,3
1,35
ФП::"малое"
1,4
1,45
1,5
ФП::"среднее"
1,55
1,6
1,65
1,7 d
ФП::"большое"
б - отрицательные эмоции (cluster 1)
Рисунок 3.23 – Графики ФП к термам {Tdγi } для ЭЭГ (y4-y5 (ЛП4-ЛП5))
115
Аналогично, как и при анализе знака эмоций ( Z ), для исследования уровня
эмоционального отклика U сформированы три правила, которые позволяют
интерпретировать БМС по трем классам (L4 - L6) (таблица 3.6).
Оценка уровня эмоционального отклика U будет определяться по правилу
объединения нечетких множеств:
μTd _ j (d)  max { μTd _ 1 (d), μTd _ 2 (d), μTd _ 3 (d ) } .
(3.8)
j
Окончательный вывод класса U ориентирован на максимальное значение
ФП ( L j  D j ,  PRj  max ).
Таблица 3.6 – Правила интерпретации уровня эмоции
1
Нечеткие высказывания, определяющие
характерные признаки классов
(ЛП4= Td _ 1 )  (ЛП5= Td _ 1 )
Класс, определяющий уровень
эмоций
L4  D4::"низкий"
2
(ЛП4= Td _ 2 )  (ЛП5= Td _ 2 )
L5  D5::"средний "
3
(ЛП4= Td  _ 3 )  (ЛП5= Td  _ 3 )
L6  D6::"высокий "
N
(*)

(для положительных эмоций d _ i : ЛП4 определяется по базовой шкале
для отрицательных эмоций d  _i : ЛП5 находится по базовой шкале
3.
d _ i ;
d _ i ).
Динамика эмоционального отклика ( D ) (отражает характер
изменения эмоции на протяжении регистрируемого интервала времени).
Для оценки D в каждой проекции аттрактора ( xn  xn  , xn  xn  2 ,
xn   xn  2 ) при помощи матрицы плотностей траекторий Mγ ( N  M )
____
(см. рисунок 3.18) определяется количество нулевых ячеек ( k 0 _ i , i  1, 3 ), а
также и их относительное изменение
dk 0 (таблица 3.7):
dk 0 _ i  k 0 iE / k 0 iN ,
где
k0iE -
(3.9)
количество нулевых ячеек в i-ой проекции при положительной или
116
отрицательной эмоции;
k0iN
- количество нулевых ячеек в i-ой проекции
аттрактора в нейтральном состоянии.
Таблица 3.7 – Множества оценок признака dk 0
Эмоции
Объекты БМС
Положительные ( dk 0 _ i )
РС
ЭЭГ
РС
ЭЭГ
Отрицательные ( dk 0 _ i )
Ограничения dk 0  [ H ; F ]
H
F
0,1
0,45
1
1
1
1
1,8
1,6
Определяется приращение этого признака (
dk 0 ) на интервале
 t  t k  t n ( tn - начало эмоционального отклика, tk - контрольный момент
времени, определяется как t k  t n  50%t n ): dk 0 _ i  dk 0 _ i (t n )  dk 0 _ i (t k ) .
Если
dk 0  0 (т.е. dk 0 _ i (t n )  dk 0 _ i (t k ) ), то положительные эмоции
усиливаются, а отрицательные - ослабевают. И наоборот, если
dk 0  0 (т.е.
dk 0 _ i (t n )  dk 0 _ i (t k )
ослабевают,
),
то
положительные
эмоции
а
отрицательные - усиливаются.
Правила для интерпретации динамики отклика приведены в таблице 3.8.
Таблица 3.8 – Правила интерпретации динамики эмоции
N
1
2
3
4
Нечеткие высказывания, определяющие
характерные признаки классов
Если Δdk0  0  (L3  D3::"положительный")
Если Δdk0  0  (L1  D1::"отрицательный")
Если Δdk0  0  (L3  D3::"положительный")
Если Δdk0  0  (L1  D1::"отрицательный")
Класс, определяющий
динамику эмоций
L7  D7::"D3 усиливается"
L8  D8::"D1 ослабляется"
L8  D8::"D3 ослабляется"
L7  D7::"D1 усиливает ся"
Для окончательного вывода о принадлежности объекта к одному из четырех
классов применяются правила аналогичные вышеприведенным правилам для
117
оценки знака эмоций Z .
Разработанная МИЭ положена в основу алгоритма интерпретации эмоций,
который позволяет осуществлять анализ и мониторинг БМС на предмет
исследования эмоций. Работа предложенного алгоритма интерпретации эмоций в
БМС осуществляется следующим образом:
Шаг 1. Реконструкция аттрактора БМС, переход к двухмерным проекциям
( xn  xn  t , xn  xn  2t , xn  t  xn  2t ).
Шаг 2. Построение информационной МПБМС: определение компонентов
i
Rmax
,  l , k0u .
Шаг 3.
Определение
знака
эмоции
(Z):
фазификация
признаков
i
i
i
.
R max
, {T Rmax
_ i }, μ(T Rmax )
Шаг 3. Оценка уровня эмоционального отклика (U): выбор шкалы
(положительная или отрицательная эмоция), расчет признаков
d _ i   iE /  iN ,
фазификация признаков d  , {Td γ _ i },  (Td  ) .
Шаг 4. Оценка динамики эмоционального отклика (D): выбор шкалы
(положительная
или
отрицательная
эмоция),
расчет
dk0 _ i  k0iE / k0 iN ,
фазификация признаков dk 0 , {Tdk0 _ i }, μ(Tdk0 )} .
Шаг 5. Построение МИЭ: итоговое заключение по БМС (знак, уровень,
динамика).
Проектирование и настройка базовой шкалы (ее согласование с ЛП,
настройка параметров ФП) осуществляется с помощью специализированного
средства
для
построения
классификационных
правил,
основанного
на
нейроподобной иерархической структуре [97, 98, 101]. Программа разработана в
2012 г. на кафедре автоматизации технологических процессов Тверского
государственного технического университета (АТП ТвГТУ) Д.М. Ханевым.
Таким образом, совокупность процедур определяет функциональноструктурные особенности и ограничения информационной МПБМС. Модель
используется для создания выборок описаний образцов РС и паттернов ЭЭГ в
118
пространстве информативных дискретных признаков. На основе компонентов
МПБМС формируется МИЭ, позволяющая осуществлять мониторинг по БМС (РС
и ЭЭГ) эмоциональных состояний испытуемого, вызванных и изменяющихся под
воздействием внешних стимулов (раздражителей).
Выводы по главе 3
1.
Проведены
исследования
паттернов
ЭЭГ
и
параллельно
зарегистрированных образцов РС методами спектрального анализа. Выделены
наиболее информативные участки СПМ РС (1,1-5,1 кГц), локализованы отведения
ЭЭГ с наибольшей информативностью спектральных признаков (8 отведений
правого полушария).
2.
кластеров
Экспериментально
СПМ
доказана
речевых образцов
в
возможность
разделения
центров
соответствии
со
эмоций.
знаком
Справедливость выделения трех центров речевых кластеров в соответствии со
знаком эмоционального состояния подтверждена результатами по выборке ЭЭГ.
3.
Анализ выборок СПМ речевых образцов и СПМ ЭЭГ показал наличие
пересечения между кластерами с различным эмоциональным окрасом. При
использовании СПМ для описания образцов речи и паттернов ЭЭГ невозможно
визуально разделить нейтральное состояние (cluster 2) от отрицательных эмоций
(cluster 1). В конечном итоге, применение СПМ для распознавания эмоций может
приводить к ошибочным выводам.
4.
В качестве математического аппарата для оценки свойств БМС (РС и
ЭЭГ) выбран аппарат нелинейной динамики, основанный на реконструкции
аттракторов по временным рядам. Эффективность применения подобного
аппарата для анализа БМС также обоснована рядом положительных исследований
в данной области. В качестве разделяющего признака при интерпретации
эмоциональных состояний испытуемых выбрана реконструкция аттрактора.
Данный тип признака позволяет получать одинаковую чувствительность к
119
изменениям эмоционального состояния испытуемого при анализе РС и ЭЭГ.
5.
ЭЭГ.
Разработан алгоритм для корректной реконструкции аттракторов РС и
Экспериментально
определены
диапазоны
настроечных
параметров
(временной задержки  , размерности вложения m ) реконструкций аттракторов
сигналов. Экспериментально доказано изменение форм и размеров аттракторов
при варьировании эмоционального состояния испытуемого.
6.
Создана
новая
многомерная
система
количественной
оценки
двухмерных проекций аттракторов БМС. Для оценки вариаций проекций
i. j
i
предлагается использовать: 1) длины максимальных векторов ( Rmax
, Rmax
),
описывающих контуры двухмерных проекций аттракторов и характеризующих
БМС по амплитудному составу; 2) плотность траекторий двухмерных проекций
аттракторов  , отражающих варьирование частотного состава в БМС.
7.
Разработан
алгоритм
оценки
изменения
контуров
проекций
аттракторов. Использование данного алгоритма позволяет каждую двухмерную
i. j
h
проекцию представлять описанием из пяти признаков вида ( Rmax
, Rmax
). Также
предложен алгоритм оценки плотности траекторий аттрактора  , позволяющий
оценивать плотность и площадь проекций. В конечном итоге, указанные
алгоритмы позволяют формировать описания БМС в виде вектора, включающего
i. j
i
оценки разнородных дискретных признаков (векторов ( Rmax
, Rmax
)), плотностей
траекторий
8.

и количеств (сумм) нулевых ячеек k 0 проекций).
Переход в пространство дискретных признаков (морфологические
признаки проекций аттрактора) дает возможность использования специальных
методов визуализации многомерных данных и создания интегрированных
графических и количественных интерпретаций результатов исследований,
выполненных при различных способах регистрации откликов испытуемого.
9.
Предложена
модель
интерпретатора
эмоций
в
БМС
(МИЭ),
позволяющая распознавать (интерпретировать) знак, уровень и динамику
эмоционального отклика (эмоциональной реакции). Показана взаимосвязь между
искомыми характеристиками модели и свойствами аттракторов.
120
10.
модели
Предложена структура и алгоритм формирования атрибутивной
БМС
(информационная
МПБМС)
на
основе
использования
лингвистических переменных.
11.
На основе анализа моделей паттернов БМС сформулированы нечеткие
высказывания
(правила),
определяющие
характерные
признаки
классов
(положительные и отрицательные эмоции, нейтральное состояние), а также
позволяющие различать уровень эмоционального отклика и динамику эмоций.
12.
Разработан алгоритм интерпретации эмоций на основе анализа БМС.
121
ГЛАВА 4 РАЗРАБОТКА МЕТОДИЧЕСКОГО И ПРОГРАММНОГО
ОБЕСПЕЧЕНИЯ БТС EEG/S
4.1 Структура БТС EEG/S
В диссертационной работе разработана БТС EEG/S для мониторинга
эмоций человека по РС и ЭЭГ (рисунок 4.1).
Рисунок 4.1 – Структура БТС EEG/S
БТС EEG/S содержит персональный компьютер 1 с акустической системой
(электроакустическим преобразователем) 2 и монитором 3 для предъявления
акустических и визуальных стимулов испытуемому 4, комплект электродов 5 для
длительной регистрации ЭЭГ, соединенный с устройством усиления и аналогоцифрового преобразования сигналов 6, подключенным ко второму персональному
122
компьютеру 7, снабженному монитором 8 для оператора 9. Установка также
содержит микрофон (акустоэлектрический преобразователь) 10, расположенный
относительно испытуемого 4 с возможностью восприятия его РС, генератор
потока
воздуха 11, содержащий пары жидкого пахучего вещества 19,
расположенный с возможностью поступления создаваемого им потока к
обонятельному
анализатору
испытуемого
4,
устройство
управления
12
генератором потока воздуха 11, маршрутизатор 13. При этом микрофон 10 и
устройство управления 12 подключены ко второму персональному компьютеру 7.
Устройство управления 12 подключено к генератору потока воздуха 11, а
персональные компьютеры 1 и 7 соединены между собой маршрутизатором 13.
Генератор потока воздуха 11, содержащий пары жидкого пахучего вещества 19,
выполнен в виде проточной камеры 14 с входным 15 и выходным 16 каналами, во
внутренней полости которой последовательно по потоку воздуха размещены
побудитель расхода (осевой вентилятор (кулер)) 17 и емкость 18 с жидким
пахучим веществом 19, снабженная крышкой 20, механически соединенной с
приводом возвратно-поступательного движения 21, который электрически
подключен к устройству управления 12.
Работа БТС EEG/S осуществляется следующим образом. Испытуемый 4, с
размещенным на нем комплектом электродов 5 для длительной регистрации ЭЭГ,
располагается в кресле в сидячем положении на фиксированном расстоянии от
генератора потока воздуха 11, микрофона 10 и персонального компьютера 1 с
акустической системой 2 и монитором 3. Оператор 9 дистанционно управляет
компьютером 1 с помощью второго компьютера 7, применяя для передачи
управляющих команд маршрутизатор 13, персональные компьютеры 1 и 7
снабжены соответствующим программным обеспечением. Оператор 9, используя
компьютер 1, выбирает канал предъявления стимулов испытуемому 4 и
осуществляет запуск программы предъявления визуальных стимулов через
монитор 3 и (или) запуск программы предъявления акустических стимулов через
акустическую систему 2. Соответствующие визуальные и акустические стимулы,
воздействующие на слуховые и зрительные анализаторы испытуемого 4, берутся
123
из БД стимулов, находящейся на жестком диске компьютера 1, на котором также
установлены программы предъявления визуальных и акустических стимулов.
Оператор 9, используя компьютер 7, дистанционно, через устройство
управления 12, управляет предъявлением обонятельных стимулов испытуемому 4
с помощью генератора потока воздуха 11, содержащего пары жидкого пахучего
вещества 19, работа которого осуществляется следующим образом. Воздух
непрерывно прокачивается вентилятором 17 через входной канал 15 и выходной
канал 16 проточной камеры 14. Создаваемый генератором 11 поток воздуха,
проходя через емкость 18 с жидким пахучим веществом 19 (жидкое пахучее
вещество 19 заранее помещается оператором 9 в генератор 11), снабженную
крышкой 20, поступает к обонятельному анализатору испытуемого 4. Для подачи
обонятельного стимула оператор 9 подает управляющую команду на устройство
управления 12, включающую привод возвратно-поступательного движения 21,
который поднимает крышку 20. Пары жидкого пахучего вещества 19,
появляющиеся из емкости 18, смешиваются с воздухом, и поток в течение отрезка
времени t1 подается на обонятельный анализатор испытуемого 4. По истечении
отрезка времени t1, оператор 9 подает управляющую команду на устройство
управления 12, отключающую привод возвратно-поступательного движения 21,
который опускает крышку 20, в результате к обонятельному анализатору
испытуемого 4 начинает поступать поток воздуха, не содержащего паров жидкого
пахучего вещества 19.
При восприятии испытуемым 4 стимулов (визуальных, акустических,
обонятельных) происходит непрерывная регистрация его ЭЭГ. Электрический
сигнал активности головного мозга испытуемого 4 передается от комплекта
электродов ЭЭГ 5 в устройство усиления и аналого-цифрового преобразования
сигналов 6, где происходит усиление сигнала и его оцифровка. Оцифрованный
сигнал поступает в компьютер 7 и регистрируется в течение отрезка времени t2.
Оцифрованный сигнал (длительность t2) сохраняется в БД ЭЭГ испытуемых,
установленной на жестком диске компьютера 7. По истечении отрезка времени t2
по голосовой команде оператора 9 испытуемый 4 произносит контрольную фразу
124
(регистрируется
акустический
сигнал).
Далее
акустический
сигнал
преобразовывается с помощью микрофона 10 в электрический сигнал, который
передается в компьютер 7 и подвергается оцифровке. Оцифрованный сигнал
определенной длительности сохраняется в БД РС испытуемых, установленной на
жестком диске компьютера 7.
Обработка сохраненных оцифрованных сигналов осуществляется на основе
собственной разработки (программы), которая установлена на жестком диске
персонального компьютера 7. Для удаления из сигналов помех (вибраций,
сетевых наводок) производится предобработка сигналов, состоящая из процедур
фильтрации и нормализации.
В итоговом заключении указывается класс объектов, степень соответствия
которому оказалась максимальной. В БД системы описаны 8 классов сигналов,
отличающихся знаком эмоции, ее уровнем и динамикой.
Разработан лабораторный макет БТС EEG/S, проведены его успешные
испытания
в
условиях
научно-исследовательской
лаборатории
на
экспериментальных выборках нескольких групп испытуемых. На разработанное
устройство, позволяющее проводить мониторинг эмоций человека по РС и ЭЭГ,
получен патент на полезную модель [63].
4.2 Программные модули БТС EEG/S
Общая структура программного обеспечения для БТС EEG/S представлена
на рисунке 4.2. Модули программного обеспечения реализованы в среде
MATLAB и на языке C# 3.0 для среды исполнения .NET Framework 3.5 и выше.
Компоненты программного обеспечения можно условно разделить на три
группы. Модули первой группы (I) ориентированы на регистрацию, обработку и
сохранение БМС в соответствующих БД (БД_РС, БД_ЭЭГ). Предусмотрены
процедуры экспорта и импорта данных.
125
Рисунок 4.2 – Структурная схема программного обеспечения для БТС EEG/S
Модули второй группы (II) позволяют определять набор дискретных
признаков для формирования атрибутивных моделей БМС (РС и ЭЭГ). Набор
126
дискретных признаков представлен двумя типами характеристик (признаки на
основе СПМ и морфологические признаки двухмерных проекций аттракторов).
Модули третьей группы (III) позволяют проводить мониторинг эмоций
человека посредством применения лингвистической интерпретации и логического
вывода. Предусмотрены процедуры вывода нужной информации в удобочитаемой
для человека форме на экран, устройство вывода или во внешнее хранилище
данных.
В таблице 4.1 представлены описания всех программных модулей, их
назначения и особенности функционирования.
Таблица 4.1 – Модули программного обеспечения для БТС EEG/S
№
1
2
3
4
5
6
Модуль
Назначение модуля
Регистрация
акустической
волны
испытуемого (запись РС) произвольной
Регистрации, первичной
длительности в формате *.wav (частота
обработки и визуализации РС дискретизации
22050 Гц,
разрешение
16 бит); фильтрация, нормализация РС;
визуализация выполняемых операций.
Регистрация электрической активности
головного мозга испытуемого (запись ЭЭГ
по стандартной системе отведений «10-20»,
Регистрации, первичной
включающей 19 отведений) произвольной
обработки и визуализации ЭЭГ длительности в формате *.EEG (частота
дискретизации 250 Гц); фильтрация ЭЭГ;
визуальное отображение выполняемых
операций.
Сегментация РС на фразы и гласные
фонемы
установленной
длительности
Сегментации РС
(фразы 2-6 сек, фонемы 25-250 мсек);
сохранение сегментированных единиц РС в
формате *.wav.
Локализация и удаление в ЭЭГ артефактов
ЭОГ; сохранение безартефактных участков
Локализации артефактов в ЭЭГ
ЭЭГ в виде паттернов установленной
длительности (12 сек) в формате *.ASCII.
Импорт данных (сигналов) в БД БМС
Работы с файлами
(БД_РС, БД_ЭЭГ).
Выбор и загрузка РС и/или ЭЭГ из БД БМС
Загрузки
для последующего анализа.
127
7
8
9
10
11
12
13
14
15
16
Построение
спектральных плотностей
СПМ с применением окна преобразования
Хемминга (ширина 1024 для РС, ширина
Построения СПМ
128 для ЭЭГ; границы частотного
диапазона для РС 0-11 кГц, для ЭЭГ - 0125 Гц; шаг расчета СПМ для РС
составляет 11 Гц, для ЭЭГ - 3 Гц).
Реконструкции аттракторов по БМС
(определение оптимальных параметров
временной задержки  и размерности
Построения аттракторов
вложения m ); разбиение аттрактора на три
двухмерных проекции ( xn  xn  ,
xn  xn  2 , xn   xn  2 ).
Выделение
интервалов
наиболее
информативных
признаков
СПМ,
Выделения информативных
позволяющих обеспечить хороший уровень
интервалов спектров мощности обобщения и уточнения описания объектов
в классах (для РС установлен диапазон 1,15,1 кГц; для ЭЭГ - диапазон 0-125 Гц).
Расчет по каждой двухмерной проекции
xn  xn  , xn  xn  2 , xn   xn  2
Определения морфологических морфологических признаков аттрактора
признаков проекций
i. j
i
(максимальные векторы ( Rmax
, Rmax
);
аттракторов
плотность траекторий  ; количество
нулевых ячеек k 0 ).
Формирования моделей РС
Формирование атрибутивных моделей РС.
Формирование атрибутивных моделей
Формирования моделей ЭЭГ
ЭЭГ.
Визуализация промежуточных результатов
анализа:
графическое
представление
Отображения результатов
реконструкций аттракторов; отображение
морфологических признаков аттракторов и
атрибутивных моделей БМС.
Перевод
компонентов
атрибутивных
Фазификации
моделей БМС (РС и ЭЭГ) из базовых шкал
в лингвистические шкалы (ЛП).
Редактирование функций принадлежности:
Редактирования ФП
добавление термов ФП; изменение формы
ФП.
Определение
степеней
истинности
высказываний
о
принадлежности
Логического вывода
модельных описаний БМС к 1 из 9 классов,
представленных в БД.
128
17
Редактирования правил
18
Отображения результатов
интерпретации эмоций
Редактирование правил интерпретации
эмоций: расширение набора правил при
увеличении термов ФП.
Визуализация
конечных
результатов
интерпретации эмоций испытуемых по
БМС (определение знака, уровня и
динамики
эмоциональных
реакций);
сохранение результатов интерпретации.
4.3 Испытания БТС EEG/S
Испытания БТС EEG/S проводились по методике, описанной в § 2.2. Для
оценки достоверности и успешности работы БТС EEG/S в соответствии с
моделью интерпретатора эмоций (МИЭ, (3.5)) осуществлены эксперименты с
целью исследования разделительной силы признаков модели паттерна БМС
(МПБМС, (3.4)) и созданных на их основе правил интерпретации эмоций. Для
проведения экспериментов были созданы нескольких групп испытуемых,
имеющих возрастные, гендерные и национальные особенности. Для независимой
оценки адекватности моделей
и признаков использовались выборки
из
международной БД Emo-DB (Berlin Database of Emotional Speech) [110].
С
помощью
БТС EEG/S
выполнен
ряд
экспериментов
с
целью:
1) исследования признаковых пространств инвариантных к физической природе
сигнала и адекватно отображающих эмоциональную реакцию испытуемого;
2) проверки гипотезы об инвариантности выделенных признаков к национальным
особенностям РС; 3) локализации отведений с наиболее сильным проявлением
реакции испытуемого на внешние стимулы отдельного класса.
В ходе экспериментов были сформированы три типа выборок БМС (см.
таблица 2.5). БТС EEG/S позволяет для каждого объекта выборки сигналов
автоматически генерировать его описание в виде атрибутивных моделей
i. j
(формула 3.1: X(z)speech (X100-X500), X(s)eeg (X1-X328); формула 3.3: A(z)speech {( Rmax
,
129
i
i. j
i
Rmax
) или (R1-R15)}, A(s)eeg {( Rmax
, Rmax
) для 8 отведений ЭЭГ или (R1-R120)}.
При анализе выборок ОВ speech , ОВ eeg использовались морфологические признаки
аттрактора (таблица 4.2).
Таблица 4.2 – Экспериментальная выборка БМС
Количество объектов
Всего Cluster 3 Cluster 2 Cluster 1
Обучающая выборка (ОВ)
110
31
29
50
РС
Тестовая выборка (ТВ)
100
39
24
37
Обучающая выборка (ОВ)
120
40
40
40
ЭЭГ
Тестовая выборка (ТВ)
120
40
40
40
(*) Cluster 1, 2, 3 - отрицательные эмоции, нейтральное состояние, положительные
эмоции, соответственно.
Сигнал
Выборка
Для всех трех кластеров имеются значимые различия средних значений
выделенных
признаков,
что
подтверждается
результатами
проверки
статистических тестов с использованием t-критерия Стьюдента (приложение 4).
Все
проведенные
исследования
можно
представить
в
виде
последовательности следующих экспериментов.
Эксперимент 1. Исследования
разделительной
силы
максимальных
векторов (R1-R15) проекций аттрактора на РС.
Исследовались выборки образцов русской (рисунок 4.3), немецкой и
французской речи, представленные в форме (3.3).
45000
40000
35000
30000
25000
20000
15000
10000
5000
5000 15000 25000 35000 45000
cluster1 cluster2 cluster3
Рисунок 4.3 – ОВ1 speech по A(z)speech (абсцисса - R15, ус. ед.; ордината - R5, ус. ед.)
130
Использование
A(z)speech
вектора
показывает
отсутствие
линейного
разделения кластеров (рисунок 4.3) с положительными и нейтральными эмоциями
и существенные пересечения кластеров нейтральных и отрицательных эмоций.
Следует отметить, что центры указанных кластеров (рисунок 4.4), существенно
различаются по всем признакам (R1-R15), входящим в вектор признаков A(z)speech .
45000
min_cluster1
35000
max_cluster1
min_cluster2
25000
max_cluster2
15000
min_cluster3
5000
max_cluster3
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
а - распределение вектора признаков A(z)speech по кластерам
35000
25000
cluster1
cluster2
15000
cluster3
5000
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15
б - распределение вектора признаков A(z)speech в центре кластеров
Дисперсия
2,0E+07
1,6E+07
1,2E+07
8,0E+06
4,0E+06
0,0E+00
5
10
Номер признака
cluster1 cluster2 cluster3
15
в - дисперсия кластеров
Рисунок 4.4 – Распределение (R1-R15) в РС
(абсцисса - номер признака Ri; ордината - значение признака Ri, ус. ед.)
131
Сравнение полученных результатов с результатами, приведенными в § 3.1
(см. таблица 3.2), показывает, что система признаков (R1-R15) превосходит по
разделительным свойствам признаки, сформированные на основе СПМ (X100-X500),
и одинаково успешно работает как на образцах русской, так и на образцах
французской [59] и немецкой [69] речи.
Эксперимент 2. Исследования
разделительной
силы
максимальных
векторов (R1-R120) проекций аттрактора на отведениях ЭЭГ.
Анализ картины распределения векторных (атрибутивных) моделей ЭЭГ,
представленных в форме (3.3), иллюстрирует хорошее отделение центра кластера,
зарегистрированного при положительных эмоциях (cluster 3) от нейтрального
состояния (cluster 2) и отрицательных эмоций (cluster 1). Следует отметить
существенное пересечение кластеров нейтральных и отрицательных эмоций
практически по всем составляющим A(s) eeg и по всем 8 отведениям правого
полушария (рисунок 4.5).
650
550
450
350
250
150
50
50
150 250 350 450 550
cluster1 cluster2 cluster3
650
Рисунок 4.5 – ОВ eeg по A(s)eeg (абсцисса - R15, ус. ед.; ордината - R10, ус. ед.)
Аналогично, как и в ситуации с РС, центры указанных кластеров
(рисунок 4.6), существенно различаются по всем признакам (R1-R120), входящим в
вектор признаков A(s)eeg .
132
700
650
600
550
500
450
400
350
300
250
200
150
100
50
min_cluster1
max_cluster1
min_cluster2
max_cluster2
min_cluster3
max_cluster3
0 10 20 30 40 50 60 70 80 90 100 110 120
а - распределение вектора признаков A(s)eeg по кластерам
500
450
400
350
cluster1
300
cluster2
250
cluster3
200
150
100
0
10 20 30 40 50 60 70 80 90 100 110 120
8000
7000
6000
5000
4000
3000
2000
1000
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
105
110
115
120
Дисперсия
б - распределение вектора признаков A(s)eeg в центре кластеров
Номер признака
cluster1
cluster2
cluster3
в - дисперсия кластеров
Рисунок 4.6 – Распределение (R1-R120) по отведениям ЭЭГ правого полушария
(абсцисса - номер признака Ri; ордината - значение признака Ri, ус. ед.)
133
Очевидна связь между значениями вектора признаков A(s)eeg (R1-R120) и
номером отведения, т.е. точкой локализации сигнала с коры полушарий головного
мозга. Оценки среднего квадратического отклонения (СКО) разности амплитуд
сигналов, регистрируемых j-ом и k-ом отведениях, позволили выявить наиболее
чувствительные к эмоциональным реакциям БМС (рисунок 4.7).
а - варианты выбора пар отведений
(  - cluster1;

- cluster2;

- cluster3)
б - значения СКО при различных вариантах выбора пар отведений
Рисунок 4.7 – СКО разности амплитуд в j-ом и k-ом отведениях
Характер зависимости СКО, полученный для разных пар отведений (j,k=1,8)
позволил выделить в качестве наиболее чувствительных отведения в правом
полушарии
(F4-A2,
F8-A2).
Этот
полученным в работах [36, 58, 67].
результат
не
противоречит
выводам,
134
Результаты экспериментов 1 и 2 иллюстрируют хорошую сходимость на
качественном уровне: объектам, располагающимся на пересечении кластеров РС,
соответствуют объекты ЭЭГ, зарегистрированные у этого же i-го испытуемого, и
имеющие аналогичную локализацию в пространстве признаков.
Учитывая, что на выборках A(z)speech , A(s) eeg наблюдается хорошее
разделение
центров
кластеров,
проведен
эксперимент
по
применению
нейросетевого алгоритма [101] для разделения объектов по знаку эмоций на три
кластера: отрицательные эмоции {эмоции_-} (cluster1); отсутствие эмоций
{нейтраль_N} (cluster2); положительные эмоции {эмоции_+} (cluster3).
Созданный классификатор показал как на паттернах ЭЭГ, так и на речевых
образцах высокую успешность интерпретации ( T 
N norm
 100% , где N norm N all
количество правильно классифицированных объектов; N all - общее количество
объектов по всем классам). Применение набора признаков, рассчитанных на
основе аттрактора ( A(z)speech , A(s)eeg ), позволяет снизить ошибку интерпретации
(таблица 4.3) по сравнению с использованием для описания объектов речи и ЭЭГ
характеристик СПМ ( X(z)speech , X(s)eeg ) (см. таблица 3.2).
Таблица 4.3 – Результаты интерпретации знака эмоций по РС и ЭЭГ
Сигнал
Вектор признаков
Выборка
Число ошибок интерпретации эмоций
Успешность интерпретации T , %
{эмоции_+} как {нейтраль_N}
{эмоции_+} как {эмоции_-}
Успешность интерпретации {эмоции_+} T , %
{нейтраль_N} как {эмоции_+}
{нейтраль_N} как {эмоции_-}
Успешность интерпретации {нейтраль_N} T , %
{эмоции_-} как {эмоции_+}
{эмоции_-} как {нейтраль_N}
Успешность интерпретации {эмоции_-} T , %
ЭЭГ
A(z)eeg
ОВ
0
100
0
0
100
0
0
100
0
0
100
ТВ
20
83
0
0
100
5
5
75
0
10
75
Речевой сигнал
A(z) speech
ОВ
0
100
0
0
100
0
0
100
0
0
100
ТВ
4
96
0
0
100
0
0
100
0
4
92
135
Эксперимент 3. Исследования признаков плотности траекторий 
и
количества нулевых ячеек k 0 аттракторов РС.
На основе выборки ОВ1 speech по алгоритму, описанному в § 3.3.2, получены
для первой проекции аттрактора ( xn  xn  ) оценки признаков  и k 0 . Анализ
выборки выявил наличие взаимосвязи между этими показателями и эмоциями
испытуемого. Сравнение наборов из трех образцов {(эмоции_+), (нейтраль_N),
(эмоции_-)}, зарегистрированных у одного и того же i-го испытуемого,
показывает изменения в заполнения матрицы плотностей Mγ (рисунок 4.8).
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
26
5
0
9
30
0
0
0
0
0
0
0
0
12
95
320
937
1211
145
9
0
0
0
0
0
0
0
13
248
1756
6856
15406
1023
33
0
0
0
0
0
0
0
10
92
742
9871
7547
1226
26
0
0
0
0
0
0
0
2
7
271
1494
1088
288
2
0
0
0
0
0
0
0
0
0
57
277
117
17
0
0
0
0
0
0
0
0
0
0
1
35
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
15000
Плотность
ячейки, ус. ед.
0
0
0
0
0
0
0
0
0
0
0
0
0
0
12000
1
2
3
4
Номер центральной ячейки
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
6
24
18
17
26
3
0
0
0
0
0
0
0
0
15
33
53
76
147
195
125
32
3
0
0
0
0
0
1
13
79
215
631
1193
1517
620
88
2
0
0
0
0
0
2
43
540
1008
5159
13819
1763
280
12
0
0
0
0
0
0
10
261
799
9183
5868
1572
151
12
0
0
0
  39680 , k 0  157
0
0
0
2
90
589
1342
1076
350
117
43
0
0
0
0
0
0
0
17
330
615
167
22
40
25
0
0
0
0
0
0
0
0
62
98
45
0
0
0
0
0
0
0
0
0
0
0
16
41
15
0
0
0
0
0
0
0
0
0
0
0
1
21
0
0
0
0
0
0
0
15000
Плотность
ячейки, ус. ед.
0
0
0
0
0
0
0
0
0
0
0
0
0
0
12000
15
8
16
39
37
37
35
29
15
4
2
0
0
0
15
15
30
46
68
68
115
88
50
13
11
5
4
2
13
24
32
64
147
210
466
433
221
68
17
17
5
3
11
20
60
179
369
739
1270
1466
1165
385
126
38
8
2
7
17
47
227
455
996
3777
9953
2058
612
125
52
12
3
4
9
36
189
303
843
6037
4698
1471
342
87
49
11
4
0
5
32
131
263
565
1439
1257
683
165
65
20
6
7
0
0
8
46
244
580
585
300
118
89
57
22
11
1
cluster3 (эмоции_+)
6000
1
2
3
4
Номер центральной ячейки
  34029 , k 0  131
0
0
0
12
106
403
248
56
21
38
38
34
10
3
0
0
0
4
21
99
46
18
15
15
23
17
9
2
0
0
0
5
8
30
15
17
9
5
9
4
2
0
0
0
0
6
6
17
21
3
3
3
6
3
0
0
15000
Плотность
ячейки, ус. ед.
2
3
4
11
13
11
8
8
8
3
0
0
0
0
9000
3000
cluster2 (нейтраль_N)
1
2
3
5
5
2
7
0
1
0
0
0
0
0
6000
3000
cluster1 (эмоции_-)
0
0
0
0
0
0
0
0
0
0
0
0
0
0
9000
12000
9000
6000
3000
1
2
3
4
Номер центральной ячейки
  24465 , k 0  31
Рисунок 4.8 – Матрицы плотностей Mγ ячеек аттракторов объектов ОВ1 speech
136
Изменение
нейтрального
состояния
к
положительным
эмоциям
характеризуется постепенным заполнением всех ячеек Mγ с одновременным
снижением значений  в четырех центральных ячейках. Обратные изменения в
Mγ наблюдаются при постепенном увеличении уровня отрицательных эмоций.
Подобные изменения характерны для всех объектов выборок ОВ1 speech , ОВ 2 speech .
Эксперимент 4. Исследования признаков плотности траекторий 
и
количества нулевых ячеек k 0 аттракторов ЭЭГ (рисунок 4.9).
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
9
42
51
12
0
0
0
0
0
0
0
0
0
7
61
641
657
31
0
0
0
0
0
0
0
0
0
10
89
565
607
50
0
0
0
0
0
0
0
0
0
0
6
71
75
21
0
0
0
0
0
0
0
0
0
0
0
9
8
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
700
Плотность
ячейки, ус. ед.
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2
0
0
0
0
0
0
0
0
0
0
0
1
9
16
10
4
0
0
0
0
0
0
0
0
0
7
33
147
132
37
8
0
0
0
0
0
0
0
4
23
133
372
386
133
16
2
0
0
0
0
0
0
2
21
137
404
390
134
8
0
0
0
0
0
0
0
0
9
49
131
133
52
5
0
0
0
0
0
0
0
0
0
7
26
24
9
2
0
0
0
0
0
0
0
0
0
1
4
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
700
0
0
0
0
0
0
1
0
1
0
0
0
0
0
0
0
0
0
1
8
8
5
4
3
2
1
0
0
0
0
0
2
14
17
33
25
16
7
5
0
0
0
0
0
0
3
25
79
136
108
43
13
5
0
0
0
0
0
1
8
41
144
269
243
107
33
6
1
0
0
0
0
0
7
37
143
273
281
136
41
8
0
0
0
0
0
1
7
28
68
149
148
86
12
5
0
0
0
0
0
0
2
18
37
48
38
17
10
0
0
0
0
cluster3 (эмоции_+)
600
500
400
300
200
1
2
3
4
Номер центральной ячейки
  1552 , k 0  154
0
0
0
0
3
3
10
8
4
1
1
0
0
0
0
0
0
0
0
0
0
1
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
700
Плотность
ячейки, ус. ед.
0
0
0
0
0
0
0
0
0
0
0
0
0
0
300
  2470 , k 0  176
cluster2 (нейтраль_N)
0
0
0
0
0
0
0
0
0
0
0
0
0
0
400
1
2
3
4
Номер центральной ячейки
Плотность
ячейки, ус. ед.
0
0
0
0
0
0
0
0
0
0
0
0
0
0
500
200
cluster1 (эмоции_-)
0
0
0
0
0
0
0
0
0
0
0
0
0
0
600
600
500
400
300
200
1
2
3
4
Номер центральной ячейки
  1066 , k 0  127
Рисунок 4.9 – Матрицы плотностей Mγ ячеек аттракторов объектов ОВ eeg
137
На основе выборки ОВ eeg по алгоритму, описанному в § 3.3.2, получены для
первой проекции аттрактора ( xn  xn  ) оценки признаков  и k 0 . Проведенное
сравнение наборов (рисунок 4.9) из трех образцов {(эмоции_+), (нейтраль_N),
(эмоции_-)}, зарегистрированных у одного и того же i-го испытуемого,
показывает аналогичные изменения (как и в эксперименте 3) в характере
заполнения ячеек матрицы плотности Mγ как и в случаях с объектами выборок
ОВ1 speech и ОВ 2 speech .
Для получения информативных базовых шкал для МИЭ принято решение
перейти к относительным значениям морфологических признаков аттракторов
(формулы 3.7, 3.9). Переход к относительным значениям признаков позволил
получить для трех типов кластеров эмоций соответствующие «устойчивые»
50000
45000
45000
Плотность, ус. ед.
50000
40000
35000
30000
25000
20000
15000
min_cluster
max_cluster
40000
35000
30000
25000
20000
0
10 15 20 25 30
Номер объекта
cluster1 cluster2 cluster3
Относительное
изменение dγ
Плотность, ус. ед.
области признакового пространства (рисунок 4.10 - рисунок 4.13).
5
15000
cluster1 cluster2 cluster3
1,6
1,4
1,2
1,0
0,8
0,6
0,4
0
5
10
15
20
Номер объекта
cluster1
cluster3
25
30

для РС
Рисунок 4.10 – Характеристики плотностей траекторий
3000
Плотность, ус. ед.
Плотность, ус. ед.
138
2500
2000
1500
1000
500
Относительное
изменение dγ
0
3000
2000
1500
1000
500
10 15 20 25 30
Номер объекта
cluster1cluster2cluster3
cluster1 cluster2 cluster3
2,0
1,8
1,5
1,3
1,0
0,8
0,5
0,3
0
5
10
15
20
25
30
Номер объекта
cluster1
cluster3
5
Рисунок 4.11 – Характеристики плотностей траекторий
182
Дисперсия
154
126
98
70
42
14
14 42 70 98 126 154 182
Количество нулевых ячеек k0_1
cluster1 cluster2
cluster3
1,9

для ЭЭГ
700
600
500
400
300
200
100
0
Признаки k0_1, k0_2, k0_3
cluster1 cluster2 cluster3
1,6
1,3
dk0_2
Относительное изменение
Количество нулевых
ячеек k0_2
min_cluster
max_cluster
2500
1
0,7
0,4
0,1
0,1
0,4 0,7
1
1,3 1,6 1,9
Относительное изменение dk0_1
cluster1
cluster3
Рисунок 4.12 – Особенности заполнения Mγ для РС
196
350
168
300
Дисперсия
Количество нулевых ячеек k0_2
139
140
112
250
200
150
100
84
50
0
56
Относительное изменение dk0_2
56
84
112 140 168 196
Количество нулевых ячеек k0_1
cluster1
cluster2
cluster3
Признаки k0_1, k0_2, k0_3
cluster1
cluster2
cluster3
1,6
1,4
1,2
1
0,8
0,6
0,4
0,4
0,6
0,8
1
1,2
1,4
Относительное изменение dk0_1
cluster1
1,6
cluster3
Рисунок 4.13 – Особенности заполнения Mγ для ЭЭГ
Проверка работы модели интерпретатора эмоций (МИЭ) проведена с
использованием БМС, взятых из мультимодальной базы (см. таблица 2.5).
Проиллюстрируем работу МИЭ (3.5) на примере восьми объектов БМС
(образцов РС (выборка ОВ1 speech ) и соответствующих им паттернов ЭЭГ (выборка
ОВ eeg ); ЭЭГ будем рассматривать только по первому отведению правого
полушария F8-A2).
Для
каждого
объекта
формируется
атрибутивная
МПБМС
(3.4),
включающая в себя информацию по морфологическим признакам аттрактора:
140
i. j
i
{ Rmax , Rmax ,
 _ i , k 0 _ i , i  1, 3 , j  1, 4 } или {(R1-R15), (  _ 1 -  _ 3 ), ( k 0 _1 - k 0 _ 3 )}.
Для анализируемых объектов определены точные количественные оценки
составляющих вектора признаков, которые использованы для МИЭ (таблица 4.4).
Таблица 4.4 – Атрибутивные модели РС и ЭЭГ
Паттерны
ЭЭГ
Образцы
РС
Объекты БМС
Объект 1
Объект 2
Объект 3
Объект 4
Объект 1
Объект 2
Объект 3
Объект 4
Морфологические признаки аттрактора
Плотность Количество нулевых
Длина векторов R, отсчеты
 , ус. ед.
ячеек k 0 , ус. ед.
k 0 _1 k 0 _ 2 k 0 _ 3
 _1
R5
R10
R15
9672
14342
27459
35591
122
225
384
590
9861
14270
28573
36885
117
238
376
555
10052
16003
29388
38674
121
228
362
608
44876
39016
27019
23950
2860
2297
1297
806
171
153
92
71
172
144
79
31
169
151
102
77
169
157
84
29
178
163
98
68
171
149
72
36
Применение преобразований (3.7) и (3.9) (переход к относительным
значениям признаков) позволяет подготовить для МИЭ все необходимые базовые
шкалы в соответствующем виде (таблица 4.5). Переход от базовых шкал к
лингвистическим шкалам проводится с помощью специальных ФП (§ 3.4).
Применяя правила (см. таблица 3.4, таблица. 3.6, таблица 3.8) и формулы
(3.6, 3.8) сформированы лингвистические интерпретации РС и ЭЭГ (таблица 4.6).
Таблица 4.5 – Базовые шкалы
Признаки yi
(оценка yi по базовой шкале)
Длины векторов
i
Rmax
R5
R10
R15
Относительное
изменение плотности
d  _ i
d
d  _ i
y1
y2
y3
y4
y5
БМС
Объекты (РС)
Объекты (ЭЭГ)
1
2
3
4
1
2
3
4
9672
14342
27459
35591
122
225
384
590
9861
14270
28573
36885
117
238
376
555
10052
16003
29388
38674
121
228
362
608
0.93
0.65
0.86
0.43
1.54
1.06
1.90
1.23
141
Относительное
изменение
количества
нулевых ячеек
dk 0
dk0 _ i
dk 0 _ 1
dk 0 _ 2
dk 0 _ 3
dk0 _ i
dk 0 _ 1
dk 0 _ 2
dk 0 _ 3
y6
y7
y8
y9
y10
y11
0.78
0.24
0.82
0.54
0.77
0.22
0.88
0.57
0.64
0.30
0.94
0.52
1.70
1.13
1.53
1.16
1.55
1.22
1.46
1.11
1.51
1.25
1.71
1.24
(*)
Значения [y4, y6-y8:: ЛП4, ЛП6-ЛП8] определяются при положительных эмоциях
(cluster 3), значения [y5, y9-y11:: ЛП5, ЛП9-ЛП11] - при отрицательных эмоциях
(cluster 1).
Таблица 4.6 – Лингвистические шкалы
Объекты
БМС
РС
Объект 1
Объект 2
Объект 3
Объект 4
ЭЭГ
Объект 1
Объект 2
Объект 3
Объект 4
Признаки yi (оценка yi по лингвистической шкале)
Знак
Уровень
Динамика
y1
y2
y3
Мл /
1
Мл /
0.65
Ср /
0.55
Бл /
1
Мл /
1
Мл /
0.6
Бл /
0.7
Бл /
1
Мл /
1
Мл /
0.65
Бл /
0.6
Бл /
1
Мл /
1
Ср /
0.55
Бл /
0.6
Бл /
1
Мл /
1
Ср /
0.6
Бл /
0.75
Бл /
1
Мл /
1
Мл /
0.55
Ср /
0.55
Бл /
1
y4
y5
y6
y7
y8
Бл /
1
Мл /
1
Мл /
1
Бл /
1
y10
y11
Бл / Бл / Бл /
1
1
0.75
Мл / Мл / Мл /
1
1
1
Мл / Мл / Мл /
0.85 0.8
0.9
Бл / Бл / Бл /
1
1
1
Бл /
1
Мл /
1
Мл /
1
Бл /
1
y9
Бл / Бл / Бл /
1
1
1
Мл / Мл / Мл /
1
1
0.6
Бл /
0.8
Бл /
1
Мл / Мл /
0.8
1
Бл / Бл /
1
1
(*)
(ЛОПi/(yi)), где ЛОПi - лингвистическая оценка признака yi (соответствующий
i
терм); (yi) - значение ФП. Термы: знак эмоций (признак Rmax
): Мл - «малый», Ср
- «средний», Бл - «большой»; уровень отклика (изменение d ): Мл - «малое», Ср «среднее», Бл - «большое»; динамика отклика (приращение dk0 ): Мл - «малое»,
Бл - «большое».
В конечном итоге, интерпретатор позволяет получать соответствующую
информацию о проанализированных объектах БМС по трем составляющим МИЭ
(таблица 4.7).
На
рисунке 4.14
проиллюстрировано
расположение
интерпретируемых объектов БМС в пространстве признаков базовых шкал.
142
Таблица 4.7 – Результаты интерпретации эмоций по БМС
35000
25000
Объект 4
15000
Объект 3
5000
5000 15000 25000 35000 45000
R15, ус. ед.
cluster1
cluster2
cluster3
650
550
450
350
250
150
50
Объект 1
R5, ус. ед.
45000
R10, ус. ед.
ЭЭГ
Объект 2
РС
Объект 1
Объект 1
Объект 2
Объект 3
Объект 4
Объект 1
Объект 2
Объект 3
Объект 4
Объект 2
Модель интерпретатора эмоций (МИЭ)
Знак (Z)
Уровень (U)
Динамика (D)
отрицательный / =1
высокий / =1
усиливается / =1
отрицательный / =0.65
низкий / =1
ослабляется / =1
положительный / =0.6
низкий / =1
ослабляется / =0.9
положительный / =1
высокий / =1
усиливается / =1
отрицательный / =1
высокий / =1
усиливается / =1
отрицательный / =0.55
низкий / =1
ослабляется / =1
положительный / =0.6
низкий / =1
ослабляется / =0.8
положительный / =1
высокий / =1
усиливается / =1
Объекты БМС
Объект 4
Объект 3
50 150 250 350 450 550 650
R15, ус. ед.
cluster1
cluster2
cluster3
2
2,0
1,8
1,5
1,3
1,0
0,8
0,5
0,3
1
dγ
dγ
а - длина усредненных векторов в проекциях аттрактора
1,6
1,4
1,2
1,0
0,8
0,6
0,4
4
0
5
3
10 15 20 25
Объекты
cluster1
cluster3
30
2
1
4
3
0
5
10 15 20 25
Объекты
cluster1
cluster3
30
б - относительное изменение плотности проекции
1
1,6
1,4
1,2
1
0,8
0,6
0,4
1
3
dk0_2
3
dk0_2
1,9
1,6
1,3
1
0,7
0,4
0,1
4
2
0,1 0,4 0,7 dk10_1 1,3 1,6 1,9
cluster1
cluster3
4
2
0,4 0,6 0,8 1,0 1,2 1,4 1,6
dk0_1
cluster1
cluster3
в - относительное изменение количества нулевых ячеек в проекциях
Объекты (РС)
Объекты (ЭЭГ)
Рисунок 4.14 – Графическая интерпретация БМС
143
Испытания
БТС EEG/S
для
мониторинга
эмоциональных состояний
испытуемых на основе анализа БМС показали эффективность предлагаемой МИЭ.
Для независимой оценки работоспособности (достоверности) БТС EEG/S
применена база Emo-DB [110]. Данная база, в силу открытой доступности, весьма
популярна у многих исследователей, она неоднократно использовалась при
формировании и разработке систем мониторинга эмоционального состояния
человека. База представляет собой собрание речевых образцов (фраз), записанных
на немецком языке, полученных с помощью профессиональных актеров. База
состоит из 535 фраз речи от 10 дикторов (5 женщин, 5 мужчин). Актеры
имитировали 7 эмоциональных состояний (нейтральное состояние, радость, страх,
гнев, скука, отвращение, печаль).
В таблице 4.8 приведены результаты интерпретации образцов немецкой
речи из базы Emo-DB с применением МИЭ, а также результаты работ аналогов по
данной тематике. Испытания проведены авторами публикаций с использованием
различных подмножеств речевых паттернов из указанной базы.
Таблица 4.8 – Результаты интерпретации речевых образцов базы Emo-DB
№
Исследования
1
Burkhardt et al., 2005 [110]
2
El Ayadi et al., 2007 [159]
3
Лукьяница и др., 2009 [39]
4
Давыдов и др., 2011 [21]
5
Марьев, 2012 [110]
6
МИЭ
(*)
Признаки
K , шт
Экспертная
Ошибка
Классы
Эмоции
интерпретации
F,%
7 классов
Г, О, Б, Р, П, С, Н
20
11
6 классов
Г, О, Б, Р, П, Н
24
211
2 класса
Н, Г+О+Б+Р+П+С
3
4
2 класса
Н, Г
4
384
7 классов
Г, О, Б, Р, П, С, Н
11
60
7 классов
Г, О, Б, Р, П, С, Н
18
28
3 класса
Н, Г+О+Б+П+С, Р
8
28
7 классов
Г, О, Б, Р, П, С, Н
17
оценка
Эмоции: гнев / злость (Г), отвращение / раздражение (О), беспокойство / страх
(Б), радость / счастье (Р), печаль / огорчение (П), скука (С), нейтральное
состояние (Н).
144
Полученные результаты (таблица 4.8) по интерпретации эмоций на основе
анализа речевых образцов, взятых из базы Emo-DB, позволяют утверждать, что по
ошибке интерпретации ( F 
N pat
N all
 100% , где N pat - количество неправильно
классифицированных объектов; N all - общее количество объектов по всем
классам) МИЭ не уступает известным аналогам, но и даже позволяет добиться
уменьшения ошибки F по сравнению с указанными аналогами.
При
использовании
МИЭ
интерпретация
объектов
базы
Emo-DB
существенно различается от экспертной оценки (в основном это сказывается на
объектах, оказавшихся на границах пересечения кластеров эмоций). Различие в
большинстве случаев заключается в определении уровня эмоционального
отклика, но существуют также ситуации, когда есть разногласия при нахождении
знака эмоций. Экспериментально доказано, что при экспертной оценке уровня
эмоционального отклика (при применении бальной системы) характерны случаи,
когда два образца с одинаковым знаком эмоций и различным уровнем
эмоционального отклика могут интерпретироваться экспертом как совершенно
идентичные друг другу. Применение же МИЭ при мониторинге эмоций позволяет
избежать подобных ситуаций, что дает возможность описывать и исследовать
слабо выраженные эмоциональные реакции испытуемых.
Таким образом, сходимость результатов интерпретации эмоций на
множестве паттернов ЭЭГ и на множестве образцов РС из мультимодальной базы
эмоций, а также на записях речи, взятых из базы Emo-DB, подтверждает
достоверность и эффективность предложенной МИЭ для БТС EEG/S.
Теоретико-методические, экспериментальные и прикладные результаты
диссертации подробно изложены в работах [30, 56, 59, 63, 69 - 86, 97-103].
Дополнительно испытания БТС EEG/S проведены в рамках комплексной
программы оценки психического здоровья специалистами кафедры нервных
болезней и восстановительной медицины Тверской государственной медицинской
академии, а также сотрудниками организации ООО «МУ МГСС» (г. Москва) для
задач мониторинга психофизиологического состояния (приложение 6).
145
Верификация полученных положительных результатов свидетельствует о
целесообразности применения разработанной БТС EEG/S для задач мониторинга
эмоций человека по РС и ЭЭГ.
Выводы по главе 4
1.
Предложена БТС EEG/S для мониторинга эмоций человека по РС и
ЭЭГ. Подробно разобраны и указаны все режимы функционирования системы. На
разработанное устройство получен патент на полезную модель.
2.
Разработаны
программное
и
методическое
обеспечения
для
БТС EEG/S. Программное обеспечение для исследования БМС включает 18
модулей с определением их соответствующих функций. Модули программного
обеспечения для БТС EEG/S реализованы в среде MATLAB и на языке C# 3.0 для
среды исполнения .NET Framework 3.5 и выше.
3.
Оригинальность
разработанного
программного
обеспечения
подтверждена тремя свидетельствами о государственной регистрации программ
для ЭВМ (приложение 5).
4.
Испытания БТС EEG/S для мониторинга эмоциональных состояний
испытуемых на основе анализа БМС (РС и ЭЭГ) показали эффективность
предлагаемой модели интерпретатора эмоций (МИЭ). Сходимость результатов
интерпретации эмоций на множестве паттернов ЭЭГ и на множестве образцов РС
подтверждает достоверность и адекватность предложенной модели.
5.
Цели, поставленные на начальных этапах разработки БТС EEG/S, в
полном объеме достигнуты.
6.
Оценка ошибок интерпретации эмоций БТС EEG/S проведена с
использованием выборок РС, сформированных их базы Emo-DB. Верификация
полученных результатов свидетельствует о целесообразности использования
разработанной БТС EEG/S для мониторинга эмоций человека по РС и ЭЭГ.
146
ЗАКЛЮЧЕНИЕ
В ходе диссертационного исследования получены следующие результаты:
1.
На
основе
функционально-структурного
анализа
особенностей
компьютерных технологий и технических решений, применяемых для выявления
эмоций в речи, предложена БТС EEG/S для мониторинга эмоций человека по
БМС (РС и ЭЭГ).
2.
Разработана методика записи образцов эмоционально окрашенной
речи в условиях объективного подтверждения изменения эмоционального
состояния
человека
путем
параллельной
регистрации
сигналов
ЭЭГ.
Сформирована мультимодальная база эмоций человека.
3.
Предложена система признаков, позволяющая идентифицировать
изменения
эмоционального
состояния
человека
на
основе
оценки
морфологических свойств аттракторов, реконструированных по БМС. На основе
введенных признаков создана модель паттерна биомедицинского сигнала
(МПБМС), позволяющая компактно описывать РС и ЭЭГ.
4.
Создана модель интерпретатора эмоций (МИЭ) человека на основе
анализа БМС (РС и ЭЭГ). Разработаны алгоритмическое и программное
обеспечения БТС EEG/S для мониторинга эмоций человека.
5.
С
помощью
Сформированы
совпадение
выборки
получаемых
БТС EEG/S
моделей
проведен
БМС,
интерпретаций
комплекс
исследование
БМС
с
экспериментов.
которых доказало
экспертными
оценками
эмоциональных состояний испытуемых как при использовании разработанной
мультимодальной базы эмоций (русская речь), так и при анализе образцов из
международной базы Emo-DB (немецкая речь).
Независимая оценка работоспособности БТС EEG/S с применением базы
Emo-DB показала,
что
использование
МИЭ
позволяет снижать ошибку
интерпретации до 17 % при семи классах эмоций и до 8 % при трех классах
эмоций.
147
Практические рекомендации.
Разработчикам технических средств и приложений, которые могут быть
направлены на человека в лечебных, терапевтических и профилактических целях,
для бесконтактной диагностики и мониторинга эмоционального состояния
человека по речевому сигналу рекомендуется при создании подобных систем
учитывать предложенные в работе теоретические и практические наработки,
направленные на повышение достоверности и эффективности мониторинга
эмоций человека. Для специалистов, занимающихся проблемой исследования
эмоций,
рекомендуется
использовать
предложенные
в
работе: методику
исследования эмоций на основе анализа речи и ЭЭГ; концепцию интегрированной
БТС EEG/S; алгоритмы оценки морфологических признаков аттрактора и модели
паттерна биомедицинского сигнала и интерпретатора эмоций, с тем, чтобы
повысить достоверность оценки эмоционального состояния человека.
Перспективы дальнейшей разработки темы исследования.
Для более значимой и углубленной диагностики эмоций человека по
речевым сигналам и ЭЭГ существует потребность в более длительном и
детальном изучении третьей составляющей модели интерпретатора эмоций динамики эмоциональных реакций испытуемых. Это позволит прогнозировать
развитие
эмоциональных
реакций
человека.
С
учетом
использования
предложенных в работе технических решений, существуют благоприятные
перспективы для разработки средства экспресс-диагностики и мониторинга
эмоций человека в профилактических или лечебных целях (например, при оценке
психосоматических,
психомоторных
и
соматовегетативных
нарушений;
неврозоподобных и невротических синдромов; эмоционально-аффективных и
депрессивных расстройств у взрослых и детей).
Проведенное исследование открывает перспективы для создания дикторонезависимой системы детектирования эмоциональных состояний человека по
речевому сигналу. Подобная система будет инвариантна к национальным
особенностям языка и позволит работать со спонтанной речью.
148
СПИСОК СОКРАЩЕНИЙ
БТС
биотехническая система
БМС
биомедицинский сигнал
БД
база данных
ЛП
лингвистическая переменная
МИЭ
модель интерпретатора эмоций
МПБМС
модель паттерна биомедицинского сигнала
РС
речевой сигнал
СПМ
спектральная плотность мощности
ФП
функция принадлежности
ЭОР
эмоционально окрашенная речь
ЭЭГ
электроэнцефалограмма
ЭОГ
электроокулограмма
ЭМГ
электромиограмма
ЭКГ
электрокардиограмма
149
СПИСОК ЛИТЕРАТУРЫ
1.
Аграновский, А.В. Сегментация: речи (математическая модель) /
А.В. Аграновский, Д.А. Леднов, Б.А. Телеснин // Информационные технологии. –
№ 9. – М.: Новые технологии, 1998. – C. 24-28.
2.
Алдошина, И.А. Связь акустических параметров с эмоциональной
выразительностью речи и пения / И.А. Алдошина // Звукорежиссер. – №2. – СПб.,
2003.
3.
Бажин, Е.Ф. Объективная диагностика эмоционального состояния в
психиатрической клинике по речи / Е.Ф. Бажин, В.И. Галунов, Г.Д. Горский,
В.Х. Манеров // Речь и эмоции. – Л.: 1975. – С. 69-74.
4.
Баклаев, А.В.
Система
эмоциональной
стабилизации
речевых
коммуникаций «ЭМОС»: пат. 2408087 Рос. Федерация: МПК G10L 15/00;
заявитель и патентообладатель А.В. Баклаев, А.А. Струценко; № 2008141478/09;
заявл. 22.10.2008; опубл. 27.12.2010. Бюл. №36.
5.
Бреслав, Г.М. Психология эмоций: 2-е изд. / Г.М. Бреслав. – М.:
Смысл: Академия, 2006. – 544 с.
6.
Бобков, А.С.
Модели
и
методы
определения
эмоционального
состояния человека на основе автоматизированной обработки и анализа
видеоинформации: дис. …канд. тех. наук: 05.13.01 / А.С. Бобков. – М.: ИСА РАН,
2013. – 170 с.
7.
Бодров, В.А. Информационный стресс: Учеб. пособие для вузов /
В.А. Бодров. – М.: ПЕР СЭ, 2000. – 352 с.
8.
Борисова, А.А. Восприятие эмоционального состояния человека по
интонационному рисунку речи / А.А. Борисова // Вопросы психологии. – 1989. –
№1. – С. 117-121.
9.
Борисова, О.С.
электроэнцефалографических
Исследование
данных
и
методами
анализ
нелинейной
нативных
динамики:
дис. …канд. тех. наук: 05.11.17 / О.С. Борисова. – Таганрог, 2010. – 163 с.
150
10.
Вартанян, Г.А. Эмоции и поведение / Г.А. Вартанян, Е.С. Петров. –
М.: Наука, 1989. – 145 с.
11.
Вартанов, А.В. Антропоморфный метод распознавания эмоций в
звучащей речи / А.В. Вартанов // Национальный психологический журнал. – 2013.
– №2(10). – С. 69-79.
12.
Вилюнас, В.К.
Психология
эмоций.
Тексты
/
В.К. Вилюнас,
Ю.Б. Гиппенрейтер. – М., 1984. – 288 с.
13.
Витт, Н.В. Личностно-ситуационная опосредованность выражения и
распознавания эмоций в речи / Н.В. Витт // Вопросы психологии. – 1991. – №1. –
С. 95–107.
14.
Галунов, В.И. Пути решения проблемы создания систем определения
эмоционального состояния говорящего / В.И. Галунов, В.X. Манеров // Вопр.
кибернетики. – Вып. 22. – М., 1976. – С. 95-114.
15.
Глазунов, Ю.Т. Эмоциональное переживание в системе целеполагания
человека / Ю.Т. Глазунов // Вестник МГТУ. – Т. 14. – №1. – 2011. – стр.126-140.
16.
Грекова, Т.И.
Кожно-гальванический
рефлекс
как
показатель
изменений психического состояния / Т.И. Грекова // Физиология человека. – 1975.
– Т. 1. – №6. – С. 993-998.
17.
Горшков, В.А.
Идентификация
временных
рядов
авиационных
событий методами и алгоритмами нелинейной динамики / В.А. Горшков,
С.А. Касаткин. – М.: Бланк Дизайн, 2008. – 208 с.
18.
Горшков, Ю.Г. Новые решения речевых технологий безопасности /
Ю.Г. Горшков // Специальная техника. – М. ,2006. – № 4. – С. 41-47.
19.
Голубинский, А.Н. Выявление эмоционального состояния человека по
речевому сигналу на основе вейвлет-анализа / А.Н. Голубинский // Вестник
Воронежского института МВД России. – 2011. – №3. – С. 144–153.
20.
Голицын, Г.А.
Информация,
поведение,
язык,
творчество
/
Г.А. Голицын, В.М. Петров. – М.: ЛКИ, 2007 – 223 с.
21.
Давыдов, А.Г. Классификация эмоционального состояния диктора по
голосу: проблемы и решения / А.Г. Давыдов, В.В. Киселев, Д.С. Кочетков //
151
Труды международной конференции «Диалог 2011». – М.: РГТУ, 2011. – С. 178–
185.
22.
Есин, И.Б. Голос как один из каналов невербальной коммуникации /
И.Б. Есин // Юр. психология. – 2008. – №3. – С. 29-35.
23.
Жинкин, Н.И. Речь как проводник информации / Н.И. Жинкин. – М.:
Наука, 1982. – 340 с.
24.
Заболеева-Зотова, А.В. Задача создания системы автоматизированного
распознавания эмоций / А.В. Заболеева-Зотова, Ю.А. Орлова, В.Л. Розалиев,
А.С. Бобков // Материалы Международной научно-технической конференции
«OSTIS-2012». – Минск, 2012. – С. 347-350.
25.
Зенков, Л.Р. Клиническая электроэнцефалография (с элементами
эпилептологии) / Л.Р. Зенков. – Таганрог: Издательство ТРТУ, 1996. – 358 с.
26.
Изард, К.Э. Эмоции человека / К.Э. Изард. – СПб.: Питер, 2000. –
27.
Ильин, Е.П. Эмоции и чувства / Е.П. Ильин. – СПб.: Питер, 2008. –
28.
Ильюченок, И.Р.
385 с.
783 с.
восприятии
Различия
частотных
положительно-эмоциональных,
характеристик
ЭЭГ
отрицательно-эмоциональных
при
и
нейтральных слов / И.Р. Ильюченок // Журнал Высшей Нервной Деятельности им.
И.П. Павлова. – 1996. –Т. 46. – - №3. – С. 457-468.
29.
Калюжный, М.В. Система реабилитации слабовидящих на основе
настраиваемой сегментарной модели синтезируемой речи: дис. …канд. тех. наук:
05.11.17 / М.В. Калюжный. – Санкт-Петербург, 2009. – 178 с.
30.
Калюжный, М.В.
М.В. Калюжный,
Кластерный
К.В. Сидоров
//
анализ
Вестник
речевых
Тверского
сигналов
/
государственного
технического университета: научный журнал. – Вып. 14. – Тверь: ТвГТУ, 2009. –
С. 54–59.
31.
Карпов, В.Э. Эмоции роботов / В.Э. Карпов // XII национальная
конференция по искусственному интеллекту с международным участием КИИ2010: Труды конференции. – Т.3. – М: Физматлит, 2010. – С. 354-368.
152
32.
Квасовец, С.В. ЭЭГ-корреляты функционального взаимодействия
полушарий мозга при эмоциях в норме и у больных с локальными поражениями
мозга / С.В. Квасовец // «Нейропсихологический анализ межполушарной
асимметрии мозга» под ред. Хомской Е.Д. – М.: Наука. – 1986. – С. 153-162.
33.
Костандов, Э.А. Восприятие и эмоции / Э.А. Костандов. – М.: Наука,
1977. – 247 с.
34.
Колесников, А.В. Гибридные интеллектуальные системы: Теория и
технология разработки / А.В. Колесников. – СПб.: СПбГТУ, 2001. – 711 с.
35.
Кузнецов, С.П. Динамический хаос (курс лекций). – М.: Физматлит,
2001. – 295 с.
36.
Кислова, О.О.
Психофизиологические
предпосылки
успешности
распознавания эмоциональной речевой экспрессии: дис. …канд. биолог. наук:
03.00.13 / О.О. Кислова. – Москва, 2009. – 151 с.
37.
Киселёв, В.В.
Система
определения
эмоционального
состояния
диктора по голосу / В.В. Киселёв, А.Г. Давыдов, А.В. Ткаченя // Материалы
Международной научно-технической конференции «OSTIS-2012». – Минск, 2012.
– С. 355-358.
38.
Лапшина, Т.Н. Психофизиологическая диагностика эмоций человека
по показателям ЭЭГ: дис. …канд. псих. наук: 19.00.02 / Т.Н. Лапшина. – М.: МГУ,
2007. – 190 с.
39.
Лукьяница, А.А.
Автоматическое
определение
изменений
эмоционального состояния по речевому сигналу / А.А. Лукьяница, А.Г. Шишкин
// Речевые технологии. – М.: Народное образование, 2009. – №3. – С. 60-76.
40.
Лучшева, Л.М. Интерпретация и идентификация эмоциональных
состояний по голосу (на примере педагогов): дис. …канд. псих. наук: 19.00.01 /
Л.М. Лучшева. – Новосибирск, 2010. – 318 с.
41.
Люсин, Д.В. Измерение способности к распознаванию эмоций с
помощью видеотеста / Д.В. Люсин , В.В. Овсянникова // Психологический
журнал. – 2013. – Т. 34. – №6. – С. 82-94.
153
42.
Леонтьев, В.О. Классификация эмоций / В.О. Леонтьев. – Одесса: Изд-
во Инновационного ипотечного центра, 2002. – 150 с.
43.
Лебедева, Н.Н. Акустические характеристики речевого сигнала как
показатель функционального состояния человека / Н.Н. Лебедева, Е.Д. Каримова
// Успехи физиологических наук. – 2014. Т. 45. – №1. – С. 57-95.
44.
Малинецкий, Г.Г. Современные проблемы нелинейной динамики /
Г.Г. Малинецкий, А.Б. Потапов. – М.: Эдиториал УРСС, 2000. – 336 с.
45.
Манеров, В.X. Успешность восприятия говорящего в зависимости от
индивидуальных
особенностей
слушателей
/
В.X. Манеров
//
Вопросы
психологии. – 1990. – № 1. – С. 147 - 153.
46.
Марьев, А.А. Методы и алгоритмы повышения эффективности
автоматического
интонационного
анализа
речевых
сигналов:
дис. …канд. тех. наук: 05.12.04, 01.04.06 / А.А. Марьев. – Таганрог, 2012. – 141 с.
47.
Милованова, Г.Б. Интегральная оценка эмоционального состояния
человека по его вегетативным функциям / Г.Б. Милованова // Методика и техника
исследований операторской деятельности. – М.: Наука, 1985. – С. 7-11.
48.
Меклер, А.А.
Применение
аппарата
нелинейного
анализа
динамических систем для обработки сигналов ЭЭГ // Вестник новых медицинских
технологий. – 2007. – Т. ХIV, № 1. – С. 73–76.
49.
Меклер, А.А.
электроэнцефалограмм
Программный
методами
комплекс
теории
для
динамического
анализа
хаоса:
дис. …канд. тех. наук: 05.13.18 / А.А. Меклер. – Санкт-Петербург, 2006. – 168 с.
50.
Морозов В.П.
Эмоциональный
слух:
экспериментально-
психологические исследования / В.П. Морозов // Психол. журн. –2013. – Т. 34. –
№1. – С. 45-62.
51.
Наздратенко, А.Е. Система для обнаружения эмоций: пат. 42905
Рос. Федерация:
МПК
G06F
13/38;
заявитель
и
патентообладатель
А.Е. Наздратенко; № 2004129162/22; заявл. 05.10.2004; опубл. 20.12.2004.
154
52.
Напалков, Д.А.
функционального
Аппаратные
состояния
стрелка:
методы
диагностики
Методические
и
коррекции
рекомендации
/
Д.А. Напалков, П.О. Ратманова, М.Б. Коликов. – М.: МАКС Пресс, 2009. – 212 с.
53.
Никонов, А.В. Особенности структуры речи человека-оператора в
стрессовых условиях / А.В. Никонов, В.А. Попов // Речь и эмоции. – Л., 1975. –
С. 11-16.
54.
Носенко, Э.Л. Система автоматического определения эмоционального
состояния человека по акустическим и темпоральным характеристикам речи /
Э.Л. Носенко, А.А. Чугай, О.Н. Карпов // Речь и эмоции. – Л., 1975. – С. 108-113.
55.
Перервенко, Ю.С. Исследование инвариантов нелинейной динамики
речи и принципы построения системы аудиоанализа психофизиологического
состояния: дис. …канд. тех. наук: 05.11.17 / Ю.С. Перервенко. – Таганрог, 2009. –
175 с.
56.
Ребрун, И.А. Биотехническая система для исследования когнитивной
деятельности
в
различных
эмоциональных
состояниях
испытуемого
/
И.А. Ребрун, К.В. Сидоров, С.А. Терехин, Н.Н. Филатова, П.Д. Шемаев // XVII
Всероссийская научно-техническая конференция «НЕЙРОИНФОРМАТИКА2015»: Сборник научных трудов в 3-х частях. – Ч. 1. – М.: НИЯУ МИФИ, 2015. –
С. 19–29.
57.
Розалиев, В.Л. Моделирование эмоциональных реакций пользователя
при речевом взаимодействии с автоматизированной системой: дис. …канд. тех.
наук: 05.13.01 / В.Л. Розалиев. – Волгоград, 2009. – 163 с.
58.
Рева, Н.В. Линейные и нелинейные характеристики ЭЭГ человека при
вызванных
эмоциях:
дис. …канд. биолог. наук:
03.00.13
/
Н.В. Рева.
–
Новосибирск, 2000. – 156 с.
59.
Ребрун, И.А. Модель проявления эмоций в естественной речи /
И.А. Ребрун,
К.В. Сидоров,
Н.Н. Филатова,
Д.М. Ханеев // Четырнадцатая
национальная конференция по искусственному интеллекту с международным
участием КИИ-2014 (24-27 сентября 2014 г., г. Казань, Россия): Труды
конференции. – Т. 2. – Казань: РИЦ «Школа», 2014. – С. 112–121.
155
60.
Сахаров, В.Л.
Методы
математической
обработки
электроэнцефалограмм: Учебное пособие / В.Л. Сахаров, А.С. Андреенко. –
Таганрог, 2000. – 44 с.
61.
Сорокин, В.Н. Сегментация и распознавание гласных / В.Н. Сорокин,
А.И. Цыплихин // Информационные процессы. – Т. 4. – № 2. – М.: ИППИ РАН,
2004. – С. 202-220.
62.
Савотина, Л.Н.
мотивационно
значимых
Нейрофизиологические
стимулов
и
корреляты
переживания
эмоций
восприятия
у
человека:
дис. …канд. биолог. наук: 03.00.13 / Л.Н. Савотина. – Новосибирск, 2000. – 168 с.
63.
Сидоров, К.В.
Генератор
потока
воздуха
для
биотехнической
установки для мониторинга эмоций: патент № 151520, заявка № 2014118660 /
К.В. Сидоров, Н.Н. Филатова, Л.В. Илясов, Д.М. Ханеев // Изобретения. Полезные
модели: офиц. бюл. Федер. службы по интеллект. собственности. – Бюл. 10. – М.:
ФИПС, 2015.
64.
Секунов, Н.Ю. Обработка звука на PC: наиболее полное руководство /
Н.Ю. Секунов. - СПб.: БХВ-Петербург, 2001. – 1232 с.
65.
Старченко, И.Б. Методы нелинейной динамики для биомедицинских
приложений / И.Б. Старченко, Ю.С. Перервенко, О.С. Борисова, Т.В. Момот //
Известия ЮФУ. Технические науки. Тематический выпуск «Медицинские
информационные системы». – Таганрог: ТТИ ЮФУ, 2010. – № 9 (110). – С. 42-51.
66.
Соловьева, Е.С. Методы и алгоритмы обработки, анализа речевого
сигнала для решения задач голосовой биометрии: дис. …канд. тех. наук: 05.13.01 /
Е.С. Соловьева. – М., 2008. – 149 с.
67.
Смит, Н.Ю.
Связь
характеристик
движущихся
волн
электроэнцефалограммы человека с показателями экстраверсии и интроверсии:
дис. …канд. биолог. наук: 03.00.13 / Н.Ю. Смит. – Санкт-Петербург, 2007. – 215 с.
68.
Саитов, И.А. Способ обнаружения эмоций по голосу: пат. 2510955
Рос. Федерация: МПК G10L 15/00; И.А. Саитов, О.О. Басов, В.А. Ягупов;
заявитель
и
патентообладатель
ГКОУВПО
Академия
№ 2012109382/08; заявл. 12.03.2012; опубл. 10.04.2014. Бюл. №10.
ФСО
России;
156
69.
Сидоров, К.В. Применение методов нелинейной динамики для
распознавания эмоции радости в речи / К.В. Сидоров, Н.Н. Филатова // Научнотехнический вестник информационных технологий, механики и оптики. – 2012. –
№5 (81). – С. 110–114.
70.
Сидоров, К.В. Диагностика психофизиологического и эмоционального
состояния человека-оператора / К.В. Сидоров, И.А. Ребрун, Д.Д. Кожевников,
И.С. Соботницкий // Инженерный вестник Дона. – 2012. – №4-2 (23). – С. 27. –
http://www.ivdon.ru/magazine/archive/n4p2y2012/1480.
71.
Сидоров, К.В. Интерпретатор двухмерных проекций аттракторов
биоэлектрических
сигналов
№ 2013618634
/
К.В. Сидоров,
Д.М. Ханеев,
Н.Н. Филатова // Программы для ЭВМ. Базы данных. Топологии интегральных
микросхем: офиц. бюл. Федер. службы по интеллект. собственности. – №3 (85). –
М.: ФИПС, 2013.
72.
Сидоров, К.В.
физиологических
Автоматическая
артефактов
локализация
электроэнцефалограмм
аппаратно-
№ 2013619055
/
К.В. Сидоров, Н.Н. Филатова // Программы для ЭВМ. Базы данных. Топологии
интегральных
микросхем:
офиц.
бюл.
Федер.
службы
по
интеллект.
собственности. – №3 (85). – М.: ФИПС, 2013.
73.
Сидоров, К.В. Мультимодальная база образцов естественной речи с
объективно подтвержденным фактом изменения эмоционального состояния
диктора
№ 2014620467
/
К.В. Сидоров,
Н.Н. Филатова,
С.А. Терехин
//
Программы для ЭВМ. Базы данных. Топологии интегральных микросхем: офиц.
бюл. Федер. службы по интеллект. собственности. – №4 (90). – М.: ФИПС, 2014.
74.
Сидоров, К.В. К вопросу оценки эмоциональности естественной и
синтезированной
М.В. Калюжный
речи
//
по
Вестник
объективным
Тверского
признакам
/
государственного
К.В. Сидоров,
технического
университета: научный журнал. – Вып. 18. – Тверь: ТвГТУ, 2011. – С. 81–85.
75.
Сидоров, К.В. Анализ признаков эмоционально окрашенной речи /
К.В. Сидоров,
Н.Н. Филатова
//
Вестник
Тверского
государственного
157
технического университета: научный журнал. – Вып. 20. – Тверь: ТвГТУ, 2012. –
С. 26–31.
76.
Сидоров, К.В. Применение аппарата нелинейной динамики для
распознавания эмоционального состояния человека по речевому сигналу /
К.В. Сидоров // Сборник тезисов докладов I всероссийского конгресса молодых
ученых. – Вып. 2. – СПб.: НИУ ИТМО, 2012. – С. 217–219.
77.
речи
/
Сидоров, К.В. Модельный русскоязычный корпус эмоциональной
К.В. Сидоров,
Н.Н. Филатова,
М.В. Калюжный
//
Приоритетные
направления развития науки и технологий: доклады XI всероссийской научн.техн. конф.; под общ. ред. В.М. Панарина. – Тула: Инновационные технологии,
2012. – С. 115–117.
78.
Сидоров, К.В. Алгоритм автоматической генерации речевых объектов
/ К.В. Сидоров, Н.Н. Филатова // Сборник материалов I Международной научн.практ. конф. «Технические науки - основа современной инновационной системы».
– Часть 1. – Йошкар-Ола: Коллоквиум, 2012. – С. 118–120.
79.
Сидоров, К.В.
К
вопросу
построения
модели
распознавания
эмоциональных состояний человека по речевому сигналу / К.В. Сидоров,
Н.Н. Филатова // Сборник материалов XХIV Всероссийской научн.-техн. конф.
студентов, молодых ученых и специалистов «Биотехнические, медицинские и
экологические системы и комплексы». – Часть 1. – Рязань: РГРТУ, 2012. – С. 155–
160.
80.
Сидоров, К.В. Распознавание эмоционального состояния человека на
основе спектрального анализа речевого сигнала / К.В. Сидоров // Сборник
научных трудов магистрантов и аспирантов. – Вып. 2. – Тверь: ТвГТУ, 2012. –
С. 142–145.
81.
Сидоров, К.В. Реконструкция аттракторов фонем для распознавания
эмоционального
состояния
человека
/
К.В. Сидоров,
Н.Н. Филатова
//
Математические методы в технике и технологиях – ММТТ-25: сб. трудов XXV
Междунар. науч. конф. / под общ. ред. А.А. Большакова. – Саратов: Саратов. гос.
158
техн. ун-т, 2012; Волгоград: Волгогр. гос. техн. ун-т, 2012; Харьков: Национ. техн.
ун-т «ХПИ», 2012.– С. 127-130.
82.
Сидоров К.В. Автоматическое распознавание эмоций человека на
основе реконструкций аттракторов образцов речи / К.В. Сидоров, Н.Н. Филатова
// Программные системы и вычислительные методы. – №1 (1). – 2012. – С. 67–79.
83.
Сидоров, К.В. Биотехнический подход к построению модели эмоций /
К.В. Сидоров // Сборник научных трудов II-ой Международной летней школысеминара по искусственному интеллекту для студентов, аспирантов и молодых
ученых «Интеллектуальные системы и технологии: современное состояние и
перспективы» (ISyT’2013). – Тверь: ТвГТУ, 2013. – С. 172–181.
84.
Сидоров, К.В. К вопросу автоматического выделения артефактов в
электроэнцефалограммах / К.В. Сидоров, И.А. Ребрун, И.А. Тюрина // Вестник
Тверского государственного технического университета: научный журнал.–
Тверь: ТвГТУ, 2013. – №2. – Вып. 24. – С. 40–44.
85.
Сидоров, К.В. Биотехническая система для анализа эмоций человека /
К.В. Сидоров, Н.Н. Филатова // Труды Конгресса по интеллектуальным системам
и информационным технологиям «IS&IT'14». Научное издание в 4-х томах. – М.:
Физматлит, 2014. – Т. 2. – С. 238–244.
86.
Терехин, С.А. Оценка и анализ площади проекции аттрактора
временного ряда № 2014662110 / С.А. Терехин, Н.Н. Филатова, К.В. Сидоров //
Программы для ЭВМ. Базы данных. Топологии интегральных микросхем: офиц.
бюл. Федер. службы по интеллект. собственности. – №12 (98). – М.: ФИПС, 2014.
87.
Уразаева, Ф.Х.
Система
для
восстановления
эмоционально-
аффективных состояний человека: пат. 63201 Рос. Федерация: МПК A61B 5/0476;
заявитель и патентообладатель Ф.Х. Уразаева, К.Ф. Уразаев; № 2006127108/22;
заявл. 26.07.2006; опубл. 27.05.2007. Бюл. №15.
88.
Фоминых, И.Б.
Эмоции
как
аппарат
оценок
поведения
интеллектуальных систем / И.Б. Фоминых // Труды 10-й Национальной
конференции по искусственному интеллекту КИИ-2006. – Т.2. – М.: Физматлит,
2006. - http://www.raai.org/resurs/papers/kii-2006/doklad/Fominykh.doc.
159
89.
Фролов, М.В.
Контроль
функционального
состояния
человека-
оператора / М.В. Фролов. – М.: Наука, 1987. – 195 с.
90.
Фролов, М.В. Дифференцирование степени и знака эмоционального
напряжения у человека по изменению интонационных характеристик речи /
М.В. Фролов // Физиологические особенности положительных и отрицательных
эмоциональных состояний. – М.: Наука, 1972. – С. 128-132.
91.
Фролов, М.В. Особенности контроля состояния человека-оператора по
параметрам основного тона и спектра речи / М.В. Фролов, Г.Б. Милованова //
Физиол. человека. – 2009. – Т. 35. – №2. – С. 136-138.
92.
Фролов, М.В.
Диагностика
функциональных
и
депрессивных
состояний по характеристикам интонации и временного потока речи /
М.В. Фролов, Г.Б. Милованова, Л.А. Потулова // Биомедицинские технологии и
радиоэлектроника. – 2004. – №12. – С. 8-15.
93.
Фролов, М.В. Амплитуда Т-зубца ЭКГ как коррелят эмоционального
напряжения
/
М.В. Фролов,
Е.П. Свиридов
//
Журнал
высшей
нервной
деятельности. – 1974. –Т. 24. –№ 5. – С. 1052–1055.
94.
Федоров, В.М. Сегментация сигналов на основе дискретного вейвлет-
преобразования
/
В.М. Федоров,
П.Ю. Юрков
//
Информационное
противодействие угрозам терроризма. – Таганрог: ЮФУ, 2009. – С. 138-146.
95.
Федоров, В.М. Распознавание эмоционального состояния человека по
акустическим параметрам речи / В.М. Федоров, П.Ю. Юрков // Анализ
разговорной русской речи: сборник трудов Третьего междисциплинарного
семинара. – СПб.: СПИИРАН, 2009. – С. 63-67.
96.
Федоренко, О.Г. Разработка и исследование методов повышения
эффективности программно-аппаратных вычислительных средств обработки
речевых сигналов: дис. …канд. тех. наук: 05.13.13, 05.13.16 / О.Г. Федоренко. –
Таганрог, 1999. – 177 с.
97.
Филатова, Н.Н.
Построение
правил
классификации
для
биотехнических систем / Н.Н. Филатова, Д.М. Ханеев // VII Международная
научно-практическая
конференция
«Интегрированные
модели
и
мягкие
160
вычисления в искусственном интеллекте»: сборник научных трудов в 3-х томах.
М.: Физматлит, 2013. – Т. 3. – С.1153–1158.
98.
заданных
Филатова, Н.Н. Нейроподобный классификатор дыхательных шумов,
нечеткими
признаками
/
Н.Н. Филатова,
Д.М. Ханеев
//
XV
Всероссийская научно-техническая конференция «НЕЙРОИНФОРМАТИКА2013»: Сборник научных трудов в 3-х частях. – Ч. 3. – М.: НИЯУ МИФИ, 2013. –
С. 231-239.
99.
Филатова, Н.Н. Модель интерпретации знака эмоций по естественной
речи / Н.Н. Филатова, К.В. Сидоров // Известия ЮФУ. Технические науки.
Тематический выпуск «Медицинские информационные системы». – 2012. – №9
(134). – С. 39–45.
100. Филатова, Н.Н.
Модель
интерпретации
эмоций
в
речи
/
Н.Н. Филатова, К.В. Сидоров // Труды Конгресса по интеллектуальным системам
и информационным технологиям «IS&IT'13». Научное издание в 4-х томах. – М.:
Физматлит, 2013. – Т. 1. – С. 98–105.
101. Филатова, Н.Н. Интерпретатор сигналов на основе нейроподобной
иерархической структуры / Н.Н. Филатова, Д.М. Ханеев, К.В. Сидоров //
Программные продукты и системы. – 2014. – №1 (105). – С. 92–97.
102. Филатова, Н.Н.
последовательным
Алгоритм
укрупнением
классификации
графиков
с
признаков / Н.Н. Филатова, Д.М. Ханеев,
К.В. Сидоров // Программные продукты и системы. – 2014. – №3 (107). – С. 78–86.
103. Филатова, Н.Н. Применение нейроподобной иерархической структуры
для классификации знака эмоций / Н.Н. Филатова, К.В. Сидоров, Д.М. Ханеев //
XVI Всероссийская научно-техническая конференция «НЕЙРОИНФОРМАТИКА2014» с международным участием: Сборник научных трудов в 3-х частях. – Ч. 2. –
М.: НИЯУ МИФИ, 2014. – С. 291–300.
104. Хроматиди, А.Ф. Исследование психофизиологического состояния
человека на основе эмоциональных признаков речи: дис. …канд. тех. наук:
05.11.17, 05.13.01 / А.Ф. Хроматиди. – Таганрог, 2005. – 154 с.
161
105. Хейдоров, И.Э. Классификация эмоционально окрашенной речи с
использованием метода опорных векторов / И.Э. Хейдоров, Я. Цзинбинь, У. Ши,
А.М. Сорока, А.А. Трус // Речевые технологии. – Вып. 3. – СПб., 2008. – С. 63-71.
106. Шелухин, О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи.
– М.: Радио и связь, 2000. – 456 с.
107. Шустер, Г. Детерминированный хаос. – М.: Мир, 1988. – 240 с.
108. Шемякина, Н.В. Физиологические корреляты выполнения вербальной
творческой задачи в условиях индукции эмоциональных состояний разного
знака.: дис. …канд. биолог. наук: 03.00.13 / Н.В. Шемякина. – Санкт-Петербург,
2007. – 177 с.
109. Agrafioti F. ECG in Biometric Recognition: Time Dependency and
Application Challenges: Ph.D. Dissertation. – University of Toronto, 2011. – 172 p.
110. Burkhardt F.,
Paeschke A.,
Rolfes M.,
Sendlmeier W.,
Weiss B.
A
Database of German Emotional Speech // Proc. Intern. Conf. Interspeech. – Lissabon,
2005. – http://pascal.kgw.tu-berlin.de/emodb/index-1280.html.
111. Bänziger T., Grandjean D., Scherer K.R. Emotion Recognition From
Expressions in Face, Voice, and Body: The Multimodal Emotion Recognition Test
(MERT) // Emotion. – 2009. – Vol. 9. – № 5. – pp. 691-704.
112. Chen Y.T. A study of emotion recognition on mandarin speech and its
performance evaluation: Ph. D. dissertation. – Tatung University, 2008. – 134 p.
113. Cowie R., Cornelius R. Describing the emotional states that are expressed
in speech // Speech Communication. – Vol. 40, №1-2, 2003. – pp. 5-32.
114. Chetouani M., Mahdhaoui A., Ringeval F. Time-scale feature extractions
for emotional speech characterization // Cognitive Computation. – Vol. 1, №2, 2009. –
pp. 194-201.
115. Duong D. Dysphoria and facial emotion recognition: Examining the role of
rumination: PhD. Dissertation. – Waterloo, Ontario, Canada, 2012. – 113 p.
116. Douglas-Cowie E., Campbell N., Cowie R., Roach P. Emotional speech:
Towards a new generation of databases // Speech Communication. – Vol. 40, №1, 2003.
– pp. 33-60.
162
117. Douglas-Cowie E., Cowie R., Schroder M. The description of naturally
occurring emotional speech // Proc. 15th Internat. Conf. on Phonetic Sciences. –
Barcelona, Spain. – pp. 2877-2880.
118. Eckmann J.P., Kamphorst S.O., Ruelle D. Recurrence Plots of Dynamical
Systems // Europhys. Lett. 5. – 1987. – pp. 973–977.
119. E.L. van den Broek. Affective Signal Processing (ASP): Unraveling the
mystery of emotions: PhD. Dissertation. – University of Twente, 2011. – 302 p.
120. Fraser A.M. Reconstructing attractors from scalar time series: a comparison
of singular system and redundancy criteria // Physica D34. – №3. – 1989. – pp. 391404.
121. Flaisch T. The Neural Processing of Emotional Pictures: Evidence from
Evoked Potentials and Functional Magnetic Resonance Imaging: PhD. Dissertation. –
2007. – 118 p.
122. Farwell L.A. Method for a classification guilty knowledge test and
integrated system for detection of deception and information. United States Patent: US
0143629 A1 (30.06.2005).
123. Gratch J., Marsella S. A domain-independent framework for modeling
emotions // Journal of Cognitive Systems Research. – 5(4). – 2004. – pp. 269–306.
124. Grassberger P., Procaccia I. Measuring the strangeness of strange attractors
// Physica 9D. – 1983. – pp. 189-208.
125. Grassberger P. An optimized box-assisted algorithm for fractal dimensions
// Physica. Lett. A.148. – 1990. – pp. 63-68.
126. Hegger R. et al. Practical Implementation of Nonlinear Time Series
Methods. In: The TISEAN package, CHAOS 9, 413, 1999.
127. He L. Stress and Emotion Recognition in Natural Speech in the Work and
Family Environments: Ph.D. Dissertation. – RMIT University, 2010. – 197 p.
128. http://www.speechpro.ru/product/audio-video/voicerecording/smartlogger2.
129. http://courses.media.mit.edu/2004spring/mas630/04.projects/zeynep_ron/,
http://vismod.media.mit.edu/tech-reports/TR-585.pdf.
163
130. http://www.asteros.ru/press/news/684/, http://www.asteros.ru/docs/
exaudios_presentation.pdf.
131. http://www.areopagcentr.ru/ex-sense.html-p=3.htm.
132. http://securebiosys.com/produkty/golosovoj-detektor-emocionalnogosostoyaniya/.
133. http://www.mmf.spbstu.ru/mese/2013/585_594.pdf
134. http://www.sworld.com.ua/konfer26/16.pdf
135. http://fractal-theory.narod.ru/doc/Signalnoise.pdf
136. Jasper H.H. The ten-twenty electrode system of the International
Federation // Electroencephalogr. Clin. Neurophysiol., 10. – 1958. – pp. 371-375.
137. Kappeler-Setz C. Multimodal Emotion and Stress Recognition: Sc.D.
Dissertation. – ETH Zurich, Switzerland, 2012. – 174 p.
138. Kennel M.B., Brown R., Abarbanel I. Determining embedding dimension
for phase-space reconstruction using a geometrical construction // Phys. Rev. A 45. –
1992. – pp. 3403-3411.
139. Kätsyri J. Human recognition of basic emotions from posed and animated
dynamic facial expressions: PhD. Dissertation. – Helsinki University of Technology,
2006. – 124 p.
140. Koelstra S. Affective and Implicit Tagging using Facial Expressions and
Electroencephalography: PhD. Dissertation. – Queen Mary University of London, 2012.
– 167 p.
141. Kwon O.-W., Chan K., Hao J., Lee T.-W. Emotion recognition by speech
signals // In: Proc. Interspeech. – pp. 125-128.
142. Liebert W., Schuster H.G. Proper choice of the time delay for the analysis
of chaotic time series // Physics Letters A. – V. 142. – №2-3. – 1989 – pp. 107-111.
143. Makarova V., Petrushin V.A. RUSLANA: a database of russian emotional
utterances // ICSLP, 2002. – pp. 2041-2044.
144. Mayer J.D., Salovey P., Caruso D.R., Sitarenios G. Measuring emotional
intelligence with the MSCEIT V2.0 // Emotion. – 2003. – Vol. 3. – №1. – pp. 97-105.
164
145. Matsumoto D., Le Roux J. et al. A new test to measure emotion recognition
ability: Matsumoto and Ekman’s Japanese and Caucasian brief Affect recognition test
(JACBART) // Journal of Nonverbal Behavior. – 2000. – №24(3). – pp. 179-209.
146. Nowicki S.,
Duke M.P.
Individual
differences
in
the
nonverbal
communication of affect: The diagnostic analysis of nonverbal accuracy // Journal of
Nonverbal Behavior. – 1994. – Vol. 18. – pp. 9-35.
147. Ortony A., Clore G.L., Collins A. The Cognitive Structure of Emotions.
Cambridge. – Cambridge, UK: Cambridge University Press, 1990. – 207 p.
148. Picard R.W. Affective Computing // M.I.T Media Laboratory Perceptual
Computing Section Technical Report. – No. 321. – 1995.
149. Petrushin V.A. Emotion in speech: recognition and application to call
centers // In: Proc. Artificial Neural Networks in Engineering (ANNIE’99). – St. Louis,
MO, USA. – pp. 7-10.
150. Rangayyan R.M. Biomedical signal analysis: a case-study approach / IEEE
Press and Wiley. – New York, NY, 2002. – 516 p.
151. Rosenfeld J.P. System and method for P300-based concealed information
detector having combined probe and target trials. United States Patent: US 7376459 B2
(20.05.2008).
152. Ringeval F., Chetouani M. Exploiting a Vowel Based Approach for Acted
Emotion Recognition // Verbal and Nonverbal Features of Human-Human and HumanMachine Interaction. –2008. – pp. 243-254.
153. Rosenthal R.,
Hall J.A.,
Di Matteo M.R.,
Rogers P.L.,
Archer D.
Sensitivity to nonverbal communication: The PONS test // Baltimore: John Hopkins
University Press., 1979.
154. Soleymani M., Koelstra S., Patras I., Pun T. Continuous emotion detection
in response to music videos // In conjunction with the IEEE FG, 2011. – pp. 803–808.
155. Steunebrink B.R., Dastani M.M., Meyer J-J.Ch. . A Formal Model of
Emotions: Integrating Qualitative and Quantitative Aspects // Proceedings of the 18th
European Conference on Artificial Intelligence (ECAI'08). – 2008. – pp. 256–260.
165
156. Schröder M. Speech and Emotion Research: An Overview of Research
Frameworks and a Dimensional Approach to Emotional Speech Synthesis: PhD.
Dissertation. – 2003. – 264 p.
157. Wu S. Recognition of human emotion in speech using modulation spectral
features and support vector machines. – Kingston, Ontario, Canada, 2009. – 114 p.
158. Takens F. Detecting strange attractors in turbulence // Dynamical Systems
and Turbulence. – Heidelberg: Springer-Verlag, 1981. – pp. 366-381.
159. El Ayadi M.M.H., Kamel M.S., Karray F. Speech emotion recognition
using gaussian mixture vector autoregressive models // IEEE International Conference
on Acoustics, Speech and Signal Processing, 2007. – Vol. 4. – pp. IV-957 - IV-960.
166
ПРИЛОЖЕНИЯ
Приложение 1. Мультимодальная база эмоций
Рисунок 5.1 – Структура мультимодальной базы эмоций
167
Приложение 2. Максимальные векторы аттрактора
xn  xn 
xn  xn  2
xn   xn  2
1
1.1
Rmax
2
1.2
Rmax
3
1.3
Rmax
4
1.4
Rmax
5
1
Rmax
6
2.1
Rmax
7
2.2
Rmax
8
2.3
Rmax
9
2.4
Rmax
10
2
Rmax
11
3.1
Rmax
12
3.2
Rmax
12
3.3
Rmax
14
3.4
Rmax
15
3
Rmax
9777
10332
9777
10332
10054
2045
13827
2045
13827
7936
9988
10332
9988
10332
10160
а - синусоидальный сигнал с частотой 100 Гц (fd=6 кГц, t=0,25 сек)
xn  xn 
xn  xn  2
xn   xn  2
1
1.1
Rmax
2
1.2
Rmax
3
1.3
Rmax
4
1.4
Rmax
5
1
Rmax
6
2.1
Rmax
7
2.2
Rmax
8
2.3
Rmax
9
2.4
Rmax
10
2
Rmax
11
3.1
Rmax
12
3.2
Rmax
12
3.3
Rmax
14
3.4
Rmax
15
3
Rmax
29330
30995
29330
30995
30163
6133
41479
6133
41479
23806
29964
30995
29964
30995
30480
б - синусоидальный сигнал с частотой 100 Гц (fd=6 кГц, t=0,25 сек)
i. j
i
Рисунок 5.2 – Определение значений векторов ( Rmax
, Rmax
) в искусственном
сигнале (постоянная частота и произвольная амплитуда)
168
xn  xn 
xn  xn  2
1
2
3
4
1.1
max
1.2
max
1.3
max
1.4
max
R
16333
R
17260
R
16333
R
17260
5
1
max
xn   xn  2
6
7
8
9
2.1
max
2.2
max
2.3
max
2.4
max
R
R
16797
3415
R
23098
R
3415
R
23098
10
2
max
11
3.1
max
R
R
13257
16686
12
R
3.2
max
17260
12
R
3.3
max
16686
14
15
3.4
max
3
Rmax
17260
16973
R
а - синусоидальный сигнал с частотой 100 Гц (fd=6 кГц, t=0,25 сек)
xn  xn 
xn  xn  2
xn   xn  2
1
1.1
Rmax
2
1.2
Rmax
3
1.3
Rmax
4
1.4
Rmax
5
1
Rmax
6
2.1
Rmax
7
2.2
Rmax
8
2.3
Rmax
9
2.4
Rmax
10
2
Rmax
11
3.1
Rmax
12
3.2
Rmax
12
3.3
Rmax
14
3.4
Rmax
15
3
Rmax
16333
17260
16333
17190
16779
3415
23098
3415
22599
13132
16686
17260
16686
17190
16956
б - синусоидальный сигнал с частотой 400 Гц (fd=6 кГц, t=0,25 сек)
i. j
i
Рисунок 5.3 – Определение значений векторов ( Rmax
, Rmax
) в искусственном
сигнале (постоянная амплитуда и произвольная частота)
169
Приложение 3. Плотность траекторий аттрактора
№
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
3
0
0
0
0
0
0
0
0
0
0
0
0
0
0
4 5
6
7
8
9
10 11 12 12 14
0 0
0
0
0
0
0
0 0 0 0
0 0
0
0
0
0
0
0 0 0 0
0 0
0
0
0
0
0
0 0 0 0
0 0
1
0
0
0
0
0 0 0 0
0 33 121
64
7
0
0
0 0 0 0
0 14 302 746
354 106 32 1 0 0 0
0 6 464 5734 10867 981 121 0 0 0 0
0 2 265 17148 6309 292 62 0 0 0 0
0 0 14
383
604 158 8
0 0 0 0
0 0
0
6
29
18
2
0 0 0 0
0 0
0
0
0
0
0
0 0 0 0
0 0
0
0
0
0
0
0 0 0 0
0 0
0
0
0
0
0
0 0 0 0
0 0
0
0
0
0
0
0 0 0 0
Количество нулевых ячеек: k 0  163
а - РС (частотный диапазон 0-11 кГц)
170
№
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
7
5
5
3
2
2
2
1
1
0
0
0
0
0
2
6
6
8
14
13
14
18
6
5
2
0
0
0
0
3
4
5
6
7
8
9
10 11 12 12 14
23 40 34
13
4
1
2
2
0
0
0 0
33 54 47
60
29
12
4
4
3
2
2 0
42 62 68
66
96
53
30
15 12 10 5 5
36 47 78 152
149
105
80
51 28 22 22 11
40 67 116 275
327
247 157 158 136 84 58 23
41 110 143 428
576
636 472 535 252 155 59 35
39 122 201 778 2897 6801 1482 380 157 61 18 19
32 113 283 1534 11025 3781 647 182 64 33 31 16
8 74 363 945 2017 860 246 124 36 31 16 12
3 22 173 385
422
213 150 101 32 34 15 9
1 13 38
84
151
143 111 106 57 25 12 3
0
0
6
20
72
79
61
40 22
9 10 0
0
0
2
2
8
34
21
9
6
7 10 0
0
0
0
2
3
7
9
2
3
8
4 2
Количество нулевых ячеек: k 0  23
б - РС (частотный диапазон 0-11 кГц)
Рисунок 5.4 – Определение плотности траекторий  и количества нулевых ячеек
k 0 в проекции аттрактора (различный амплитудный состав исходных сигналов)
171
№
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2 3 4
5
6
7
8
9
10 11 12 12 14
0 0 0
0
0
0
0
0
0
0 0 0 0
0 10 6 15
1
1
0
0
0
0 0 0 0
2 6 9 32 23
4
3
1
0
0 0 0 0
0 5 18 55 59
61
23
9
5
4 2 0 0
0 1 20 58 91 157
93
45 21 19 7 6 0
0 1 18 84 181 429 293 251 183 88 30 8 0
0 2 19 111 316 1940 4190 706 173 46 14 10 0
0 1 9 90 560 6990 2417 282 46 36 14 8 0
0 0 2 27 327 733 321 129 32 21 10 0 0
0 0 0
6
39 124 129 119 44 15 1 1 0
0 0 0
0
4
17
44
18
8
9 1 0 0
0 0 0
0
1
2
9
4
6
3 1 0 0
0 0 0
0
0
0
0
2
0
0 0 0 0
0 0 0
0
0
0
0
0
0
0 0 0 0
Количество нулевых ячеек: k 0  96
а - РС (частотный диапазон 0-5,5 кГц)
172
№
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1 2 3 4
5
6
7
8
9
10 11 12 12 14
0 0 0 0
0
0
0
0
0
0
0
0
0 0
0 0 35 20 54
11
3
3
0
0
0
0
0 0
0 10 18 38 118 99
27
6
6
2
0
0
0 0
0 1 24 63 207 244
235
105
35
30 18
9
1 0
0 0 8 61 247 347
621
395
205 104 84 40 24 0
0 0 4 81 300 730 1608 1198 1062 737 352 113 33 0
0 0 8 82 443 1265 7694 16825 2805 677 195 63 37 0
0 0 4 45 357 2222 28034 9579 1072 215 136 47 28 0
0 0 0 17 144 1360 2947 1236 507 145 84 40 0 0
0 0 0 0 29 182
504
509
444 170 56
4
3 0
0 0 0 0
2
14
76
182
61
33 35
4
0 0
0 0 0 0
0
6
10
35
13
21 12
4
0 0
0 0 0 0
0
0
0
1
8
2
0
0
0 0
0 0 0 0
0
0
0
0
0
0
0
0
0 0
Количество нулевых ячеек: k 0  89
б - РС (частотный диапазон 0-22 кГц)
Рисунок 5.5 – Определение плотности траекторий  и количества нулевых ячеек
k 0 в проекции аттрактора (различный частотный состав исходных сигналов)
173
Приложение 4. Статистический анализ мультимодальной базы эмоций
Статистический анализ (использовался пакет Statgraphics Centurion XVI):
1.
Проверка
гипотезы
о нормальном
распределении генеральной
совокупности по эмпирической выборке.
Проверка осуществлялась для выборок речевых образцов и образцов ЭЭГ с
применением критерия Колмогорова-Смирнова
(Kolmogorov-Smirnov Test).
Результаты проверки выборок речевых образцов с различным знаком эмоций
приведены в таблице 5.1.
2.
Проверка гипотезы о равенстве дисперсий независимых выборок
объектов проведена с использованием F-критерия Фишера:
F
D1
, D1  D2 ,
D2
где D1 - дисперсия первой выборки, D2 - дисперсия второй выборки.
При выполнении условия Fкр  Fэмп гипотеза о равенстве дисперсий
речевых образцов при положительных эмоциях и речевых образцов в условиях
отсутствия эмоций подтверждается по F-критерию Фишера на уровне значимости
0.05. Аналогичные выводы сделаны для всех созданных экспериментальных
выборок (таблица 5.2).
Проверка
гипотезы
о
принадлежности
различным
генеральным
совокупностям выборок образцов речи, различающихся знаком эмоций: Cluster 1
(отрицательные
эмоции),
Cluster 2
(нейтральное
состояние),
Cluster 3
(положительные эмоции). Проверка выборок, взятых из мультимодальной базы
эмоций, выполнена с использованием t-критерий Стьюдента для независимых
выборок:
t' эмп 
M1  M 2
D1 D2

N1 N 2
,
где M 1 , D1 , N1 - среднее арифметическое, дисперсия и объем первой выборки,
M 2 , D2 , N 2 - среднее арифметическое, дисперсия и объем второй выборки.
174
При выполнении условия tкр  t эмп гипотеза о принадлежности различным
генеральным совокупностям двух сравниваемых выборок подтверждается с
уровнем значимости 0.05 (таблица 5.2).
Таким образом, можно сделать вывод о корректности представления
объектами мультимодальной базы эмоций разного знака.
Таблица 5.1 – Проверка на нормальность распределения на примере
выборок речевых образцов по признаку R1  R15 (3.3)
Тест Колмогорова-Смирнова
Объем
Выборка
объектов
выборки,
Заданный уровень
Достигаемый уровень
Итоговое заключение о
значимости,
значимости,
законе распределения
p
p _ value
N
Cluster 1
114
0.05
0.6527
Нормальное распределение
Cluster 2
66
0.05
0.6974
Нормальное распределение
Cluster 3
86
0.05
0.7438
Нормальное распределение
Таблица 5.2 – Проверка F-критерия и t-критерия на примере
выборок речевых образцов (признак R1  R15 )
F-критерий
№
1
2
3
Выборки
Cluster 1
Cluster 2
Cluster 1
Cluster 3
Cluster 2
Cluster 3
Fкр
Fэмп
1.47
1.08
1.53
1.53
t-критерий
Итоги
Итоги
tкр
tэмп
Fкр  Fэмп
1.97
3.03
tкр  t эмп
1.45
Fкр  Fэмп
1.97
5.51
tкр  t эмп
1.41
Fкр  Fэмп
1.98
2.75
tкр  t эмп
175
Приложение 5. Свидетельства о праве интеллектуальной собственности
176
177
178
179
Приложение 6. Акты внедрения
180
181
182
Download