. Вартанов А.В. Антропоморфный метод распознавания эмоций в звучащей речи // Национальный психологический журнал - 2013. - №2(10) - с.69-79.
Вартанов А.В. Антропоморфный метод распознавания эмоций в звучащей речи // Национальный психологический журнал - 2013. - №2(10) - с.69-79.

Вартанов А.В. Антропоморфный метод распознавания эмоций в звучащей речи // Национальный психологический журнал - 2013. - №2(10) - с.69-79.

Предложен новый эффективный метод автоматического распознавания эмоций по речевому сигналу, основанный на четырехмерной сферической модели эмоций и принципах кодирования информации в нервной системе. В результате разработан и экспериментально протестирован принцип относительного кросс-частотного амплитудно-вариабельного кодирования эмоций в речевом сигнале. Проверялась гипотеза о том, что речь является многоканальным (разнесенным по частотам) сигналом, в каждой полосе которого возможны независимые быстрые микро-изменения амплитуды. Показано соответствие выделенных параметров речевого сигнала и субъективного восприятия тех же образцов (коротких слов «да» и «нет») в системе формализованных параметров четырехмерной психофизиологической модели эмоций. Полученные параметры (факторы) можно охарактеризовать как бимодальные спектральные фильтры. Фактор 1 определяет изменение звукового сигнала по оси знака эмоций – чем больше вклад данного компонента по сравнению с другими, тем положительнее (лучше, полезнее) оценивается объект высказывания. Фактор 2 показывает степень информационной неопределенности ситуации – удивление в противоположность уверенности (спокойствию). Фактор 3 характеризует притяжение (любовь), при этом для набора слов «нет» он сопровождается отсутствием активного отвержения, а для набора «да» – положительной оценкой (знаком). Фактор 4 соответствует характеру отвержения, определяет, будет ли агрессивная (активная) или пассивная (страх, бегство) реакция. Полученные результаты в целом подтверждают продуктивность предлагаемого антропоморфного подхода к разработке технических систем, в частности, к методам обработки речевого сигнала и представления данных. Обнаруженное совпадение подтверждает и выделенные ранее параметры психофизиологической модели, дополнительно обосновывая предпочтительность (по сравнению с другими известными в литературе) именно такой системы классификации эмоций, как с точки зрения размерности, так и в отношении ориентации осей пространства модели.

Страницы: 69-79

Поступила: 18.02.2013

Принята к публикации: 03.03.2013

DOI: 10.11621/npj.2013.0210

Разделы журнала: Психофизиология

Ключевые слова: эмоции; речевой сигнал; антропоморфный метод

Известно, что речь человека, нахо­дящегося в различных эмоциональ­ных состояниях, различается по цело­му ряду показателей. К числу наиболее информативных относят, прежде всего, характеристики просодической груп­пы, которые тонко отражают процессу­альную сторону устных высказываний и, в первую очередь, изменяются при ре­акциях аффективного плана (Златоусто­ва, 1957; Михайлов, Златоустова, 1987; Никишкян, 1987). Задача автоматиче­ского распознавания звучащей речи и, в частности, ее эмоциональной окрашенности является междисциплинар­ной и постоянно привлекает исследо­вателей разных специальностей – не только лингвистов, но и математиков, программистов, психологов, физиоло­гов. От ее решения зависит прогресс современных автоматизированных си­стем управления, реабилитации и протезирования, систем безопасности, сроч­ного оповещения и т.п. Решение этой задачи имеет большое научное значение для всех сфер фундаментальных иссле­дований человека и информационных технологий. В последние годы явно уси­лился интерес к анализу речевого сигна­ла, рассматриваемого в качестве наиболее удобного объективного показателя выражения эмоций, эмоционального состояния человека (Сидоров, Филатова, 2012). Это касается не только сфер дея­тельности с повышенной ответственно­стью – космонавтики, авиации (летчики, диспетчеры аэропорта), обслуживания АЭС и пр., которые изначально домини­ровали в этом отношении (Хроматиди, 2005; Соловьева, 2008; Chen, 2008; Siging, 2009; Фролов, Милованова, 2009; Роза­лиев, 2009; Калюжный, 2009; Перервенко, 2009; Morist, 2010), но широкой бы­товой сферы.

В интернете, новостных лентах и по­пулярных изданиях периодически появ­ляются сообщения о все более успешных попытках создания программ и бытовых устройств, реагирующих на эмоции в го­лосе человека. Например, «Ноосфера» сообщает, что «инженеры из Рочестер­ского университета (Великобритания) разработали программу, способную рас­познавать эмоции человека по его речи, даже не понимая смысла сказанного. Программа ориентируется на базу зву­козаписей, состоящую из календарных дат, произнесенных профессиональ­ными актерами с разными интонация­ми. Алгоритм анализирует 12 характер­ных параметров речи, таких как высота и громкость звука. На их основании он определяет одну из шести эмоций. По словам разработчиков, точность распознавания составляет 81 процент — зна­чительно лучше 55 процентов, которых удавалось добиться в предыдущих ана­логичных исследованиях. Авторы уже разработали первое коммерческое при­ложение – программу, отображающую на экране веселый или грустный смайлик в зависимости от результата анали­за записанного голоса. Это лишь первый этап. Авторы программы фантазируют, что в дальнейшем смартфоны смогут менять цветовую схему интерфейса или выбирать подходящую музыку в зависи­мости от настроения владельца» (Шпикуляк, 2012). На сайте Animal language отмечается, что, хотя изучение язы­ка эмоций точными научными метода­ми еще лишь начинается, но уже сейчас стало вырисовываться большое значение этой проблемы, как для теоретиче­ской науки, так и для практики (Animal language, 2013). При этом понятно, что решить эту задачу нельзя без знания ал­фавита акустического языка эмоций. Но, «чтобы заложить этот алфавит в элек­тронный мозг робота, необходимо фор­мализовать признаки, ответственные за эмоциональность голоса» (Animal language, 2013).

Однако, несмотря на множество ис­следований и коммерческих предло­жений в данной области, проблема автоматического распознавания эмо­ционального состояния говорящего по речи на данный момент не является пол­ностью решенной, в частности, отсутст­вует модель описания речевых образцов в условиях проявления разных видов эмоций (Сидоров, Филатова, 2012). Процесс интерпретации (распознавания) эмоций человека по естественной речи является весьма сложной задачей, как в области математической формализа­ции задачи, так и в плане поиска способов четкой конкретизации эмоци­онального состояния – однозначного детектирования эмоции по речевому сигналу. В настоящее время отсутству­ет универсальная теоретическая модель описания речевых образцов в условиях проявления разных видов эмоций (Фи­латова, Сидоров, 2012).

Это обусловлено целым комплексом взаимосвязанных проблем. С одной сто­роны, необходимо выделить в речевом сигнале те параметры, которые могли бы служить индикаторами эмоций. Здесь возникают проблемы их регистрации, математического анализа, поиска соот­ветствующих алгоритмов и технических средств. Для решения этой задачи требу­ется четко задать «входные» и «выходные» данные, формально представить требуе­мый результат. С другой стороны, необходимы формальные, объективные мето­ды для систематизации и классификации таких сложных явлений как эмоции че­ловека. Нужно разработать адекватную модель и собрать базу данных – набор соответствующих «образцов» состояний и корреспондирующих им фрагментов речи. Получается порочный круг: чтобы решить одну задачу, надо уже иметь ре­шение другой.

Тем не менее, научные исследова­ния и практические разработки в этом направлении предпринимаются со все большей интенсивностью, подстеги­ваемой коммерческими возможностя­ми. При этом, как правило, разработ­чики новых методов и инструментов анализа пользуются лишь собственным «здравым смыслом» и некоторыми тео­ретическими обобщениями психологов и фонологов. А последним для анали­за эмоциональных явлений приходится пользоваться «стандартными», общедо­ступными инструментами объективного анализа речевых сигналов. Чтобы хоть как-то приблизиться к достижению пра­ктической эффективности, всем прихо­дится упрощать задачу – при разработке новых методов анализа речевого сигнала ограничиваться отдельными аспек­тами эмоциональных феноменов, на­пример, только интерпретацией знака эмоций (Филатова, Сидоров, 2012) или отдельных эмоций, наиболее важных для данной области применения. В ито­ге общая эффективность предлагаемых в настоящий момент средств невысока. Приведенный выше пример из «Ноос­феры» наглядно это подтверждает: даже при решении задачи по распознаванию всего шести эмоций, результат сводится к примитивному бинарному действию. А метод в типичном случае базируется на стандартных алгоритмах сопоставле­ния с образцом в расчете на простое ко­личественное увеличение быстродейст­вия и объема памяти (например, за счет «облачных» технологий) и размера «сло­варя» образцов.

О параметрах речевого сигнала

Литературный обзор, проведенный К.В. Сидоровым и Н.Н Филатовой, по­казывает, что на современном этапе можно выделить четыре группы объек­тивных признаков и соответствующих методов, позволяющих различать рече­вые образцы: спектрально-временные, кепстральные, амплитудно-частотные и признаки на основе нелинейной дина­мики. (Сидоров, Филатова, 2012). Пока­зано, что, основываясь только на одних простых спектральных характеристи­ках звукового сигнала, невозможно пра­вильно распознавать и идентифициро­вать различные эмоции (Сидоров, 2011).

Спектрально-временные признаки отражают своеобразие формы времен­ного ряда, спектра голосовых импуль­сов у разных лиц и специфику филь­трующих функций их речевых трактов. Они характеризуют особенности рече­вого потока, связанные с динамикой пе­рестройки артикуляционных органов речи говорящего, и являются интеграль­ными характеристиками речевого по­тока, демонстрирующими своеобразие взаимосвязи или синхронности движе­ния артикуляторных органов говоря­щего. Амплитудно-частотные признаки также несут важную информацию. Боль­шинство исследований в качестве на­иболее информативных акустических коррелятов эмоциональных и функцио­нальных состояний рассматривают ряд частотных, временных и мощностных характеристик голосового сигнала (Ада­шинская, Чернов, 2007). Как правило, стенические состояния ведут к возра­станию, а астенические – к понижению показателей основного тона, форман­та и интенсивности. Обнаружена взаи­мосвязь акустических параметров речи, эмоциональных и функциональных со­стояний, обусловленная индивидуаль­ными особенностями говорящих, что выражается в разнонаправленности из­менений ряда временных и мощност­ных параметров речи (Адашинская, Чер­нов, 2007). Однако применение этих признаков не позволяет в полной мере использовать их в качестве инструмен­та идентификации эмоционально окра­шенной речи (Сидоров, 2011).

В группе спектрально-временных признаков были выделены параметры, инвариантные к действию повышенного уровня сигнала, описывающие статисти­ческие характеристики речевого сигна­ла и основного тона, особенности спек­тральной структуры (Розалиев, 2009). Группа признаков эмоционально окра­шенной речи по кепстральным коэффи­циентам позволяет отделить сигнал воз­буждения от сигнала речевого тракта. Мел-частотные кепстральные коэффи­циенты широко используются в качест­ве набора признаков речевого сигнала, поскольку они учитывают психоакусти­ческие принципы восприятия речи и мел-шкалу, связанную с критическими полосами слуха (Siging, 2010; Сидоров, Филатова, 2012). Для группы признаков нелинейной динамики речевой сигнал рассматривается как скалярная величи­на, наблюдаемая в системе голосового тракта человека (Старченко и др., 2010). В настоящее время методы нелинейной динамики и нелинейной авторегрессии позволяют восстанавливать фазовый портрет аттрактора по временному ряду или по одной его координате. Экспери­ментально подтверждено, что выявленные отличия в форме аттракторов мож­но использовать для диагностических правил и признаков, позволяющих рас­познать и правильно идентифицировать различные эмоции в эмоционально окра­шенном речевом сигнале. Так, К.В. Сидо­ров и Н.Н Филатова предложили модель интерпретации знака эмоции по пра­вилу объединения нечетких множеств, характеризующих значения Rmax – усредненного максимального вектора реконструкции аттрактора по четырем квадрантам (Филатова, Сидоров, 2012). В работе Р.Ю. Романенко рассмотрена возможность применения вейвлет-анализа речевого сигнала с целью использования в системе распознавания речи (Романен­ко, 2010). Предлагается также проводить классификацию эмоционально окрашен­ной речи с использованием метода опор­ных векторов (Хейдоров, 2008). Как от­мечалось около десяти лет назад, аппарат акустического анализа речи уже доста­точно развит (Бабин, Мазуренко, Холоденко, 2004). Практически все наиболее часто используемые способы расчета акустических параметров речевого сиг­нала реализованы в известных и общедоступных математических компьютер­ных пакетах обработки сигналов (Бабин, Мазуренко, Холоденко, 2004), например, в пакетах SPL и IPPS фирмы Intel (Intel Developer Centers, 2013).

Таким образом, речь, порождаемая человеком, находящимся в различных эмоциональных состояниях, характери­зуется целым рядом показателей, в том числе таких, которые могут отражать процессуальную сторону устных выска­зываний. Однако, формальные крите­рии, хотя и позволяющие успешно дифференцировать отдельные эмоции по речевым образцам, не могут дать общей картины изменения текущего состоя­ния и отношения человека, поскольку не разработана антропоморфная система классификации эмоциональных прояв­лений в звучащей речи. Отправной точ­кой решения вышеописанной проблемы должна стать система, достаточно пол­но моделирующая процесс восприятия эмоций человеком, которая учитывает совокупность разных аспектов их про­явления, в том числе, в речи. Многомер­ность эмоций, их проявление на различных уровнях отражения и деятельности, способность к слиянию и образованию сочетаний исключают возможность их простой линейной классификации (Ви­люнас, 1984) или создания конечного дискретного набора определенных ва­риантов. Обычно выделяют как минимум десять типов эмоциональных отношений или так называемых фундаментальных эмоций, между которыми, однако, воз­можны плавные переходы.

Эти типы в достаточной мере услов­ны, обозначая (в виде понятийных ка­тегорий) лишь наиболее важные места эмоционального континуума. Поэто­му в разное время на основе различных экспериментальных методов и эмпи­рических фактов делались попытки выделить в этом разнообразии ограни­ченное число базовых факторов или ос­новных «компонентов эмоционального качества», которые бы выступали по отношению к отдельным эмоциональ­ным переживаниям как родовые исход­ные характеристики или «образующие». В настоящее время известен целый ряд таких независимых или частично пере­крывающихся признаков и оснований для деления эмоциональных явлений. Это объясняется тем, что эмоции прояв­ляются одновременно и во внутренних переживаниях, и в поведении, причем, и то, и другое обусловлено еще специфической физиологической актива­цией. При этом аппарат анализа ре­чевого сигнала также должен, хотя бы в некоторой степени, воспроизводить процессы, позволяющие нервной системе человека правильно распознавать всю гамму эмоций, т.е. необходима ан­тропоморфная модель эмоций.

Четырехмерная сферическая модель эмоций

Несмотря на всю сложность про­блемы, предпринятое ранее исследо­вание эмоциональных характеристик звучащего слова и семантики эмоций позволили построить универсальную четырехмерную сферическую модель эмоций (Виденеева, Хлудова, Вартанов, 2000; Вартанов, Виденеева, 2001; Варта­нов, Вартанова, 2003; Вартанов, Варта­нова, 2005). Эта модель объективирует и формализует в системе четырех количественных параметров все многоо­бразие переживаний и различные про­явления эмоций в речи, мимике, а также в семантике.

Построение модели проводилось экспериментально с помощью много­мерного шкалирования субъективных различий между эмоциональными со­стояниями, задаваемыми специально созданными образцами. Чтобы уровнять и сделать определенным содержание этих образцов, в эксперименте исполь­зовалось одно и то же слово, произне­сенное в разных эмоциональных состояниях. В одной серии использовалось слово «да», а в другой – «нет». Уже такие короткие одноударные слова, как сви­детельствует практика актерского ма­стерства (Станиславский, 1959), впол­не могут адекватно и полно отражать весь спектр эмоциональных проявле­ний. Эти слова, по сравнению с други­ми, несут более определенное и незави­сящее от контекста значение, но, в то же время, они более нейтральны и допуска­ют больше вариантов эмоциональной окраски при их произнесении. Из боль­шого числа образцов, наигранных про­фессиональными актерами и «подлов­ленных» в естественных условиях, было отобрано для каждого набора по 20 на­иболее удачных, отражающих10 типичных эмоций, наиболее существенных для актерского исполнения (Станислав­ский, 1959). Наличие двух наборов таких образцов (противоположных по семан­тике) позволяет найти универсальные, независимые от конкретного слова па­раметры, определяющие именно прояв­ление эмоций в речи.

В эксперименте регистрировались субъективные оценки степени попар­ного различия между звуковыми стиму­лами. Набор из 20 образцов в каждой из серий образовывал по 190 вариан­тов пар. Каждая пара предъявлялась не менее чем по 3 раза, т.е. всего 570 пар, которые следовали в случайном поряд­ке. В экспериментах участвовало в об­щей сложности 25 взрослых испытуе­мых и 30 детей разных возрастов (с 1-го по 8-й классы). Кроме того, тем же мето­дом исследовалась и семантика эмоций русского языка, для чего использовались различные наборы слов, обозначающих эмоции. Обнаружено, что и дети, и все взрослые одинаково успешно воспринимают и непосредственно сравнива­ют эмоциональные состояния другого, выраженные в интонациях речи – полу­ченные матрицы всех испытуемых хо­рошо совпадали (коррелировали) друг с другом, что позволило далее объеди­нить все данные и уменьшить случай­ный шум получаемых оценок, образую­щих матрицу различий.

Анализ (метрическим методом) мно­гомерного шкалирования усредненных матриц различий в соответствующих сериях показал, что размерность полу­ченного эмоционального пространст­ва по всем критериям должна быть оце­нена как равная четырем. Расположение точек-стимулов в четырехмерном пространстве проверялось на сферичность. Оказалось, что в серии «да» вариативность радиуса четырехмерной сферы составляла всего 9,71%, а в серии «нет» – 9,94%. Это хорошо согласуется с теоретическими разработками о принципах кодирования в нервной системе (Соко­лов, Вайткявичюс, 1989; Соколов, 2001; Вартанов, 2011), на основе которых мо­жет быть построена антропоморфная нейротропная модель эмоций.

После вращения евклидовы оси про­странства получили интерпретацию как определенные нейронные (мозговые) механизмы эмоций, а угловые характе­ристики – как субъективные качества эмоций. Первые две евклидовы оси про­странства связаны с оценкой ситуации: ось 1 – по знаку (хорошо, полезно, при­ятно или плохо, вредно, неприятно), ось 2 – по степени информационной опре­деленности (уверенность – удивление). Система третьей и четвертой осей связа­на с побуждением: ось 3 – притяжение, ось 4 – отвержение (оборонительная ре­акция), активное (агрессия) или пассив­ное (страх, затаивание) избегание. Это хорошо согласуется с известными моз­говыми механизмами эмоций (Симонов, 1981; 2001). Так, ось 3 и положительное направление оси 1 (вроде бы сход­ные качества) отражают работу разных групп нейронов гипоталамуса – побу­дительных и подкрепляющих, которые хотя и определяют, казалось бы, одни и те же положительные эмоциональные состояния, но находятся между собой в конкурентных отношениях (что проявляется в ортогональности осей моде­ли). Ось 2 и отрицательное направление оси 1 можно связать с работой гиппо­кампа (активизирующегося в условиях информационной неопределенности) и фронтальной коры (дорсальной ее части), а также с миндалины лимбиче­ской системой – вентральной части префронтальной коры. В целом префронтальная кора, являясь, как и гиппокамп, «информационной» структурой мозга, ориентирует поведение на сигналы вы­соковероятных событий. Ось 4, которая делит активные и пассивные оборони­тельные реакции, по-видимому, также описывает активность медиального гипоталамуса, точнее двух его структур, стимуляция которых вызывает оборо­нительные реакции нападения (положи­тельное направление оси 4) или бегства, соответственно (отрицательное направ­ление оси 4).

Оказалось, что три угла четырехмер­ной гиперсферы, выбранные в проекции осей 1-2, 3-4 и угол, образуемый движе­нием точки между двумя этими плоско­стями, задают такие субъективно переживаемые качества эмоций, которые описывал еще В. Вундт (Вундт, 1984). Это три качества: 1) эмоциональный тон (удовольствие – неудовольствие), 2) воз­буждение – успокоение – угнетение, 3) напряжение – разрешение. При этом первый и второй углы упорядочивают все 10 основных эмоций по модально­сти: 5 эмоций, определяемых ситуацией и 5, определяемых собственной актив­ностью. Но оказалось также, что при выборе другой системы угловых параметров – если взять три угла в системе осей 4-1, 3-2 и угол, образуемый движением точки между этими плоскостями, обнаруживается другая система класси­фикации эмоций, описываемая при ис­следовании выражений лица – круго­вая система Х. Шлосберга ([Schlosberg, 1941) и сферическая модель Ч.А. Из­майлова (Измайлов, Коршунова, Соко­лов, 1999), а также семантика Ч. Осгуд (Osgood, Suci, Tannenbaum, 1957). Она включает: 1) эмоциональный тон или знак (упорядочивает 6 основных эмо­ций по модальности), 2) активность или яркость эмоций (возбуждение – покой) и 3) эмоциональная насыщен­ность (сила проявления эмоций).

Таким образом, полученные данные показывают, что звучащая речь вполне определенно и достаточно точно выра­жает эмоциональное состояние гово­рящего, хорошо корреспондируя с дру­гими важными для человека каналами: зрительным восприятием (по мимике и выразительным движениям), ощуще­нием своего собственного состояния в самонаблюдении. Она также закрепле­на в языковых терминах (общественный опыт обозначения эмоций в социаль­ном канале коммуникации). Предлагае­мая четырехмерная сферическая модель может служить общей классификацион­ной системой для эмоциональных явле­ний, объединяя, как физиологические представления о мозговых механизмах эмоциональной регуляции, так и из­вестные психологические классифика­ции, полученные на основе разных эк­спериментальных данных. Она также количественно объясняет все возмож­ные нюансы и плавные взаимопереходы эмоций, представляя каждую конкрет­ную эмоцию как линейную комбина­цию выделенных основных психофизи­ологических параметров. По-видимому, у человека и животных существует специальный механизм эмоционального или чувственного отражения, необхо­димый для регуляции поведения и ори­ентировки в ситуации, работа которо­го может быть формально представлена в виде вышеописанной четырехмерной сферической модели. Наличие едино­го механизма во всех процессах позво­ляет представить все эмоциональные явления в одной и той же системе параметров. В результате данная модель, являясь антропоморфной (поскольку отражает субъективное отношение че­ловека) и нейротропной (поскольку от­ражает нейронные механизмы), позволяет количественно описать и наглядно представить изменения текущего состо­яния человека или его эмоционального отношения. Она может стать базисом при конструировании устройства, кото­рое в удобной форме представляет де­тектируемые по звучащей речи эмоцио­нальные состояния человека.

Результаты выявления параметров речевого сигнала в соответствии с предлагаемой антропоморфной моделью

В качестве исходного материала для выявления параметров речевого сигна­ла, которые должны воспроизводить па­раметры вышеописанной сферической модели эмоций, были использованы те же образцы звуковых фрагментов, что и в эксперименте с субъективными оценками. Это – 20 образцов слова «да» и 20 образцов слова «нет» (средняя дли­тельность 0,60 сек, стандартное отклоне­ние 0,19 сек; минимальная длительность 0,3 сек, максимальная 0,98 сек; запись в полосе до 8000 Гц). После исследования возможных параметров, наиболее полно представляющих свойства данно­го набора образцов, было обнаружено, что наилучшим образом поставленной задаче соответствует показатель, вычи­сляемый по следующему алгоритму:

Для звукового фрагмента с помощью стандартных средств – быстрое пре­образование Фурье со сглаживанием в минимальном скользящем окне по­рядка 10-15 мс вычисляется последовательностью мгновенных спектров мощности сигнала (в диапазон от 0 до 4000 Гц с шагом 50 Гц).

На основе последовательности мгно­венных спектров в скользящем окне (исследовались окна порядка 50-200 мс) вычисляется показатель микро-ва­риативности (стандартное отклоне­ние) амплитуды (квадратного корня от мощности) на каждой частоте.

Для вычисления интегральной оценки всего звукового образца использова­лось простое усреднение предыдущего показателя по всему интервалу звучания и получения одного вектора (по часто­те) для каждого звукового образца.

Такой алгоритм был выбран на ос­нове теоретических предположений об общих принципах кодирования информации в нервной системе (Варта­нов, 2011). Дополнительным основа­нием послужили наблюдения, впервые сделанные еще Ч. Дарвином о том, что эмоциональную выразительность голо­су придает именно определенное «дро­жание» тембра, что особенно важно для выразительности пения (Дарвин, 1940). Как отмечалось многими авторами, из­менения громкости речи в макро-вари­анте на протяжении всего высказывания также может характеризовать эмоцио­нальное отношение говорящего. Однако и быстрые микро-изменения амплитуды (в пределах короткого слова или междо­метия) также могут служить мерой изме­нения эмоционального состояния или отношения человека. При этом, для того, чтобы было возможно передать всю гам­му эмоций, как показано выше, недоста­точно только одного параметра, поэтому проверялась гипотеза о том, что речь – это многоканальный (разнесенный по частотам) сигнал, в каждой полосе ко­торого возможны независимые быстрые микро-изменения амплитуды. То есть, основное предположение свелось к про­верке относительного кросс частотного амплитудно-вариабельного кодирования эмоций в речевом сигнале.

Все полученные звуковые образцы (40 записей разной длины) были обра­ботаны с помощью специально создан­ных программных средств, а усреднен­ные значения предлагаемого параметра в исследованном частотном диапазо­не (с шагом 50 Гц) были собраны в еди­ный массив данных, который далее под­вергся статистическому (факторному) анализу. Вращение и интерпретация полученных факторов проводились с помощью специально разработанных средств на основе сопоставления с из­вестными для данных образцов (набо­ров слов «да» и «нет») оценками в четырехмерной модели эмоций.

В результате факторный анализ по­зволил оценить размерность и выявить 4 фактора (рис. 1), которые совокупно опи­сывают 70,15% всей дисперсии данных.

Рис. 1. График распределения собственных значений при факторном анализе всего набора звуковых образцов, включая слова «да» и «нет» (всего 40 образцов). Стрелками отмечена граница, в со­ответствии с которой можно оценить размерность факторного пространства как равную четырем.

После специального вращения в про­странстве модели эмоций для дости­жения наилучшего соответствия между нормированными значениями факто­ров и координатами образцов факто­ры получили спектральное выражение, показанное на рис. 2. Решение, полу­ченное таким методом вращения, не сильно отличалось от решения, получен­ного методом варимакс с нормализацией. В результате полученные факторы мож­но охарактеризовать как бимодаль­ные спектральные фильтры. Фактор 1 имеет основной максимум в области 3000 Гц и вспомогательный – 500 Гц. Фактор 2 имеет два близких максиму­ма на частотах 1000 и 1750 Гц. Фактор 3 имеет самые широко разнесенные мак­симумы – в низкочастотной области (около 150 Гц) и высокочастотной об­ласти (3500 Гц). Фактор 4 имеет близкие максимумы на 600 и 1500 Гц и близок к фактору 2, но сдвинут относительно него в низкочастотную область, попа­дая своими максимумами в его локаль­ные минимумы.

Рис. 2. Спектральные характеристики четырех выделенных факторов, которые описывают эмоциональные качества всех речевых образцов в совокупности. Горизонтальная ось дана в логарифмическом масштабе.В результате вычисления значения этих факторов и их нормализации (как этого требует теория кодирования и сферичность пространства психофизиологической модели) было проведено сопоставление оценок, полученных путем формального анализа звукового сигнала и субъективных оценок, в соответствии с моделью эмоций. Вычисленные коэффициенты корреляции для каждого набора в отдельности (слова «да» и «нет») и совместно представлены в таблицах 1-3.

📎📎📎📎📎📎📎📎📎📎