栏目分类

你的位置:性爱大师第1季电视剧 > 色 综合 > 淫声 维度语音情愫识别研究综述

淫声 维度语音情愫识别研究综述

发布日期:2024-09-26 04:30    点击次数:162

淫声 维度语音情愫识别研究综述

情愫是东说念主类智能的遑急组成部分, 使狡计机领多情愫、像东说念主一样识别和抒发情愫, 仍是一个亟须科罚的问题.Picard提议了情愫狡计的主张, 开辟了狡计机科学的新领域.当今, 情愫识别的研究主要荟萃在语音情愫识别、基于东说念主脸的情愫识别、文本情愫识别、肢体步履情愫识别.语音是东说念主类交流情愫和想想的最天然、最灵验的方式之一[1]淫声, 是东说念主类生涯和社会行为极其遑急的信息传递和情愫抒发交流的方式.语音是东说念主的发音器官发出的具有一定社会酷好的声息, 是线路语言的声息象征, 不仅承载了语义信息, 而且包含与情愫相干的声学信息, 如音高、响度、韵律、音色等[2].语音的情愫信息包含在声学参数随时候的变化中, 如基频、能量、频谱、语调变化等[3-5].与基于东说念主脸的情愫识别比拟, 语音书号具未必序性, 承载丰富的高下文信息.与文本比拟, 语音不错通过声学属性改变情愫强度.肢体步履情愫交互触及较多的心理学规模, 抒发情愫时存在较大的隐隐不确信性, 在特征索要与情愫分类方面仍靠近较大艰辛, 应用较少.

语音情愫识别研究已有30余年的历史, 眩惑了世界范围内的研究单元、学者们的要点研究.如好意思国MIT多媒体实验室以Picard老师指导的情愫狡计研究组(https://affect.media.mit.edu/), 研究方针包括多维信号建模、狡计机视觉及模式识别、机器学习、东说念主机交互和情愫狡计等.Picard的《Affective Computing》草创了狡计机科学和东说念主工智能学科的新分支——“情愫狡计”; 德国奥格斯堡大学Björn Schuller团队永恒勤劳于东说念主工智能、音频识别、情愫狡计、机器学习的相干算法和研究领域, 其开导的OpenSMILE情愫特征索要器用被粗鲁应用; 微软Microsoft研究院研究员讹诈CNN、RNN、LSTM等多种深度学习方法检测语音书号中的情愫信息; 南加州大学Jonathan Gratch老师的研究方针主要包括编造机器东说念主以及情愫狡计模子, 以及研究融会与情愫的关系, SAIL(signal analysis and interpretation laboratory)实验室研究以东说念主类交流为核心的信号及信息处理时期, 包括步履信号处理、情愫狡计、多模态信号处理、狡计多媒体智能、狡计语音科学等; 卡内基梅隆大学的东说念主机交互研究(https://hcii.cmu.edu/research/audio-emotion-recognition)将提议的两阶段分层语音情愫识别方法(two-stage hierarchical classification approach)应用于中风康复调整编造锻练中, 建议患者是否该休息、是否进行不同的考验; Virginia Affective Neuroscience Laboratory研究瞎想情愫的神经科学机制研究、步履学研究、情愫健康研究, 旨在为东说念主类情愫研究提供基础的表面研究, 讹诈EEG脑电图分析、fMRI成像时期研究东说念主类大脑对情愫的处理机制, 为股东情愫识别、情愫狡计等的发展提供融会表面相沿及指导.瑞士情愫中心(Swiss Center for Affective Sciences)是一个跨学科研究中心, 研究要点为情愫或情愫科学, 触及融会神经科学、心理学、语言学、情愫狡计领域.除此以外, 日本北陆先端科学时期大学院大学、新加坡南洋理工大学、新加坡国立大学、新加坡资讯通讯研究院、爱尔兰皆柏林圣三一学院、英国格拉斯哥大学、德国帕绍大学、加拿大滑铁卢大学、好意思国得克萨斯州大学等外洋繁密院校或机构勤劳于情愫智能相干领域的研究.

国内也有越来越多的科研单元加入该领域的研究, 如中科院自动化研究所主要研究听觉模式的分析和领略, 包括情愫交互时期等; 清华大学多年从事语音书号处理方面的研究, 开导的“汉语文语更正系统Sonic”在文天职析、韵律模子、合谚语音的天然度方面有遑急冲破; 东南大学从事语音书号处理、情愫信息处理等研究, 在汉语贯穿语音韵律特征、F0的生成模子、声赈济理、语音书号中的情愫信息处理等方面取得了一些有价值的研究效果; 天津大学在语音识别、对话、言语融会脑机理、言语领略、情愫狡计等领域的研究效果也均处于开始地位; 哈尔滨工业大学在语音情愫识别、情愫大脑融会领域进行深远研究等; 浙江大学与阿里巴巴成立前沿时期联结研究中心, 在东说念主工智能、情愫狡计及跨媒体分析等领域取得很好效果, 并联结发布“懂情愫”东说念主工智能系统Aliwood, 不错为视频所配音乐成立情愫模子.除此以外, 北京邮电大学、电子科技大学、大连理工大学、华南理工大学、中国科学时期大学、山东大学、西北大学、南京邮电大学、太旨趣工大学等皆在语音情愫识别或多模态情愫识别领域作念出遑急孝敬.

近几年来, 跟着研究者对东说念主工智能领域的珍重, 越来越多的会议与竞赛也进一步股东了情愫识别研究的发展.语音识别领域顶会INTERSPEECH和ICASSP每年皆有语音情愫识别的议题, 2016年举办了第6届音/视频情愫大赛(Audio/visual Emotion Challenge and Workshop, 简称AVEC 2016)[6], 2017年召开第1届外洋情愫狡计与情愫识别大会(1st Int’l Workshop on Affective Computing and Emotion Recognition, 简称ACER 2017), 会议议题涵盖了情愫狡计的方方面面.2018年, ACM多模态交互外洋会议(ACM Int’l Conf. on Multimodal Interaction, 简称ICMI)中的Emotion Recognition in the Wild(EmotiW)竞赛[7]包括音视频情愫识别子任务.国内也召开了该领域相干会议, 2016年, 宇宙模式识别学术会议的特殊议题即为第1届多模态情愫识别竞赛(MEC 2016)[8], 该竞赛包括音频情愫识别、样式识别和音视频交融的情愫识别这3个子任务, 采纳CHEAVD(CASIA Chinese emotional audio-visual database)当作数据库, 国表里共43个团队参加, 爱奇艺媒体智能组通过迁徙学习的方法, 在8类音频情愫识别任务中取得最高识别率44.22%.会议针对情愫语料库成立、情愫识别方法及应用张开深远盘考, 促进了通盘这个词领域的发展.2017年开展了第2届多模态情愫识别竞赛(MEC2017)[9], 方针是提高确切环境下的情愫识别性能, 数据库接收CHEAVD的推广版2.0, 促进了汉语多模态情愫识别的研究.2018年5月, 首届亚洲情愫狡计学术会议(ACII Asia 2018)在中国科学院自动化研究所召开, 围绕情愫狡计与智能交互进行探讨:情愫融会、情愫识别与生成、情愫交互界面与系统、情愫抒发评价、情愫对话系统、情愫代理与机器东说念主等, 是首个聚焦跨学科情愫狡计的亚洲论坛.

2018年, 中国科协发布了12个领域60个要紧科学问题和工程时期难题, 其中, 信息科技领域的“东说念主与机器的情愫交互”位列其中, “冷凌弃感不智能”已成为繁密研究者的共鸣.若何赋予机器东说念主“情商”, 使其具多情愫处理本事, 就成为就业机器东说念主领域刻下亟待冲破的方针.当今, 好意思国、日本、德国、中国等纷纷开展了情愫机器东说念主的研究, 而识别情愫则是已毕情愫交互的第一步.

语音情愫识别的研究触及诸多学科, 举例神经科学、心理学、融会科学、狡计机科学等.情愫表面是研究语音情愫识别的基础, 东说念主类情愫极其复杂, 心理学领域已产生众厚情愫表面来解释东说念主类情愫[10, 11].当今, 基于语音的情愫识别时期常用的情愫表面模子有两种.

●  一种是翻脸情愫模子, 界说几种“基本情愫”, 其他情愫由“基本情愫”不同进程修改和组合[12].该模子天然简易但对情愫的描模本事有限, 很难准确地面容自愿情愫.

●  另一种是维度情愫模子把情愫看作是渐渐的、平滑的更正, 不同的情愫不错映射到高维空间上的一丝[13].连年来, 该领域的研究也彰着地呈现出由翻脸情愫模子发展到维度情愫模子的总体趋势[14-16].

本文将开始从情愫的心理学研究基础张开, 先容情愫的评估表面与维度情愫模子; 在语音情愫的融会学研究阐发方面, 将综述包括语音情愫的大脑处理机制、情愫狡计模子以及脑启发的情愫识别算法; 在语音书号分析方面, 将提防先容语音维度情愫识别时期, 包括语音音频信号预处理方法、特征索要方法以及情愫预测算法、语音情愫识别时期已毕所需要用到的算法已毕器用.临了分析了该领域存在的问题, 并提议今后研究的要害问题(如图 1所示).

Fig. 1 Survey framework of speech dimensional emotion recognition 图 1 语音维度情愫识别研究综述框架 1 情愫的心理学研究基础 1.1 基本情愫表面

基本情愫表面觉得, 情愫具有原型模式, 即存在数种基本情愫类型.该表面将情愫分为基本情愫(basic/ primary/fundamental emotions)和次级情愫(non-basic/secondary emotions).

●  基本情愫固化在东说念主类神经自主系统之中, 每类基本情愫对应一个独有的、专门的神经通路, 能以特定的方式股东对他东说念主和情境作念出反应, 如语言声调、面部样式、体魄姿态等.

●  次级情愫是根据情愫的调色板表面[17], 由基本情愫搀杂而成.这些情愫的抒发方式具有跨文化各异, 其抒发方式由社会化经由所决定.Izard把次级情愫分为3类:第1类是由2~3种基本情愫搀杂组成; 第2类是基本情愫与内驱力的搀杂; 第3类为基本心境与融会的组合.

基本情愫的界说经常讹诈情愫评估模子.情愫是在比较个东说念主需求与外部要求经由中诱发的, 响应个东说念主与环境的关系, 可按照一套程序来面承诺评估, 这套程序叫作念评估变量(举例likelihood, desirability, unexpectedness, controllability, urgency, future expectancy)、查验项或评价维度.

1) Scherer要素处理模子

1984年, 日内瓦的瑞士情愫科学研究中心的心理学老师Scherer提议情愫要素处理模子(component process model)[18], 将情愫界说为产生融会行为(cognitive component)、调控经由(peripheral efference component)、步履动机(motivational component)、步履抒发(motor expression component)以及个情面感气象(subjective feeling component)的经由.情愫抒发是情愫经由的要素抒发, 通过评价收场进行模式化.Scherer[19]在后续研究中指出:当东说念主类搏斗到事件后, 会产生浅近、原始的动机趋力, 可通过含义评估(implication appraisal)查考事件的启事与可能带来的影响; 通过支吾评估(coping appraisal)查考我方适度该事件的本事有若干, 或是当无法适度它时, 有若干调整的空间; 与通过程序显耀度评价(normative significance appraisal)评估上述处理收场与自我说念德表率程序或社会说念德表率程序之间的一致性, 对该动机趋力进行评估与调整.

2) OCC情愫模子

在评估表面中最有影响力的是1990年Ortony, Clore和Collins提议的OCC模子[20].OCC情愫模子是早期对东说念主类情愫研究提议的最齐全的翻脸融会情愫论模子之一, 亦然第一个以狡计机已毕为目的发展起来的模子. OCC模子界说了22类基本情愫种类的酿成法律解释以及3个层级(事件events、智能体agents、方针object), 通过以下5个样式已毕从最初事件的分类到产生个性步履的齐全系统:1)对事件、步履或方针进行分类; 2)量化受到影响的情愫的强度; 3)新产生情愫与已存在情愫的互相作用; 4)将情愫气象映射到某种情愫抒发; 5)对情愫气象进行抒发.

3) Roseman评价表面

1996年, 好意思国罗格斯大学心理学老师Roseman[21]提议了具体的事件评价因素和实践狡计的框架结构, 通过它们的互相作用来推断所合成的情愫.评价因素分为不测、动机、情境、可能性、适度度、事件激发原因及问题类型, 其中, 动机与适度度是评估情愫的最遑急两个因素, 如:当情境与主体的方针不一致时, 常诱发无望情愫, 举例不悦或者后悔.他根据这7种评价因素给出17种基本心境, 其中, 积极情愫(动机一致)包括但愿、欢叫、劝慰、心爱、高傲; 无望情愫包括不悦、蔑视、懦弱、悲伤、缅怀、厌恶、攻击、缺憾、内疚、汗下; 某些情愫, 如空想、骇怪, 可根据事件激发原因决定积极情愫或无望情愫.Roseman所提议的基于事件评价的情愫模子, 酿成了一个较为完善的表面体系.

当今, 研究者们对基本情愫尚未达成共鸣, 大部分不雅点觉得存在6种基本情愫:懦弱、欢叫、震怒、厌恶、悲伤和惊叹, Ortony和Turner将这些不雅点整理见表 1[12].

Table 1 Basic emotion theories[12] 表 1 基本情愫表面[12]

基本情愫表面借助情愫评估模子, 以不同的方式解释情愫是若何产生以及演变的, 社会心理学研究者讹诈这种表面解释和预测东说念主对事件的反应机制以及心境模式.评估模子主要用于情愫建模与合成, 如文献[22, 23]讹诈OCC模子合成情愫, 且在机器情面感研究中粗鲁应用, 瞎想不同个性的情愫机器东说念主[24-26].评估模子基于翻脸情愫面容模子, 可抒发的情愫类别有限, 且有些情愫类别相配相似, 以至于环境很难触发这些情愫[27].

1.2 维度情愫模子(dimensional emotion model)

任何情愫发生时, 在某一属性或特性上不错有不同的幅值.情愫维度即是对情愫某种属性的度量, 维度具有极性.情愫维度表面觉得:情愫气象不是孤立存在的, 多个维度组成了东说念主类情愫空间, 不怜悯感之间是平滑过渡的, 讹诈维度空间中的距离不错线路不怜悯感的各异度与相似度.迄今为止, 研究者提议的维度分辩方法多种万般, 并莫得搭伙的程序评测哪种维度分辩方法更好.典型的维度表面包括:

1. Wundt的情愫三度说

Wundt在1863年提议情愫的维度表面[28], 觉得情愫由愉悦(pleasure)-不愉悦(displeasure)、豪放(excitement)-坦然(inhibition)和垂危(tension)-粗鲁(relaxation)这3个维度组成, 每一种特定情谊皆是这3个维度以不同方式的独有组合.在一个特定的时候里, 作用于意志的情谊总额被称之为总体情谊(total feeling).它是同期存在的不同性质的器官感受的总额, 它们结合起来, 酿成一个具有确信性质和强度的情谊特征的组合体.从情谊与不雅念的关系来看, 情谊不错看作是陪伴不雅念酿成的一种经由, 某一时刻的情愫在三维情愫空间中线路为一个孤立的点, 当对具体事件作出反适时, 情愫不错线路成一条轨迹, 一般情况下, 轨迹的肇端和要点皆位于原点(如图 2所示).

Fig. 2 Three principal axes of Wundt's emotion space[28] 图 2 Wundt表面中的情愫轨迹[28]

2. Schlosberg倒圆锥三维情愫空间

Schlosberg[29]对Wundt表面中的豪放-坦然维度进行了进一步研究, 提议了激活度的主张, 并通过对面部样式的情愫分类研究, 提议了由愉悦度、平缓度、激流水平这3个维度组成的倒立圆锥形情愫空间模子, 圆锥切面的长轴代表了情愫的愉悦度变化, 短轴代表了情愫的平缓度变化, 垂直于椭圆面的轴线路激活度强度变化(如图 3所示).Schlosberg提议, 与愉悦情愫比拟, 不愉悦的情愫具有更高的激活度.

Fig. 3 Schlosberg's three dimensional emotion model[29] 图 3 Schlosberg提议的三维情愫模子[29]

3. PAD情愫空间模子

Russell & Mehrabian[30]于1977年讹诈回想分析的方法研究震怒(anger)和蹙悚(anxiety)情愫, 发现震怒和蹙悚皆具有高激活度和低愉悦度, 但两者的上风度(dominance)彰着不同:震怒具有适度倾向, 蹙悚具有遵守倾向.结合先前的研究, 他们提议了PAD维度模子.该模子简易且相对完善, 通过SAM(self assessment manikin)量表, 不错快速测定个体的情愫气象, 因此被东说念主工智能领域粗鲁认同.PAD模子由3个维度组成.

1)   P代样式愫的愉悦度维度(pleasure-displeasure):表征心境气象的正负性, 已通过脑成像研究阐发了愉悦度维度.

2)   A代样式愫的叫醒度/激活度维度(arousal-nonarousal):线路心境生理激流水回绝警醒性.

3)   D代样式愫的上风度维度(dominance-submissiveness):该维度响应在相对动机的比较中, 线路心境对他东说念主和外界环境的适度力和影响力.

4. Plutchik抛物锥情愫空间模子

Robert Plutchik于1984年提议8种基本的“南北极”情愫:欢叫-悲伤、震怒-懦弱、厌恶-信任、惊叹-守望[31].雷同于三维颜料抒发空间, 讹诈强度、相似性和南北极性这3个维度来面容心境模子, 基本情愫不错抒发为不同的强度, 基本心境互相搀杂演化出次级情愫.Plutchik接收倒锥体来面容心境3个维度之间的关系.上述8种基本心境组成了椎体的截面(如图 4所示), 相邻位置的心境相似, 对角位置的心境对立, 锥体从下到上标明心境强度由弱到强.该模子的优点在于了了地界定心境, 并将心境的相似性与对立性很形象地抒发.Plutchik的情愫结构表面与Schlosberg的情愫模子相似, 皆将激活度与颜料强度进行对比, 但Schlosberg提议的锥形情愫空间未提议基本情愫, 而是从表面上推导出3个维度.

Fig. 4 Plutchik's three-dimensional structural model of emotions[31] 图 4 Plutchik提议的情愫三维结构模子[31]

5. Russell的欢娱度和强度环形模子[32]

Russell的后续研究标明, Schlosberg所提议的平缓-终止和激活度是很难区分的.于是, 他于1980进一步研究了情愫的环状模式, 提议了二维情愫面容模子:愉悦度和强度(如图 5所示).

Fig. 5 Russell's circumplex model[32] 图 5 Russell提议的情愫环形模子[32]

6.情愫的高维空间模子淫声

由于情愫空间维度的数目莫得定论, 是以部分学者根据我方的研究提议了高维空间模子.1974年, Krench[33]讹诈强度、垂危水平、复杂度和快乐度这四维模子来评定东说念主体所处的情愫气象; 1991年, Izard[34]提议的四维度分别是愉悦度、垂危度、豪放度和确信度, 并编制了情愫维度量表(DRS, DES)对情愫体验的评定比较准确.Frijda也根据我方的研究提议六维情愫模子, 分别是愉悦度、激活度、兴味度、惊叹度、复杂度、社会评价.

1.3 翻脸情愫面容模子与维度情愫面容模子的关系

尽管情愫档次表面与维度空间表面分别讹诈不同的方法面容情愫, 但是两者之间并不是对立的, 而是不错互相更正的.维度表面讹诈欧氏空间面容情愫, 坐标轴的不同取值组合线路一种特定的情愫气象, 但基本情愫不错通过一定方式映射到情愫空间中.Mehrabian[35]讹诈个性(personality)代表永恒的情愫, 接收通达性(openness)、尽职性(conscientiousness)、外向型(extraversion)、亲和性(agreeableness)和心境褂讪性(neuroticism)这5大特质来分析个性, 并研究了5个特质与PAD空间模子的内在关系, 提议了讹诈5个特质预测PAD值的方法.基于Mehrabian的表面, Gebhard[36]将OCC表面中的基本情愫映射到三维PAD情愫维度模子, 见表 2.Becker-Asano[37]根据情愫的动态表面, 提议了将基本情愫向PAD模子映射的方法.

Table 2 Mapping of OCC basic emotions into PAD dimensional space[36] 表 2 OCC基本情愫与PAD维度空间的映射[36]

李海峰、韩爱静[38]在对语音情愫识别综述中对比了翻脸情愫面容模子与维度情愫面容模子的优过失:翻脸面容模子天然较为简易, 但只可描摹有限种类的情愫类型, 其情愫描模本事泄漏出较大局限性; 维度模子很好地化解了这一问题, 讹诈维度空间精确地量化情愫, 减小情愫标签的隐隐性, 具有无尽的情愫描模本事, 更利于自愿情愫的面容, 连年来受到越来越多的珍重.

2 语音情愫的融会神经科学研究阐发 2.1 情愫的神经机制

情愫产生的脑机理研究资历了一个较长的经由, 受到神经剖解学、神经生理与认石友理学等相干科学发展的影响.想想家和科学家对心境奥秘的探讨不错追念到古代的估量和深重主义.直到文艺回话以后, 如霍布斯(Hobbes)、洛克(Locke)、笛卡儿(Descartes)等带有唯物主义颜色的形而上学家才把知觉、想维、学问、心境等和神经与脑的行为接洽了起来.1872年, 达尔文(Darwin)在《东说念主和动物的样式》一书里讲明了心境的生物学基础, 强调了环境对心境步履的作用, 酿成了心境生理心理学的雏形.自后的詹姆斯(James)提议了最早的心境生理-心理学表面, 为探讨心境的性质指出了一条必由之路.James-Lang表面(1885年)即心境外周表面, 强调心境的产生是植物神经系统行为的居品.1912年, Mills初度提议了情愫的大脑右半球假说, 右脑更多地决定了东说念主的空间感、抽象想维、音乐感与艺术性.1931年, Cannon提议了心境的丘脑学说, 觉得丘脑对心境颐养起着遑急作用.随后, Papez提议了Papez环路表面, 觉得下丘脑是心境抒发中心, 角落系统是心境体验部位.但其时, 这一趟路并没得到科学研究阐发.Maclean于1952年提议了心境脑的主张, 分辩了较为精采的心境相干脑区蚁集, 得到研究者的粗鲁认同(如图 6所示).

Fig. 6 MacLean's limbic system theory[39] 图 6 MacLean提议的角落系统表面[39]

20世纪60年代, 跟着心境生理-心理学的发展, 酿成了诸厚心境表面派系:阿诺德(Arnold)的评价-快乐论[40]觉得:心境的发生决定于对嗅觉刺激的评估, 而皮质快乐是心境步履的基础.普里布拉姆(Pribram)的“不协作”论[41]把大脑高级核心已毕的相识行为与心境接洽起来.20世纪中世的信息立异导致了认石友理学的成立, 把东说念主脑领略为一个信息加工系统, 酿成了心境的信息加工论.拉扎勒斯(Lazarus)的融会-评价表面[42]从心理学的角度填充了信息加工经由的心理内容, 提防于外界刺激与步履反应之间的融会评价要害, 丰富了脑内信息加工的内容.LeDoux[43]根据神经生理学上的研究提议, 角落系统对听觉刺激引起的情愫响应起着至关遑急的作用.角落系统老成处理情愫刺激, 主要包括4部分:嗅觉皮层、丘脑、眼眶额叶皮层、杏仁体[44, 45].跟着脑成像时期的发展, 研究者对情愫的大脑行为的研究也越来越精确.2004年, Florin讹诈fMRI对不同叫醒度、效价度情愫刺激下的前额叶皮层行为进行研究, 实验收场说明:前额叶皮层(PFC)左侧对效价度积极的情愫反应更活跃, 背外侧PFC对叫醒度愈加敏锐.2005年, LeDoux与Phelps[46]研究了动物模子及东说念主类步履中杏仁体对情愫处理的作用. 2008年, Mathersul[47]研究了脑电信号EEG的alpha波段与悲伤不悦情愫的关系.2014年, 康奈尔大学神经学家Adam Anderson[48]研究眼窝前额皮层的精采神经行为模式, 发现天然情愫是个东说念主的和主不雅的, 但是东说念主的大脑会把它们更正成一个程序的代码, 这个代码客不雅地代表着不同感官、情况以致东说念主的情愫.2018年, Kirkby等东说念主[49]讹诈半慢性颅内脑电图(iEEG)记载角落系统的多位点, 并周期性地评估被试的心境, 研究心境和蹙悚的神经编码, 并揭示一个生物方针, 有助于会诊和调整心境和蹙悚摧折(如图 7所示).

Fig. 7 Timeline of historical milestones in researches of the emotional brain 图 7 情愫大脑研究的遑急里程碑职责

连年来, 功能性磁共振成像fMRI(functional magnetic resonance imaging)时期与脑电图EEG(electroenc ephalo graphy)时期为东说念主类心境的核心神经机制研究提供了多量的研究凭据, 初步揭示了东说念主类心境不休经由中大脑的区域功能和神经机制(如图 8所示).

Fig. 8 Diagram of human emotion management system 图 8 东说念主类心境不休系统暗示图

(1)   心境感知:枕叶加工视觉信息, 顶叶进行躯体嗅觉整合和空间视觉整合, 颞叶进行听觉性言语功能处理, 岛叶接受来自内脏和躯体气象改变的感知信号.

(2)   融会评价:眶额皮层、腹内侧前额皮层对心境信息进行高级再加工, 完成对心境刺豪放机酷好的评价.

av收藏夹

(3)   主不雅调整:前部扣带回老故意境加工中的冲突监控; 杏仁核通过与海马系统的互相作用, 不错使心境性事件的讲述性牵挂变得愈加巩固.

(4)   自主行为:颞上回与社会性心境相干, 完成对精采嗅觉的加工; 后扣带皮层与评断说念德价值相干.

(5)   外显步履:脑干和下丘脑颐养心境行为中的躯体与自主反应, 已毕东说念主类的情愫步履抒发.

在心境神经机制研究方面, Lindquist[50]对比了两种情愫加工脑机制的研究方法.

●  一种方法是Locationist方法.该方法假定翻脸的情愫类别是由其对应的不同脑区产生, 举例懦弱对应于杏仁核(amygdala)的激活、厌恶对应于脑岛区(insula)的激活、不悦对应于眶额叶皮层(orbitofrontal cortex, 简称OFC)的激活、悲伤对应于前扣带皮层(anterior cingulate cortex, 简称ACC)的激活.

●  另一种方法是心理学建构论方法(psychological constructionist approach).该方法假定情愫气象是由大脑功能蚁集的互相作用酿成, 杏仁核、脑岛、腹内侧眶额皮层、前扣带皮层、丘脑皆参与多个主要情愫的酿成.

Lindquist等东说念主通过对多量东说念主类情愫的神经影像学文献的总结, 觉得更多地凭据与构建论一致, 不同的大脑区域互相作用共同参与情愫的体验与感知.

更具体地, 大脑若何处理语音情愫, 亦然听觉语言处理研究的一个热点课题.语义信息以及韵律痕迹对语音情愫的领略起着遑急作用.有研究标明:大脑右半球老成处理情愫韵律信息[51-54], 但实验的任务类型或者被试低唱复述也可能引起双边激活模式.Ross[55, 56]的偏侧性假定觉得:无论情愫激活度若何, 大脑右半球在处理情愫语音时更具有优胜性.与之比拟, 激活度假定[57]觉得:大脑左半球对积极情愫具有主导性适度, 右半球主要适度无望情愫.由于韵律信息跟着声学参数变化, 如基频f0、强度以实时长等, Zatorre[58]提议了右半脑老成基频信息的感知, 左半脑处理强度以实时长信息.文献[59-62]讹诈fMRI时期研究语音情愫抒发时脑区的激活进程.Kotz[63]研究发现, 具体的语音情愫抒发由大脑的额叶-岛盖-颞叶(fronto-operculo-temporal)区进行编码, 颞叶区老成副语言声学处理, 额叶区进行情愫评估, 左侧颞叶-小脑(temporo-cerebellar)区老成时序处理, 右侧额下回(inferior frontal)区分不同的情愫抒发.文献[64]研究发现, 通过情境高下文的学习, 通过语义与非语言赢得情愫意图的道路一致.语境学习假定觉得:情愫气象基于个东说念主对该情愫以往的学习教学, 情愫系统由事前界说的主张进行评估, 然后根据教学进行精采处理.

2.2 情愫狡计模子

情愫相干的融会神经科学的研究, 促进了情愫狡计模子的发展, 产生了一系列能已毕情愫狡计的系统.当今, 较多的情愫狡计模子是基于情愫融会表面.Elliott已毕了一个基于OCC模子的情愫推理机(affective reasoner)系统[65], 每一种心境皆由一组不同的融会导出要求通过推理得出.Reilly已毕了一个不错实时更新心境气象的EM系统[66].Gratch等东说念主将融会经由引入情愫的研究, 提议了一种或者解释情愫动态变化经由的EMA[67]系统.MIT东说念主工智能实验室的Velasquez提议了一种新的情愫更新法律解释, 由此开导了一个或者适度各类情愫时局的动态变化的Cathexis模子[68].

ALMA多档次情愫模子[36]讹诈OCC Model测量短期情愫、PAD情愫量表中期情愫(mood)以及五大东说念主格特质来揣测永恒情愫气象, 该模子对情愫进行了更齐全的界说, 不错更天然地已毕不怜悯感的语言或非语言的情愫抒发.

Becker-Asano提议了WASABI[37]情愫狡计模子, 该模子交融了基于维度情愫表面的情愫动态更新法律解释以及OCC情愫评估表面.与其他基于OCC表面的狡计模子比拟, 该模子成立了愈加齐全的反馈机制.Marsella[69]将情愫狡计模子总结如图 9所示.

Fig. 9 A history of computational models of emotion[69] 图 9 情愫狡计模子发展史[69] 2.3 类脑语音情愫识别算法

听觉通路从听觉信息的感知、讲话东说念主识别、语音感知到言语生要素为不同的品级[70], 语音插足足下耳蜗, 耳蜗至极于一个滤波器组, 将声息以时频谱的式样呈现, 并以相应的神经电信号方式传递至低位脑干, 低位脑干老成预处理、缩放和归一化, 之后信号插足下丘脑、上丘脑和丘脑区, 丘脑老成适度平缓力, 并产生信号传递至角落系统和主要的听觉皮层.临了, 经角落系统和听觉皮层处理的信号再经过特定的通路进行语音识别、言语生成、讲话东说念主识别和音乐感知等(如图 10所示)[70].

Fig. 10 Block diagram of the human auditory pathway[70] 图 10 东说念主类听觉通路框图[70]

根据大脑角落系统的结构, Morén等东说念主提议了大脑情愫学习模子(brain emotional learning model, 简称BEL model)[45], 对角落系统4个部分之间的情愫学习机制进行数学建模, 接收一种基于奖励信号的强化学习方法颐养模子参数, 并通过实考解说BEL模子的输出对奖励信号有彰着依赖性(如图 11所示).该模子在无极时序预测领域取得粗鲁应用[71-73], 与神经蚁集模子比拟, 具有结构浅近、狡计复杂度低等优点; 但是对于奖励信号的设定方法当今莫得搭伙的法律解释.随后, 出现了一系列优化BEL模子参数的研究, 如:Lotfi等东说念主[74]瞎想了竞争型BEL模子并接收遗传算法优化其参数, 增强了其处理高维多分类数据的本事; Lucas等东说念主[75]在BEL模子的基础上, 讹诈感知输入与情愫痕迹的步履产生机制, 提议了BELBIC智能适度器, 并将该适度器用于非线性系统中, 考证了其具有很好的适度本事、抗干豫本事和系统鲁棒性.Parsapoor[76]讹诈隐隐推理系统(fuzzy inference system)对BEL模子的杏仁体和眶额叶皮层模块进行优化, 得到BELFIS模子.Motamed等东说念主[77]讹诈自适合神经隐隐推理系统(adaptive neuro-fuzzy inference system, 简称ANFIS)和多层感知器(multilayer perception, 简称MLP)对BEL模子进行更始, 用于语音情愫识别, 并在Berlin语音情愫数据库上进行实验, 与SVM、KNN、BEL、BELFIS、BELBLA模子的实验收场进行了对比, 提议的算法取得更高的识别率(如图 12所示).

Fig. 11 BEL model proposed by Morén, et al.[45] 图 11 Morén等东说念主提议的BEL模子[45] Fig. 12 An optimized model of BELthat merges the ANFIS and MLP for speech emotion recognition[77] 图 12 基于ANFIS和MLP更始的BEL模子用于语音情愫识别[77]

模仿东说念主类心境机制的类脑情愫狡计研究也曾初始, 在东说念主脑这个“巨象”上, 研究职责者靠近着若何深远解读大脑功能和揭示这个通达的复杂巨系统运行机制的挑战.

3 语音维度情愫识别时期研究阐发

语音情愫识别系统是经典的模式识别系统, 包括系统进修阶段和测试阶段.对于采集的语音书号均先进行预处理后, 根据情愫空间面容模子的不同, 进行特征分析与识别任务时期瞎想(如图 13所示).对于翻脸情愫面容模子, 语音情愫识别任务可视为多分类问题, 为样本预测翻脸型类别标签; 对于维度情愫模子, 其任务可视为回想预测问题, 为样本预测贯穿输出量的问题.分类问题与回想问题接收的建模方法以及性能评价方针不同:分类模子平时为输入样本预测得到与每一类别对应的像概率一样的贯穿值, 这些概率不错被解释为样本属于每个类别的似然度或者置信度, 预测到的概率不错通过遴荐概率最高的来更正成类别标签; 回想预测问题预测的是情愫在不同维度上的贯穿数值, 其性能不错用预测收场中的诞妄来评价.在特定要求下, 分类问题和回想问题是不错互相更正的.如:Grimm等东说念主在翻脸情愫识别任务中, 开始将索要的全局统计特征讹诈隐隐逻辑系统(fuzzy logic system)映射到贯穿三维情愫空间, 再讹诈KNN识别为翻脸的7类情愫[78].天然DNN时期的粗鲁使用使得多量职责不需要进行数据预处理, 但语音书号有着低信噪比的特殊性, 繁密学者对语音书号的预处理方法进行了多量研究.因此在本文中, 勉强预处理时期、特征索要时期及分类器瞎想等方面进行综述.

Fig. 13 Framework of a speech emotion recognition system 图 13 语音情愫识别系统框架 3.1 语音情愫特征索要

特征索要与处理, 是语音情愫识别中遑急的部分, 特搜集径直影响识别器的识别本事和鲁棒性.特征索要的目的是从语音书号中索要一方面能表征不同识别单元的声学各异, 另一方面有能表征沟通识别单元不相通本之间的声学相似性的信息.

语音情愫信息通过语义和非语义两种式样传递:语义信息以一定的语言法律解释(语法、修辞等)传递讲话者的情愫; 非语义语音情愫信息包括两种式样——心境韵律(emotional prosody)[79]和非语言发声(non-linguistic vocalizations)[80, 81].

3.1.1 声学特征

东说念主们可通过感知语音中的声学痕迹, 从中索要出所携载的情愫倾向.声学特征是孤立于语言内容而传递的情愫信息, 不受文化各异的影响, 对于不同语种的情愫数据库, 均可通过索要声学特征进行情愫识别[82-86].声学特征可分为LLDs特征(low-level descriptors)和统计特征(functions), 其中, LLDs特征陆续以帧为单元进行索要, 不错从韵律特征、谱特征、音质特征对语音情愫信息进行抒发; 统计特征一般是将LLD特征在孤立的语句或单词上进行统计, 包括极值、方差、峰度、偏袒度等.

1. LLDs特征

(1) 韵律特征

韵律特征被觉得是与发音单元(音节、单词、短语、句子)相干联的声学特征, 又被称为“超音段特征”, 在情愫识别中应用相配粗鲁[87-89], 主要包括时候特性、基频、能量等, 被觉得与情愫的感知具有彰着的关系.文献[90]得出韵律特征与叫醒度相干, 音质特征与愉悦度相干的论断.Pereira等东说念主[91]分析了语音韵律特征与情愫维度的相干性, 数据收场标明, 基音等韵律参数与维度空间中的叫醒度对应.一般觉得, 音质参数与维度空间中的效价度对应[92].

近来, 研究者提议了一些新的韵律特征.Arias[93]讹诈函数型数据分析(FDA)成立中性参照模子, 狡计基音频率的主要素分析(PCA)映射矩阵当作每条语音的特征.具有高激活度的语音情愫信号, 其能量多荟萃在高频要素, 低激活度的情愫语音书号的基频较低[94].Sant’Ana[95]提议了赫斯专指数(Hurst exponent)用于讲话东说念主识别, Zao[96]进一步提议pH时频声源特征与情愫的愉悦度相干, 取得了较MFCC, TEO-CB-Auto-Env特搜集更高的识别率.Mencattini[97]提议了基于CQT的频域幅值包络特征, 并结合能量、小波近似重量和细节重量、过零率、共振峰、TEO等特征, 共520维特征用于维度情愫识别.

(2) 音质特征

音质特征面容声门属性, 语音的音质特征主要指具有不怜悯感气象的讲话东说念主发音方式上的区别.Scherer的情愫要素处理模子提到音质特征影响情愫的变化.Tato等东说念主[98]探讨了情愫维度对语音识别的孝敬, 研究发现, 音质类特征对于区分叫醒维接近而效价维隔离的情愫(不悦和喜悦)有较好的效果.

Borchert[92]将共振峰、不同频带的频谱本事散播、谐波噪声比、频率微扰和振幅微扰在内的音质特征用于效价度预测, 将韵律学特征用于激活度预测.实验收场标明, 音质特征更适用于区分叫醒度沟通、效价度不同的情愫.Idris[99]讹诈音质特搜集、韵律学特搜集以及二者搀杂特搜集, 采纳多层感知器蚁集分别在柏林情愫数据库上进行情愫识别, 平均识别率分别是59.63%, 64.67%和75.51%.Kachele[100]将谱特征、韵律学特征和音质特征用于抒发语音的万古信息, 并讹诈更始的前向遴荐/后向剔除算法进行特征遴荐, 在公开的柏林情愫数据库上进行测试, 平均识别率为88.97%.

(3) 谱特征

谱特征平时用来线路发声器官的物理特征, 是信号的短时线路, 一般觉得在很短时候内(10~30ms)相对自如, 不错通过某时刻相近一段短语音书号得到一个频谱.频谱线路频率与能量的关系, 有助于更好地不雅察音素.常见的频谱图主要有线性振幅谱、对数振幅谱、自功率谱.谱特征主要有线性预测系数(linear predictor coefficients, 简称LPC)、线谱对参数(line spectrum pair, 简称LSP)、单边自相干线性预测系数(one-sided autocorrelation linear predictor coefficients, 简称OSALPC)等.频谱图中的共振峰佩带了声息的辨识属性, 讹诈倒谱不错索要包络信息, 得到共振峰用于识别.常见的倒谱特征有感知线性预测倒谱系数(perceptual linear predictive cepstral coefficients, 简称PLP)、线性预测倒谱系数(linear predictor cepstral coefficients, 简称LPCC)、单边自相干线性预测倒谱系数(one-side autocorrelation linear predictor cepstral coefficients, 简称OSALPCC).接洽到东说念主耳听觉系统响应不同频率信号的智谋度不同, 将线性频谱映射到基于听觉感知的Mel非线性频谱中, 再进行倒谱更正, 得到Mel倒谱系数(Mel frequency cepstrum coefficients, 简称MFCC).MFCC已粗鲁应用于语音识别、情愫识别领域.

另外, 最近研究者们也提议了一些新的谱特征.Huang[101]提议一种基于小波包的自适合滤波器组构建方法(wavelet packet cepstral coefficients, 简称WPCC), 对MFCC有很好的推广作用, 而且不错讹诈2D的小波包进行图像处理, 适用于语音视觉多模态情愫识别系统.Ziolko[102]提议了Fourier-Wavelet特征索要方法, 开始对语音书号进行小波变换, 然后再进行傅里叶变换.Idris[103]提议两种谱特征优化方法:一种方法是基于翻脸谱特征的优化, 一种是交融谱特征.讹诈这两种优化方法得到的特征逼近进行情愫识别, 识别率较优化前分别提高2%和4%.Espinosa等东说念主[104]在VAM数据集上测试了韵律学特征逼近、音质特搜集、谱特搜集对PAD维度空间识别率的影响.Wang等东说念主[105]提议了新颖的傅里叶参数模子组合傅里叶参数偏执一阶、二阶差分用于语音情愫识别, 并讹诈提议的特征与MFCC结合提供了讲话东说念主孤立的语音情愫识别.Ghosh等东说念主[106]从语音书号及声门流量信号中索要频谱图, 讹诈堆叠的自编码方法进行频谱图编码, 临了讹诈RNN进行4类情愫识别, 接收基于声门流量信号的表征学习模子与基于效价度和叫醒度分类进修的迁徙模子来提高RNN进修效力.实验收场泄漏:表征模子与迁徙模子的加入, 不错提高1.17%的识别率.

2.统计特征

进行语音情愫识别时, 帧特征经常不径直当作蚁集输入进行学习, 而是讹诈这些特征的一些统计值进行神经蚁集进修.表 3给出了常用的统计特征.

Table 3 LLDs and functions 表 3 LLDs特征以及统计特征

Schuller等东说念主[107]在一个AVIC(audiovisual interest corpus)语料库上分别讹诈帧特征和全局统计特征进行语音对话兴味识别, 他们开始索要了包括基频、能量、MFCC、共振峰、频率微扰、振幅微扰、谐噪比等37维LLD特征弧线, 然后统计出每条弧线的最大值、最小值、均值、方差、峰度、偏袒度等共19维全局特征统计值, 临了, 分别讹诈MI-SVM(multi-instance learning-SVM)和SVM对LLD特征和统计特征进行兴味识别, 定量对比其识别准确率.实验收场标明, 基于统计特征的识别收场比帧特征的识别收场愈加准确.

情境高下文对情愫的识别具相要害性作用, 万古统计特征在区分高激活度和低激活度情愫语音的效果较好, 但是对激活度相怜悯感的区分本事较弱, 如很难区分具有沟通激活度的不悦和欢乐情愫语音.具未必序信息的帧特征在区别效价度不同的情愫语音[108].

当今, 已有一丝文献尝试考中不同窗长来提高情愫识别率, 但存在的文献莫得搭伙的谜底.Origlia[109]觉得:当今, 特征索要方法是基于通盘这个词语音书号, 莫得接洽语音内容的变化, 这与韵律研究的表面基础是矛盾的.并以此提议一种基于音节的特征索要办法, 同期接洽音节核, 不错减少信息的处理量.Sethu[110]觉得, 帧特征和全局统计特征不及以全面的表征情愫的时序信息.因此提议以段为单元的特征索要, 可通过基音频率和前3个共振峰的概括进行索要, 将该特征与短时帧特征和全局统计特征交融不错提高情愫识别率.李海峰等东说念主[111]使用“语段特征”用于识别, 并给出了各类情愫气象对应的“最好识别段长”, 构建了全局适度Elman神经蚁集用于将全局统计特征与基于语段的时序特征相交融.随后, 该团队又提议了一种基于不同期间单元的多粒度特征索要方法, 以及不错交融多粒度特征的基于融会机理的回馈神经蚁集(cognition-inspired recurrent neural network, 简称CIRNN)[112].该蚁集既卓绝了情愫的时序性, 也保留了全局特性对情愫识别的作用, 已毕多层级信息交融.Deng等东说念主[113]讹诈Bag-of-Audio-Words(BoAW)算法代替传统的统计特征, 该方法针对LLDs特征, 讹诈k均值聚类方法或飞快采样方法生成编码本(codebook), 再讹诈多重赋值量化时期(multi-assignment quantisation)将每帧语音书号索要的LLDs特征分派到相应的编码本得到直方图, 将直方图归一化后当作特征用于识别.

3.1.2 语音书号中的语义信息

语音书号中传递的语义信息对于情愫识别具有一定的作用, 有些特定的词汇不错抒发相应的情愫倾向. Lee等东说念主[114]将声学特征、句法、语篇信息相结合用于情愫识别, 引入情愫显耀性的信息表面来抒发语言层面的情愫信息.对电话就业中心数据的实验收场标明, 交融特征不错灵验地提高情愫识别率.Schuller[115]提议一种新的方法将声学特征与语义信息交融用于情愫识别:开始, 索要声学特征讹诈分类器进行识别; 然后, 讹诈置信蚁集根据语义高下文进行识别; 临了, 讹诈Neural Net将两次识别收场进行有狡计交融.Wu等东说念主[116](2011)将语义标签识别收场与声学韵律信息交融来提高语音情愫识别收场, 语义标签来自知网汉语学问库(Chinese knowledge base HowNet), 用于自动索要情愫关联法律解释(emotion association rules, 简称EARs).

3.2 语音维度情愫预测器

情愫识别通过获取东说念主类情愫信息, 识别东说念主类的情愫, 提高机器与东说念主之间天然交互本事.根据情愫面容模子的不同, 语音情愫识别系统接收的识别算法亦不同.维度语音情愫识别问题可建模为回想预测问题, 常见的回想预测算法包括线性回想(linear regression)、k-NN、ANN、PLS、SVR, 刻下新兴的深度神经蚁集如LSTM、RNN等.

偏最小二乘法(PLS)[117, 118]结合了主要素分析PCA和典型相干分析CCA的想想, 适用于特搜集较大况兼存在多重共线性的预测建模问题.Mencattini[97]将7类翻脸情愫投影到二维情愫空间面容模子(效价度-激活度)中, 接收偏最小二乘法回想(PLSR)模子在印度语音数据库EMOVO上对男性、女性发音语料进行情愫预测, 平均判决系数分别为0.89和0.72.

SVR是支抓向量在函数回想领域的应用[119-121], Grimm等东说念主[122]在VAM数据库上讹诈SVR在效价度、激活度和适度度这3维情愫属性上进行情愫预测, 其性能优于k-NN、基于法律解释的逻辑分类器(rule-based fuzzy logic classifier).Giannakopoulos等东说念主[123]讹诈效价度-叫醒度的二维情愫空间面容情愫气象, 并使用k隔邻算法(k-NN)对电影裁剪语句的情愫坐标值进行估计.Kanluan等东说念主[124]在VAM数据库上进行多模态情愫识别, 索要韵律学特征、谱特征等声学特征以及基于二维翻脸余弦变换的面部图片特征, 讹诈SVR分别进行语音情愫识别和面部情愫识别, 再讹诈有狡计级交融方法将两种模态预测收场进行权重线性交融, 预测收场较语音情愫识别提高12.3%.

LSTM蚁集使用特殊的神经元在万古候范围内存储并传递信息, 允洽于处理和预测时候序列中万古候蔓延的信号, 因此, 该蚁集不错牵挂情愫随时候的变化信息.讹诈长短时牵挂轮回蚁集(LSTM-RNN)进行维度情愫识别, 取得了比传统方法更好的效果.Wöllmer[125]接收AVEC 2011(Audio/Visual Emotion Challenge 2011)[126]情愫竞赛提供的声学特征结合面部理解特征, 在SEMAINE情愫数据库上进行音视频情愫维度识别.实验收场标明:与其他参赛者提供的情愫识别模子比拟, 基于LSTM蚁集的平均识别效果最好.Ringeval等东说念主[15]将LSTM- RNN用于音频、视频、生理信号的多模态维度情愫识别, 该蚁集不错动态地讹诈万古候的高下文信息, 同期幸免RNN蚁集的梯度消失问题.文中比较了不同窗长对各模态情愫识别收场的影响, 以及特征级交融与有狡计级交融方法的识别效果.研究收场标明:效价度的情愫识别比激活度需要更长的窗长, 有狡计级交融取得更好的识别效果.在RECOLA数据库上, 该模子在激活度和效价度上的一致相干系数分别可达到0.804和0.528.Chao等东说念主[127]讹诈时候池对输入特征进行时候建模, 并引入ε不敏锐亏蚀函数更始LSTM-RNN模子, 使其对标注噪声具有更好的鲁棒性.该模子在RECOLA数据库上对效价度和叫醒度进行情愫识别皆取得了更好的效果, 但在叫醒度上存在过拟合时局.

国内也有越来越多的学者提议新颖的语音维度情愫识别方法.陈逸灵等东说念主[128]讹诈MFCC特征, 结合语谱图中索要时候烽火序列特征、烽火位置信息特征这3种特征分别用于语音情愫识别, 并将识别收场与PAD (pleasure, arousal, dominance)维度进行相干性分析, 得到特征的权重系数, 加权交融后赢得情愫语音的最终PAD值.李海峰等东说念主[129]通过构建对情愫进程相对步调敏锐的Dim-SER系统, 提议了步调敏锐的神经蚁集算法.实验收场标明, 该蚁集性能较常用的k隔邻算法和支抓向量回想算法比拟有了耕作.

当今, 上述基于单一数据的语音情愫识别性能也曾取得了很大的耕作.然则, 在许多骨子应用情境下, 系统必须接洽文化、语言、种族、个体、年事等影响下数据的情愫分类.从大脑职责神经机制来讲, 不同种族、文化等东说念主群对情愫的反应具有一致生理生化基础, 康奈尔大学神经学家Anderson的一项研究标明, 东说念主的大脑会使用一种程序的代码来说出相通的情愫语言[48].东说念主的大脑会对从愉悦到不愉悦、好到坏的嗅觉产生一种特殊的代码, 读起来就像一个“神经价表”.在这个价表中, 一组神经元在一个方针歪斜等同于积极心境, 其他方针的歪斜则等同于无望心境.天然存在一致性的生理基础, 但是文化对于个体的格调、步履、语言或非语言的反应皆有着潜移暗化的影响, 这些各异影响了东说念主类跨文化情愫抒发、感知与领略.多情愫心理学研究标明, 文化配景对于个体若何讹诈面部和声息痕迹从多感官刺激中特意志地评估情愫含义有着遑急的影响[130-132].Elfenbein和Ambady[133]发现, 同种族或者区域的东说念主群具有比较一致的情愫抒发和识别方式, 情愫识别会愈加精确一些.上述心理学及融会学研究标明:从大脑脑区的精采神经行为模式角度看, 情愫感知存在着相似性, 但是文化配景、语言、个体各异又影响着情愫的感知.在共同的信息加工机制下, 进行跨文化、跨种族等语音情愫识别有了表面基础.Peng[134]提议一种迁徙线性子空间学习(transfor linear subspace learning, 简称TLSL)蚁集框架进行跨库语音情愫识别, 在学习的投影子空间中索要鲁棒的跨库特征表征, 其上风是科罚了刻下大多数迁徙学习只专注于寻找最可能迁徙的特征的颓势.通过结合实验, 解说TLSL用于跨库语音情愫识别是灵验的.Hesam等东说念主[135]讹诈基于自动语言检测的模子, 不错提高多语言情愫识别的准确率.在3种语言(德语、罗曼语系、汉藏语)的6个数据库上进行测评, 将情愫分别在效价度与叫醒度上进行分类.实验收场说明:尽管语音情愫识别更多地依赖于声学特征, 但其语言学信息不错提供话者文化配景相干的有用信息.通过识别话者的语言当作先验学问, 基于该学问的学习模子不错提高情愫识别系统的性能.Kaya等东说念主[136]接收交融了线性讲话东说念主归一化、能量归一化、特征向量归一化的级联归一化方法, 以减少跨库以及不同讲话东说念主各异带来的影响, 并讹诈极限学习机(extreme learning machines, 简称ELM)在跨语系的5种语言情愫数据库上测试该归一化方法的灵验性.Silvia与Schuller[137]于2015年情愫狡计外洋会议ACII上, 对跨语言声学情愫识别作念了综述及远景瞻望.

4 维度语音情愫识别研究的相干资源 4.1 语音维度情愫数据库

情愫数据库是语音情愫识别的先决要求, 提供进修与测试用语音样本, 数据库的质地径直影响情愫识别率以及研究收场的可靠性.当今, 语音情愫识别领域以翻脸情愫数据库居多, 如Belfast情愫数据库、EMO-DB德语情愫数据库、FAU AIBO儿童德语情愫数据库、CASIA汉语情愫语料库、ACCorpus汉语情愫数据库等, 维度情愫语料库有待进一步丰富.下文开始先容维度语音数据库的成立与标注方法, 然后先容一些代表性的维度情愫数据库.

4.1.1 情愫数据库的成立

根据语料的情愫天然度进程的不同, 情愫语音数据库的成立方法主要有3种.

(1)   天然情愫语料:从执行生活中采集确切的天然语料, 进一步通过东说念主工筛选与标注的方法赢得可用语料.这类情愫语料具有最高的天然度, 不错觉得是确切酷好上的情愫语料.这种语料在使用前必须进行分类标注, 由于分类的程序不搭伙, 况兼有些情愫东说念主类本身也难以区分, 因此这类情愫语料具有一定局限性.

(2)   模拟情愫语料:由专科或善于抒发情愫的东说念主进行情愫师法录制语料.这种有目的性录制的特定情愫语料具有更好的区分性, 但这种语料的情愫天然度取决于灌音者的师法本事, 未必情愫要素被夸大而不可体现确切的情愫.

(3)   招引情愫语料:讹诈情景短片或者变装束演的方式营造相应的环境氛围, 从而招引灌音者产生特定情愫后灌音.讹诈该方法赢得的语料接近确切情愫, 但由于环境诱发刺激效果很难评测, 导致较难判断诱发的情愫是否是非.

4.1.2 情愫数据库的标注

语音情愫数据库的标注是一个艰辛但又极为遑急的职责, 数据标注的质地对基于语音的情愫研究有着遑急的酷好.已毕较为精确的语音情愫标注平时需要3个方面:音字转写(transcription)、注解(annotation)、标注(labelling)[138].音字转写是将音频中的语言信息以笔墨的式样转写标注, 行将语音弯曲为笔墨; 注解是在转写基础上进一步的标注韵律信息、语速、音量/调变化等副语言特征; 标注是对语句进行情愫气象的象征.当今, 转写与注解也曾有一些较为熟识的器用和软件, 如Anvil, EX-MARaLDA, Partitur Editor, Praat等, 这些软件各有上风.情愫标注(labelling)器用不错方便地已毕对语音情愫的贯穿性变化的追踪(此节以维度情愫的标注方法为主). Cowie等东说念主[139]开导了实时的效价度-叫醒度二维情愫标注器用Feeltrace, 可用于动态心境的标注与分析, 标注者根据我方感知的情愫, 实时地讹诈鼠标拖动圆形光标到合适位置即可已毕标注.Emocards量表根据Russell的情愫环状表面, 用环状布局的16张卡通样式图片面容情愫, 在愉悦度和垂危度两个维度上测量情愫[140].Bradley等东说念主[141]依据PAD情愫空间模子提议SAM量表, 以图形化的方式从愉悦度、叫醒度和上风度由弱到强进行9级评分, 每个维度由渐渐变化的庸东说念主图片代表.SAM量表也曾被阐发不错灵验地评定被试的情愫嗅觉[142]. Broekens[143]开导了在线情愫测量器用AffectButton, 仅包含一个按钮, 按钮名义是一张动态变化的卡通脸部图片, 鼠标的(x, y)坐标映射到PAD三维空间模子中, 样式图片随鼠标的出动而改变.AffectButton比SAM愈加形象、方便, 一个按键不错反馈三维信息.ANNEMO[144]是基于网页的音视频维度情愫标注器用, 可同期泄漏音视频与标注界面, 可进行时候贯穿的象征.Ikannotate[145]器用将上述三方面交融, 不错已毕转写、注解、标注以及标注的不确信.

标注时须有一定的法律解释, 包括标注的一致性、连贯性、标注象征的易记性, 但同期还需要降服的一条原则是允许标注的不确信性和各异性存在, 即允许不同的标注者对团结条语音中的情愫、重音、声调等有不同的领略, 幸免向用户提供诞妄信息.

4.1.3 具有代表性的维度情愫数据库

近些年来, 跟着研究者们对维度情愫识别领域的珍重, 一些公开的以科学研究为目的的维度情愫数据库渐渐被发布.尽管齐全的语音情愫数据库应包括转写、注解、情愫标注, 但当今, 维度语音情愫数据库的标注经常只包含对整句或段的情愫标注.因此, 构建公认的灵验、全面、优质的语音情愫数据库, 是语音情愫狡计研究的重中之重.

VAM数据库(vera am mittag database)现场录制了12个小时的德语电视谈话节目[146], 谈话内容均为无剧本死心、冷凌弃绪提示的纯天然交流, 该库是一个包含视频库、语音库、样式库的多模态情愫数据库.视频库(VAM- Video)包括104个讲话东说念主的1 421个视频, 语音库与样式库是从该视频库平分离赢得.

●  语音库又分为两部分:一部分为相配彰着的情愫抒发, 包括19个不同讲话东说念主的499个语句, 由17个听者在Valence、Activation、Dominance这3个维度讹诈SAM进行标注, 可用于维度语音情愫识别研究; 另一部分包括28位讲话东说念主的519个语句, 由6位听者进行标注.

●  样式库包括20位讲话者的1 867幅样式图片, 涵盖欢叫、不悦、悲伤、厌恶、懦弱、骇怪的6类情愫以及中特性愫, 可用于样式识别研究.

Semaine数据库是一个音视频情愫数据库[147], 数据录制了用户与性格迥异的4个机器变装的交谈对话, 在3种情景下录制:一种是Solid SAL(sensitive artificial listener), 该情境下, 操作家饰演了SAL的变装, 录制了用户与变装的95段交互、190个视频片断; 第2种是半自动SAL(semi-automatic SAL), 该情景需要操作家遴荐一系列日常用语, 该语句已提前被上演者以与某种性格匹配的声息录制, 再以图形界面交互的方式展现给用户, 系数录制了1 410分钟用户与机器变装的视频数据; 第3种是自动SAL(automatic SAL), 该情境下, 变装抒发的语句及非言语抒发十足由SEMAINE系统自动的生成.该系统同期检测用户的情愫变化并由录像头记载下来, 用户与变装交互视频共计1 266分钟.对话由多个参与者借助标注器用Feeltrace在Activation、Valence、Power、Anticipation/Expectation和Intensity这5个情愫维度上进行标注.该数据库中的部分数据被用作AVEC2012的竞赛数据库[148].

Recola数据库是一个多模态法语情愫数据库[144], 包括音频、视频、生理数据(ECG和EDA).该数据库录制了9.5小时的视频会议, 贯穿同步记载了46名参与者的天然交流.6名法语助理通过ANNEMO标注器用, 在Arousal, Valence维度上进行标注.最终, 34名参与者同意分享数据, 数据时长共计7小时, 其中包括27名参与者5.5小时的生理数据.

USC IEMOCAP(interactive emotional dyadic motion capture)数据库[149]是一个英语情愫数据库, 包括10个讲话东说念主参与的互相交流的音视频.将合计12小时的音视频数据分割成10 039段语句, 既包括多情愫剧本的情愫上演, 也包括随心情愫抒发场景.每个语句由3名标注者进行翻脸情愫标注, 包括欢叫、不悦、悲伤、中性、挫败感这5类情愫, 标注者也可根据领略标注为其他情愫类别.2名标注者在Arousal、Valence、Dominance这3个维度进行维度空间标注, 每个维度标注的范围为[1, 5], 标注间隔为0.5, 可用于翻脸或维度情愫识别.

4.2 语音情愫特征索要器用

当今, 已有公开的程序或器用箱粗鲁应用于语音书号的处理、标注、频谱分析、特征索要等, 举例:PRAAT ()可已毕对语音书号的采集、分析、标注、合成、统计分析等功能; OpenSMILE ()软件对于音频处理的特征索如果一款很灵验的器用, 是一种以号召行式样运行的而不是图形界面的操作软件, 通过建树config文献对音频进行特征索要; pyAudioAnalysis(an open-source python library for audio signal analysis, https://github.com/tyiannak/pyAudioAnalysis/wiki/2.-General)是Python下的一个音频处理器用包, 可用于音频特征索要; Librosa(https://librosa.github.io/)亦然基于python的器用包, 不错索要万般语音特征, window和Linux均可; HTK Speech Recognition Toolkit()是基于C语言的特征索要器用包, 代码熟识褂讪, 当今支抓GPU, windows和Linux环境均可; Kaldi ASR (-asr.org/)是一个语音识别器用包, 开导效力高, Linux使用方便.

4.3 识别算法器用

开源的深度学习神经蚁集正步入熟识, 当今有许多框架具备为语音情愫识别提供先进的机器学习的本事.举例, TensorFlow(https://www.tensorflow.org/)是谷歌发布的开源器用, 编程接口支抓Python和C++, 还可在谷歌云和亚马孙云中运行.TensorFlow支抓细粒度的网格层, 而且允许用户在无需用初级语言已毕的情况下构建新的复杂的层类型, 子图实践操作允许开导者在图的落拓角落引入和检索落拓数据的收场.Caffe()是自2013年底以来第一款主流的工业级深度学习器用包, 具有优秀的卷积模子, 是狡计机视觉界最流行的器用包之一.CNTK(https://github.com/Microsoft/CNTK/wiki)是微软最初面向语音识别的框架, 支抓RNN和CNN类型的蚁集模子, 从而在处理图像、手写字体和语音识别问题上, 它是很好的遴荐.MXNet ()是一个全功能、可编程和可推广的深度学习框架, 它支抓深度学习架构, 如卷积神经蚁集(CNN)、轮回神经蚁集(RNN)和其包含的长短时候牵挂蚁集(LTSM), 为图像、手写笔墨和语音的识别和预测以及天然语言处理提供了出色的器用.PyTorch()是一种Python优先的深度学习框架, 特色是快速成形、代码可读和支抓最粗鲁的深度学习模子.Theano()草创了将象征图用于神经蚁集编程的趋势, 但防止散播式应用程序不休框架, 只支抓一种编程开导语言.

5 当今存在的问题及改日发展方针 5.1 狡计模子防止脑科学、心理学等学科研究效果的指导

现存的语音情愫识别是基于狡计机科学进行研究的, 讹诈机器学习的算法进行进修与识别.但情愫是东说念主类极其复杂的心理气象, 研究东说念主类大脑的情愫处理机制将尤为遑急.当今, 情愫识别的算法太浅近, 防止心理学对情愫研究效果的指导.若何更全面地成立情愫的面容模子?不怜悯感之间是否相干联?举例, Ekman等东说念主[150]的骇怪情愫是对一件预感以外的事件的反应, 这种情愫经常容易会奴婢在欢叫或者懦弱情愫之后.Davidson[151]觉得, 对骇怪心境的识别需要接洽情境高下文.Banse等东说念主[152]研究发现, 不悦或者懦弱心境的语音在声学特征上具有彰着区分性, 也很少受到文化各异的影响, 更容易进行识别.

除此以外, 当今的情愫识别框架防止东说念主类大脑的复杂机制和职责模式的指导, 与融会功能之间的交互与协同较少.跟着融会科学的快速发展, 科学家越来越多地了解东说念主类大脑复杂的信息处理机制, 将这些效果与机器学习算法结合, 将有助于冲破当今情愫识别研究的瓶颈, 已毕确切的东说念主工智能.

5.2 语音情愫数据标注艰辛

语音情愫类数据在采集与标注上存在的艰辛, 导致当下用于研究的数据规模较小, 种类较为防止.在高下文语境未知的情况下, 标注变得愈加艰辛, 公认的灵验、全面、优质的语音情愫数据库是语音情愫狡计研究的基础.当今, 高质地的情愫语料库很少, 而且防止大规模跨语言的公认语料库, 研究者们讹诈不同的数据库进行情愫识别, 导致识别收场难以进行比较评价.当今, 用于情愫标注的皆是自我评价(self-report)方法, 如SAM量表等.研究者们可制定情愫数据库标注的相干国标以明确详备的标注法律解释和方法; 借助数据标注公司、情愫心理学众人的匡助, 成立领有齐全情愫标注信息的优质语音情愫数据库.

5.3 情愫特征与语音情愫之间存在界限

与翻脸情愫识别雷同, 进行维度情愫识别的首要职责是特征索要, 决定了回想预测器准确率的险峻.当今, 大多数特征是基于语音的声学特征, 这些声学特征能否灵验地表征情愫, 并莫得详备的论证.情愫特征的索要需要接洽两方面问题:开始, 所索要的声学特征与情愫之间是否存在界限, 能否灵验地区分情愫, 已毕类内的特征距离较小、类间的特征距离较大; 其次, 情境高下文对情愫的识别具相要害性作用, 需考中合适的时候粒度来提高情愫识别率.

科罚上述问题, 探索特征与情愫类别之间映射关系, 提议对情愫具有区分度的新特征, 将吵嘴常有价值的研究方针.同期, 探索东说念主类大脑对情愫的处理机制, 结合心理学、融会学研究效果, 研究语音的各个层面(语素、词素、句法、语篇)对情愫识别的影响.在此基础上, 索要不同粒度上的特征, 提高语音情愫识别率.

5.4 用于维度情愫识别的机器学习政策有待提高

语音识别的快速发展收货于东说念主工神经蚁集的支抓, 格外是连年来深度神经蚁集的发展, 使语音识别性能进一步耕作.研究者们经常模仿语音识别中使用的神经蚁集模子进行情愫识别, 但是情愫是较语言更高级次的抒发, 需要包含更多信息, 以致推理、牵挂、有狡计本事.因此, 当今用于情愫识别的蚁集模子需要基于融会表面进一步更始, 探索东说念主类情愫处理机制, 并对融会模子进行实用化已毕, 提议相应的机器学习方法, 进一步成立类脑多模范神经蚁集狡计模子以及类脑东说念主工智能算法, 将是冲破语音情愫识别研究瓶颈的灵验政策.

6 终端语

语音情愫识别是使机器已毕天然的东说念主机交互的遑急方面, 不仅对股东信号处理、狡计机、东说念主工智能、东说念主机交互、适度、融会等学科发展具有遑急的学术酷好, 而且具有遑急的经济价值和社会酷好, 如具有应酬本事的情愫机器东说念主、心境检测与监控、呼唤中情愫绪探员等.基于情愫的维度空间面容模子, 较传统的翻脸情愫模子, 不错更精确地面容情愫, 减小情愫标签的隐隐性, 具有无尽的情愫描模本事.基于维度情愫模子的语音情愫识别系统也日益受到越来越多的珍重.相干研究东说念主员已在语音情愫融会、语音维度情愫数据库、情愫相干的语音特征索要以及识别算法方面取得长足的朝上, 本文也主要针对这4个方面详备先容了基于维度情愫面容模子的语音情愫识别阐发, 填补了当今语音维度情愫识别综述的空白; 同期, 提议了该时期刻下仍靠近的一系列挑战淫声, 如进一步探究东说念主脑对语音情愫融会法例、提议表征情愫的语音特征、讹诈东说念主脑情愫融会机制指导识别算法的更始等.



上一篇:淫色 [007系列].25部书册.蓝光4K.1080P.HDR.国英双语.双殊效字.BOBO
下一篇:姐妹花 正妹兒 身材火爆雙倍快樂 好个成东说念主爱情片,18岁以上必看