当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于深度学习的会话情感自动分析方法技术

技术编号:13044123 阅读:93 留言:0更新日期:2016-03-23 13:19
本发明专利技术公开了一种基于深度学习的会话情感自动分析方法,属于自然语言处理、数据挖掘领域。本发明专利技术基于去噪自编码器学习语音和文本的表示,再通过深度学习方法将两种表示深度融合,得到高层的统一表示,基于融合后的高层表示再进行情感分析。利用本发明专利技术提供的技术方案,可以深度融合声学和文本两种特征,提高情感分类的准确率。

【技术实现步骤摘要】

本专利技术属于自然语言处理、数据挖掘领域,具体涉及基于深度学习的语音会话中的情感分析方法。
技术介绍
语音会话的情感分析是通过分析话语来判断会话人的情感状态,如高兴、满意、愤怒等。语音会话大量存在于实际领域,包括各种呼叫中心、人机交互系统等。会话情感自动分析有助于动态了解会话人的心理状态和情绪情感变化,有着广阔的应用前景。以呼叫中心为例,通过分析客服对话过程中会话人的情绪和情感变化,管理人员可以发现客户服务过程中服务员态度是否友好,客户是否有不满情绪,以尽早解决问题。针对语音会话的情感分析,一般的做法是对一段话提取一系列声学特征,基于这些声学特征训练分类器。然而,只使用声学特征的问题在于无法考虑到话语的语义信息,而语义与情感是密切相关的。近些年来,语言信息逐步受到重视。通常做法是使用自动语音识别(ASR)技术将语音转换为文本,然后从文本中提取一系列文本特征,再利用音学和文本二种特征进行会话的情感分析。基于声学和文本两种特征,目前主要有两种方法:一是先分别用两种特征训练两个独立的分类器,然后将两个独立分类器的结果再进行结合,得到最终结果。这种方法只对两种分类结果进行结合,忽视了特征之间的关联性。二是将两种特征直接合并,在合并的基础上再进行分类。然而,声学特征和文本特征的低层表示通常是非线性关系,这种直接合并难以捕获到两种特征之间的关联,而且合并后的维度可能非常大。本专利技术的主要目的是通过深度学习方法将声学特征和文本特征有机融合在一起,使彼此之间的关联通过一种新的表示形式统一表达出来,形成高层表示,作为分类器的输入,以此进行会话的情感分析。
技术实现思路
本专利技术提供一种语音会话中的情感分析方法,将语音会话中的声音特征与文本特征进行融合并得到高层的表示。为了便于说明,首先引入如下几个概念:情感分类:对会话人的情感状态进行分析,将话语划分到正确的情感类别中。根据实际需求的不同,可以定义不同的情感类别。词向量:使用低维实数向量表示一个词的信息。与传统的稀疏表示相比,词向量没有维数灾难的问题。自编码器(AE)[1]:只有一层隐藏节点,输入和输出通常具有相同节点数的神经网络,可以学习到输入的压缩表示。去噪自编码器(DAE)[1]:随机地将自编码器的一些输入置零,迫使隐藏层单元发现更多鲁棒性好的特征。多特征栈式去噪自编码器(MSDA):基于去噪自编码器,可以在多种不同特征甚至不同类型特征组合上进行学习,得到融合后的高层表示。本专利技术的目的是提供一种新的方法,通过深度学习将语音会话中的声学特征和文本特征融合在一起,得到一种高层的表示,用于语音会话的情感分析。所得到的高层表示并不是简单的组合,更不是直接的拼接,而是通过深度学习进行非线性变换得到的。本专利技术的原理是:首先使用ASR将语音识别文本,然后分别提取声学特征和文本特征,接下来使用MSDA将两种特征深度融合,得到高层表示,最后基于该表示,使用分类器进行情感分类。本专利技术对应的流程图如图1所示,详细技术方案如下:A.将一通对话根据说话人转变和声音停顿分割为若干段语音,执行如下操作:A1.识别说话人转换点的候选A2.通过聚类确定说话人转换点A3.将时长超过某一阈值的停顿切分B.使用ASR技术将语音转换为文本C.提取声学特征,执行如下操作:C1.提取一段语音中每一帧的特征C2.基于多个统计量得到一段语音的全局特征D.提取文本特征,执行如下操作:D1.基于大规模语料训练,学习到每个词的向量表示D2.基于词向量计算口语会话中每段文本的表示E.形成两种特征的融合表示并进行情感分类,执行如下操作:E1.分别学习声学特征和文本特征的表示E2.通过深度学习,再将两种表示进行深度融合,得到高层表示E3.基于融合的高层表示训练分类器,对每段语音分类利用本专利技术提供的技术方案,可以充分利用声学和文本两种特征,通过深度学习得到融合的高层表示,提高情感分类的准确率。附图说明图1为本专利技术流程示意图;图2为本专利技术基于深度学习的两种特征融合框架。具体实施方式下面通过一个实例对本专利技术作说明。需要注意的是,公布实施例的目的在于帮助进一步理解本专利技术。在不脱离本专利技术及所附的权利要求的精神和范围内,各种替换和修改都是可能的。因此,本专利技术不应局限于实施本例所公开的内容,本专利技术要求保护的范围以权利要求书界定的范围为准。假定需要分析一通中文语音对话(如售后服务的语音对话),判断其中是否存在不友好(负面情感)的话语,如果有,则标记出来。首先需要将对话按照会话双方说话人的切换来切分。对话切分主要包括两步:识别说话人转换点和无监督聚类。这里将语音中所有字的边界作为转换点的候选,然后通过聚类将同一人连续所说的字合并,从而确定说话人的转换点,再按转换点将会话进行切分。为避免处理会话一方过长的连续话语,还会将针对切分后,话语时长超过某一阈值的静音在静音处再作切分。在切分之后,使用ASR引擎将每段语音转换为文本。本例使用的ASR引擎包含5个部分:特征提取、声学模型、语言模型、词典、解码器。特征为40维的对数filter-banks[2]。声学模型、语言模型和词典组合成一个加权有限状态传感器(weightedfinitestatetransducers,WFST)[3]。根据切分的结果提取每段语音的声学特征。一段语音被划分为若干帧,每帧时长25毫秒。本例中对每帧提取26个声学特征(包括12个MFCC、8个LSP、3个F0、2个Intensity和1个MZCR)以及每个特征的一阶导数,共计52个特征。然后使用19个统计量(包括4个Regression、6个Percentile、3个Moment和6个Extreme)计算一段语音的全局特征,这样每段语音的声学特征可表示为一个988维的向量。基于语音转换后的文本,提取每段话语的文本特征。为了提取文本特征,先需要基于大规模语料进行训练,学习到词向量。词向量的学习可以直接使用开源工具Word2Vec,大规模语料可以使用中文Gigaword、维基百科和搜狗新闻语料等,也可以使用其他大规模语料。词向量维度可以根据情况设置,例如设置为200维。对每段话语的文本s,首先进行分词,将每个词对应到预先训练得到的词向量上。文本s的特征则为,该段文本包含的词所对应的词向量的平均值,即F(s)=Σwi∈sEMB(wi)/|s|]]>其中F(s)表示s的文本特征,EMB(wi)本文档来自技高网
...

【技术保护点】
一种会话情感自动分析方法,具体包括如下步骤:A.将一通对话根据说话人转变和声音停顿分割为若干段语音;B.使用ASR技术将语音转换为文本;C.提取声学特征,执行如下操作:C1.提取一段语音中每一帧的特征;C2.基于多个统计量得到一段语音的全局特征;D.提取文本特征,执行如下操作:D1.基于大规模语料训练,学习到每个词的向量表示;D2.基于词向量计算口语会话中每段文本的表示;E.形成两种特征的融合表示并进行情感分类,执行如下操作:E1.分别学习声学特征和文本特征的表示;E2.通过深度学习,再将两种表示进行深度融合,得到高层表示;E3.基于融合的高层表示训练分类器,对每段语音分类。

【技术特征摘要】
1.一种会话情感自动分析方法,具体包括如下步骤:
A.将一通对话根据说话人转变和声音停顿分割为若干段语音;
B.使用ASR技术将语音转换为文本;
C.提取声学特征,执行如下操作:
C1.提取一段语音中每一帧的特征;
C2.基于多个统计量得到一段语音的全局特征;
D.提取文本特征,执行如下操作:
D1.基于大规模语料训练,学习到每个词的向量表示;
D2.基于词向量计算口语会话中每段文本的表示;
E.形成两种特征的融合表示并进行情感分类,执行如下操作:
E1.分别学习声学特征和文本特征的表示;
E2.通过深度学习,再将两种表示进行深度融合,得到高层表示;
E3.基于融合的高层表示训练分类器,对每段语音分类。
2.如权利要求1所述的会话情感自动分析方法,其特征在于,步骤A具体执行如下操作:
A1.识别说话人转换点的候选;
A2.通过聚...

【专利技术属性】
技术研发人员:张晓东王厚峰
申请(专利权)人:北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1