当前位置: 首页 > 专利查询>天津大学专利>正文

基于深度神经网络与条件随机场的对话行为识别方法技术

技术编号:10784741 阅读:289 留言:0更新日期:2014-12-17 11:58
本发明专利技术公开了一种基于深度神经网络与条件随机场的对话行为识别方法,步骤是(1)对数据集中的汉语口语语料进行预处理,提取多模态特征;(2)构造条件随机场模型;(3)基于多模态深度神经网络构造条件随机场模型的状态特征函数:(4)最大化对数似然函数,求解条件随机场模型参数,(5)通过求解整段对话的对话行为序列,得到该段对话中对应的每个语句的对话行为。本发明专利技术不仅能从原始特征中学到与分类任务更加相关的抽象特征,而且可对对话行为中的多模态信息进行更加高效的融合,为后续的分类任务奠定良好的基础,同时,可更好地刻画样本类标的序列依赖关系,提出以条件随机场为主体框架,从而对每段对话进行整体优化。

【技术实现步骤摘要】
基于深度神经网络与条件随机场的对话行为识别方法
本专利技术以机器学习和统计学习理论为基础,通过利用多模态深度神经网络学习条件随机场中的特征函数,将多模态深度神经网络与条件随机场结合起来,构成了一种高效的适用于解决复杂序列学习问题的模型,最后将该模型用于汉语对话行为识别。
技术介绍
对话行为(Dialogueacts,DAs)是Austin在1996年依据言语行为提出的,它在一定程度上反应了说话人的意图,对于确定语句的语用信息具有重要意义。对话行为识别是计算机理解自然语言的关键步骤,在人机对话、交互式信息检索、机器翻译和交互式问答系统等众多应用领域具有重要作用。在研究使用机器学习算法解决对话行为自动识别任务时,面临着以下几方面的挑战:1)多模态特征学习,目前对话行为识别研究中主要用到了语言模型,韵律模型,句法信息以及其他(如:时长,能量等)信息,这些信息如何表达与整合是对话行为识别的一个基本问题。2)类别的多样性以及样本分布的不均衡性,根据社科院语言所与中科院自动化所制定的标注体系,常用的对话行为标签有三类:普通标签集、中断标签集和特殊标签集。其中普通标签集包含13种对话行为,中断标签集有3种,特殊标签集36种。即使只考虑第一类和第二类标签集,样本在这些类别上的分布也十分不均衡。在CASIA‐CASSIL语料库中,63%左右的样本的对话行为标签是陈述,而感叹、话语被打断和话语的省略、丢失这些对话行为所对应的样本数目非常少。3)上下文语句的对话行为之间存在着统计依赖关系,语句的上下文信息对于决定当前语句的对话行为具有重要作用,如果当前语句的对话行为标签是是非问,那么下一个语句的对话行为标签很可能是陈述。4)提取的特征与对话行为标记之间复杂的依赖关系,意图识别是一个非常复杂的问题,即使像人脑这样复杂的系统,在识别意图时也是很困难的。对话行为识别虽然是意图识别的简化问题,但是利用机器学习的算法进行自动识别也是一项巨大的挑战。许多机器学习算法已经被用于对话行为识别任务。n‐gram是其中最简单的方法,2006年Louwerse将该模型用于语句的文本信息与对话行为的相关性建模。贝叶斯分类器(Bayesclassifier)与n‐gram类似,都是最大化语句属于某类DA的条件概率,与n‐gram不同的是贝叶斯分类器适用于任意特征。2003年Levin等人提取语法特征,将贝叶斯分类器用于NESPOLE预料库进行对话行为识别。2004年Grau等人将朴素贝叶斯分类器用于DAMSL‐switchboard预料库,采用bag‐of‐words特征取得了66%的识别率。其他传统的机器学习算法,如决策树(Decisiontree)、最大熵分类器(Maximumentropy)、人工神经网络(ArtificialNeuralNetworks,ANNs)和支持向量机(Supportvectormachine,SVM)也被引进到对话行为识别的研究中。2006年Surendran和Levow的工作证明在对话行为识别任务上,SVM模型的识别率要由于其他传统的机器学习方法。上述提到的方法都没有考虑上下文语句的对话行为之间存在着统计依赖关系,而这种序列依赖关系对于决定当前语句的对话行为起到了重要作用。因此,我们需要一种相应的序列学习模型来解决对话行为识别问题。n‐gram是一种最简单的序列学习模型,1995年Reithinger将该模型用于DA识别,之后1997年Lee等人对n‐gram的条件概率利用条件概率公式展开,使用该模型来辅助机器翻译。但是如果使用n‐gram模型来刻画语句对话行为之间的序列依赖关系,那么其他特征在该模型中就很难使用。于是一些研究人员又引入了隐马尔科夫m模型(hiddenMarkovmodel,MM),该模型虽然弥补了n‐gram的不足,但是它基于很强的独立性假设,而在实际条件下这一假设通常很难得的满足。相对于隐马尔科夫模型,条件随机场(ConditionalRandomFields,CRFs)没有独立性的严格要求。同时2000年Vapnik指出在有监督学习任务中,判别模型比生成模型具有更强的表达能力。因此,作为判别模型的条件随机场应当比作为生成模型的隐马尔科夫模型更适用于对话行为识别。但是,条件随机场模型本身的特征学习能力很差,更无法有效地处理多模态特征。近年来兴起的备受机器学习研究者关注的深度学习具有很强的特征学习能力,可以从底层的原始数据中自发地学到一组适用于解决当前识别任务的特征,并且在图像识别、语音识别、信息检索、自然语言处理等众多领域取得了突破性的成果。但是,经典的深度学习模型难以描述对标记之间的序列依赖关系。如何克服这些经典的机器学习模型的缺陷,真正意义上设计出一个高效的、适于解决复杂序列学习问题的方法是目前亟待解决的技术问题。
技术实现思路
鉴于进行对话行为自动识别面临的挑战以及上述经典的机器学习算法存在的问题,本专利技术提出了一种基于深度神经网络与条件随机场的对话行为识别方法,本专利技术不仅能够从原始特征中学到与分类任务更加相关的抽象特征,而且可以对对话行为中的多模态信息进行更加高效的融合,为后续的分类任务奠定良好的基础,同时,可以更好地刻画样本类标的序列依赖关系,提出以条件随机场为主体框架,克服了其它序列学习方法的不足,对每段对话进行整体优化。本专利技术一种基于深度神经网络与条件随机场的对话行为识别方法的技术方案是:该识别方法包括以下步骤:步骤一、设数据集中包括汉语口语语料,该数据集其中M表示数据集中完整对话的数目,Nm表示M对话数目的第m段对话中包含的语句数目,表示第m段对话的第n句语句的第j个模态的特征,表示第m段对话的第n句语句的对话行为标签,L表示从每个语句提取的多模态特征的模态总数,L=10;其中,从每个语句中提取多模态特征所涉及到的因素包括:语句的基频和能量;该语句句末语调的基频和能量;该语句中重音的基频、能量和时长及该重音在该语句中的位置;该语句的时长、该语句在对话中的位置、说话人的性别、该语句中所用到的语气词;最终得出10种,共计116维的多模态特征,具体内容如下:模态1:语句在对话中的相对位置、语句占对话的相对时长、说话人的性别、说话人是否发生变化、语气词;模态2:语句重音的相对位置,时长,基频的最大值和最小值、均值、最大值和最小值的差值,能量的最大值和最小值、均值、最大值和最小值的差值;模态3:语句基频的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;模态4:语句基频采样值平均分成10份,每份取均值进行重新采样;模态5:语句能量的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;模态6:语句能量采样值平均分成20份,每份取均值进行重新采样;模态7:句末语调对应的基频的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;模态8:句末语调对应的基频采样值平均分成5份,每份取均值进行重新采样;模态9:句末语调对应的能量的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;模态10:句末语调对应的能量采样值平均分成20份,每份取均值进行本文档来自技高网
...
基于深度神经网络与条件随机场的对话行为识别方法

【技术保护点】
一种基于深度神经网络与条件随机场的对话行为识别方法,其特征在于,包括以下步骤:步骤一、设数据集中包括汉语口语语料,该数据集其中M表示数据集中完整对话的数目,Nm表示M对话数目的第m段对话中包含的语句数目,表示第m段对话的第n句语句的第j个模态的特征,表示第m段对话的第n句语句的对话行为标签,L表示从每个语句提取的多模态特征的模态总数,L=10;其中,从每个语句中提取多模态特征所涉及到的因素包括:语句的基频和能量;该语句句末语调的基频和能量;该语句中重音的基频、能量和时长及该重音在该语句中的位置;该语句的时长、该语句在对话中的位置、说话人的性别、该语句中所用到的语气词;最终得出10种,共计116维的多模态特征,具体内容如下:模态1:语句在对话中的相对位置、语句占对话的相对时长、说话人的性别、说话人是否发生变化、语气词;模态2:语句重音的相对位置,时长,基频的最大值和最小值、均值、最大值和最小值的差值,能量的最大值和最小值、均值、最大值和最小值的差值;模态3:语句基频的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;模态4:语句基频采样值平均分成10份,每份取均值进行重新采样;模态5:语句能量的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;模态6:语句能量采样值平均分成20份,每份取均值进行重新采样;模态7:句末语调对应的基频的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;模态8:句末语调对应的基频采样值平均分成5份,每份取均值进行重新采样;模态9:句末语调对应的能量的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;模态10:句末语调对应的能量采样值平均分成20份,每份取均值进行重新采样;步骤二、构造条件随机场模型:p(Y(m)|X(m))=1Z(X(m))exp{Σi,kλkfk(yi-1(m),yi(m))+Σi,kμkgk(yi(m),{xi(m),j}j=1L}---(1)]]>其中,Z(X(m))=ΣX(m)exp{Σi,kλkfk(yi-1(m),yi(m))+Σi,kμkgk(yi(m),{xi(m),j}j=1L}---(2)]]>在公式(1)和公式(2)中,Z(X(m))是归一化因子,表示转移特征函数,表示状态特征函数;λ和μ分别是特征函数的权重,即条件随机场中的参数,λ和μ从训练集中通过学习算法得到;转移状态函数定义为:fy′,y(yu(m),yv(m))=1,ifyu(m)=y′,yv(m)=y0,otherwise---(3)]]>公式(3)中,y'和y分别表示某个对话行为标签,和分别表示第m段对话的第u句和第v句语句的对话行为标签;步骤三、基于多模态深度神经网络构造条件随机场模型的状态特征函数:3‑1.构建多模态深度神经网络:包括多模态特征学习模块和多模态特征融合模块,其中,所述多模态特征学习模块包含L个深度神经网络,用于对每一种原始的多模态特征进行复杂的非线性变换;所述多模态特征融合模块是含有一个隐层的神经网络,用于对上述变换后得到的多模态特征进行融合;3‑2.对原始的多模态特征数据经过上述多模态深度神经网络的处理后,得到每个语句对于每个对话行为的隶属度d=(d1,d2,…,dp),p表示对话行为的种数;3‑3.利用上述得到的对话行为的隶属度,定义条件随机场模型的状态特征函数为:gy,{xj}j=1L(yv,{xvj}j=1L)=dt,t=find((y1,y2,...,yp)==y)---(4)]]>步骤四、最大化对数似然函数,求解条件随机场模型参数:maxλ,μ{Σm=1MlogP(Y(m)|X(m);λ,μ)}---(5)]]>步骤五、对话行为类别的推断:Y*=argmaxYP(Y|X(m);λ,μ)---(6)]]>通过求解整段对话的对话行为序列Y*,得到该段对话中对应的每个语句的对话行为。...

【技术特征摘要】
1.一种基于深度神经网络与条件随机场的对话行为识别方法,其特征在于,包括以下步骤:步骤一、设数据集中包括汉语口语语料,该数据集其中M表示数据集中完整对话的数目,Nm表示M对话数目的第m段对话中包含的语句数目,表示第m段对话的第n句语句的第j个模态的特征,表示第m段对话的第n句语句的对话行为标签,L表示从每个语句提取的多模态特征的模态总数,L=10;其中,从每个语句中提取多模态特征所涉及到的因素包括:语句的基频和能量;该语句句末语调的基频和能量;该语句中重音的基频、能量和时长及该重音在该语句中的位置;该语句的时长、该语句在对话中的位置、说话人的性别、该语句中所用到的语气词;最终得出10种,共计116维的多模态特征,具体内容如下:模态1:语句在对话中的相对位置、语句占对话的相对时长、说话人的性别、说话人是否发生变化、语气词;模态2:语句重音的相对位置,时长,基频的最大值和最小值、均值、最大值和最小值的差值,能量的最大值和最小值、均值、最大值和最小值的差值;模态3:语句基频的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;模态4:语句基频采样值平均分成10份,每份取均值进行重新采样;模态5:语句能量的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;模态6:语句能量采样值平均分成20份,每份取均值进行重新采样;模态7:句末语调对应的基频的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;模态8:句末语调对应的基频采样值平均分成5份,每份取均值进行重新采样;模态9:句末语调对应的能量的均值、方差、最大值、最小值、均值与最大值的差值、均值与最小值的差值、四分位差、峰度、偏度;模态10:句末语调对应的能量采样值平均分成20份,每份取均值进行重新采样;步骤二、构造条件随机场模型:

【专利技术属性】
技术研发人员:胡清华周玉灿
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1