结合语音与文本的多情感识别方法、系统、介质及设备技术方案

技术编号:23086683 阅读:56 留言:0更新日期:2020-01-11 01:43
本发明专利技术公开了一种结合语音与文本的多情感识别方法、系统、介质及设备,方法包括获取由多个音频段组成的目标音频,并使用语音识别技术转换为对应的多个文本信息;基于音频信息的语音特征获得音频情感识别信息,基于文本信息的文本特征获得文本情感识别信息;使用新的结合方法将这两种识别情感进行结合,获得对应音频段的目标情感信息。该新的结合方法为基于语音识别情感向量与文本识别情感向量,通过对这两种向量内不同情感信息进行不同的组合,再使用这些不同的组合进行情感结合模型的训练。本发明专利技术使用语音与文本的识别情感向量,从而保证语音情感分析与文本情感分析部分互相独立,既能够解决两极情感分析问题,也能够应用到多情感分析的场景。

Method, system, medium and equipment of multi sentiment recognition combining speech and text

【技术实现步骤摘要】
结合语音与文本的多情感识别方法、系统、介质及设备
本专利技术涉及人机交互领域,特别涉及一种结合语音与文本的多情感识别方法、系统、介质及设备。
技术介绍
随着互联网进一步普及以及信息技术的不断发展,人们越来越认识到信息的重要性。而人工智能技术的不断深入研究为获取更多种类的信息提供了可能性。社群媒体等随着互联网的发展也再仅仅是传递信息的平台,开始允许用户创建自己的账号,同时成为收集信息的平台。越来越多的平台发现用户的情感信息是一种十分有价值的信息,它能够表达用户对某一事物的喜恶。例如为用户提供要交流反馈服务的产品都希望能够获得用户的情感信息,从而更好地改进提升自己的服务质量。很多平台在用户留意系统中给用户提供了评分系统,甚至我们能够对其他用户的评论进行评价。这是较流行并较易实现的收集用户情感信息的方法。但有时,在用户的留言中所携带的隐式情感信息具有更高的价值,因此我们需要用到情感识别的方法识别出留言中隐藏的情感信息。上述的分析方法中,可采用基于语音或是文本的情感识别方法对用户的语音或文本输入进行分析。语音的情感识别方法主要依靠声学特征对待识别样本进行情感分析。由于声波的特征以及许多研究人员多年在波型信息方面的研究,在声音维度的情感识别已经有着不错的成果。然而语音情感识别没有考虑待识别样本本身想要表达的语义。而文本的情感识别由于自然语言的复杂性,因此文本的情感识别没有像语音情感识别那样成熟,同样文本情感识别也没有考虑到同一句话用不同语气演绎能表达不同的情感。在使用不同的方式进行情感识别时,对用户在该方式下的情感表达的强度十分依赖。用户用平淡的语气说出高兴的事情时,基于语音的情感识别就比不上文本情感识别,反之亦然。根据上文所述,单靠一种方式的情感识别,很难对用户的情感进行准确决断。因此也有一些研究者提出结合多种维度的情感识别方法。孙晓等学者提出的一种面向人机交互的多类信息耦合的情感识别方法中,同时利用到语音的声学特征与文本的文本特征进行情感识别。这个方法中存在一个问题,这两种特征被同时作为一个神经网络的输入,因此在网络模型进行训练的过程中,这两种不同的输入之间将会互相影响,但是不同领域的特征之间不应该互相影响。而在刘海波等学者提出的情感信息的确定方法和装置中,语音情感识别与文本情感识别的工作分别使用两个网络完成,因此在语音情感识别与文本情感识别的过程中,它们两者之间互不影响。在获得语音识别情感与文本识别情感之后,该方法提出两种能够结合语音识别情感与文本识别情感的方法,一是当其中一个识别情感属于无明显情感倾向的情感,如平淡时,最终的结果将取另一个表达更强烈情感的识别情感。这种结合方法只适用于两个既得识别情感分别为强烈情感和平淡情感的情况。另一种结合方法是给定一个值为0到1语音情感权重a,那么可得出文本情感权重为(1-a),最终识别情感=(语音识别情感*a)+(文本识别情感*(1-a))。这种结合方法较适用于两极情感,如开心与不开心的情感,或是害怕与不害怕的情感,而难以适用于多情感识别,如高兴、伤心、生气、惊讶同时存在的情境。现有技术仅能解决不同的两极情感识别任务,而无法处理多情感识别任务的技术问题,目前尚未提出有效的解决方案。因此,充分利用语音情感信息和文本情感信息,发现语音情感特征与文本情感特征之间的关系,是本领域技术人员亟待解决的问题之一。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种结合语音与文本的多情感识别方法、系统、介质及设备,能够充分利用语音和文本中的情感特征进行多个情感的识别。为了达到上述目的,本专利技术采用以下技术方案:本专利技术提供的一种结合语音与文本的多情感识别方法,包括下述步骤:获取目标音频,所述目标音频由多个音频段组成,所述目标音频包含第一语音特征,所述第一语音特征用于生成第一神经网络和语音识别工具的输入;从所述目标音频中转换出第一文本信息,所述第一文本信息包含第一文本特征,所述第一文本特征用于生成第二神经网络和文本识别工具的输入;基于第一语音特征获得第一语音情感识别信息,所述第一语音情感识别信息为第一情感向量,用于提供从目标音频中提取的语音情感信息;基于所述第一文本特征获得第一文本情感识别信息,所述第一文本情感识别信息为第二情感向量,用于提供从目标音频中提取的文本情感信息;基于所述第一语音情感识别信息与所述第一文本情感识别信息,将第一语音情感识别信息与所述第一文本情感识别信息结合,确定所述目标音频的目标情感;具体为:使用第一情感向量和第二情感向量以及目标情感对第三深度神经网络进行训练,以确定第三神经网络的参数,所述第三神经网络将被用于目标情感的获取,在第三神经网络的训练过程中,反向传播过程不会影响第一神经网络与第二神经网络的参数,从而保证第一神经网络与第二神经网络的独立性。作为优选的技术方案,在获取目标音频前,还包括下述步骤:使用训练音频和第二语音情感识别信息对第一深度神经网络模型进行训练,从而确定第一神经网络模型参数的取值,所述第一深度神经网络模型将被用于所述第一语音情感识别信息的获取;所述第二语音情感识别信息为训练语音情感识别信息,用于第一深度神经网络模型的训练。作为优选的技术方案,在获取目标音频前,还包括下述步骤:使用第二文本信息和第二文本情感识别信息对第二深度神经网络模型进行训练,从而确定第二神经网络模型参数的取值,所述第二神经网络将被用于第一文本情感识别信息的获取;所述第二文本信息为训练文本信息,用于第二深度神经网络模型的训练,所述第二文本情感识别信息为训练文本情感识别信息,用于第二深度神经网络模型的训练。作为优选的技术方案,所述第一语音情感识别信息为第一情感向量v1(e1,1,e1,2,e1,3...e1,n),其中,e1,1至e1,n代表所述语音特征被识别为各种情感的概率。所述第一文本情感识别信息为第二情感向量v2(e2,1,e2,2,e2,3...e2,n),其中,e2,1至e2,n代表所述文本特征被识别为各种情感的概率。作为优选的技术方案,语音情感和文本情况输出的不是某一种情感,而是情感的概率组合,根据Softmax方法,各情感概率计算如下:其中,d为1或2,代表语音或文本,n代表情感分类总数,为模型参数。作为优选的技术方案,所述将第一语音情感识别信息与所述第一文本情感识别信息结合,具体为:卷积层发现两种识别情感中不同情感在不同概率下的组合关系特征:卷积网络的输入为前面获得的两个识别情感向量组成的2n*n情感矩阵,n为可识别目标情感的数量;对池化层进行池化处理,池化层可根据不同的池化窗口划分规则进行最大池化操作,提取出两个情感向量不同情感之间较有价值的关系特征;利用全连接层和Softmax层之后获得最后的目标情感,全连接层将前面得出的特征整合为可能情感的特征值,最后通过Softmax层获得各可能情感为目标情感的概率;通过Back-Propagation进行模型参数的调整,根据损失本文档来自技高网
...

【技术保护点】
1.结合语音与文本的多情感识别方法,其特征在于,包括下述步骤:/n获取目标音频,所述目标音频由多个音频段组成,所述目标音频包含第一语音特征,所述第一语音特征用于生成第一神经网络和语音识别工具的输入;/n从所述目标音频中转换出第一文本信息,所述第一文本信息包含第一文本特征,所述第一文本特征用于生成第二神经网络和文本识别工具的输入;/n基于第一语音特征获得第一语音情感识别信息,所述第一语音情感识别信息为第一情感向量,用于提供从目标音频中提取的语音情感信息;/n基于所述第一文本特征获得第一文本情感识别信息,所述第一文本情感识别信息为第二情感向量,用于提供从目标音频中提取的文本情感信息;/n基于所述第一语音情感识别信息与所述第一文本情感识别信息,将第一语音情感识别信息与所述第一文本情感识别信息结合,确定所述目标音频的目标情感;具体为:/n使用第一情感向量和第二情感向量以及目标情感对第三深度神经网络进行训练,以确定第三神经网络的参数,所述第三神经网络将被用于目标情感的获取,在第三神经网络的训练过程中,反向传播过程不会影响第一神经网络与第二神经网络的参数,从而保证第一神经网络与第二神经网络的独立性。/n...

【技术特征摘要】
1.结合语音与文本的多情感识别方法,其特征在于,包括下述步骤:
获取目标音频,所述目标音频由多个音频段组成,所述目标音频包含第一语音特征,所述第一语音特征用于生成第一神经网络和语音识别工具的输入;
从所述目标音频中转换出第一文本信息,所述第一文本信息包含第一文本特征,所述第一文本特征用于生成第二神经网络和文本识别工具的输入;
基于第一语音特征获得第一语音情感识别信息,所述第一语音情感识别信息为第一情感向量,用于提供从目标音频中提取的语音情感信息;
基于所述第一文本特征获得第一文本情感识别信息,所述第一文本情感识别信息为第二情感向量,用于提供从目标音频中提取的文本情感信息;
基于所述第一语音情感识别信息与所述第一文本情感识别信息,将第一语音情感识别信息与所述第一文本情感识别信息结合,确定所述目标音频的目标情感;具体为:
使用第一情感向量和第二情感向量以及目标情感对第三深度神经网络进行训练,以确定第三神经网络的参数,所述第三神经网络将被用于目标情感的获取,在第三神经网络的训练过程中,反向传播过程不会影响第一神经网络与第二神经网络的参数,从而保证第一神经网络与第二神经网络的独立性。


2.根据权利要求1所述结合语音与文本的多情感识别方法,其特征在于,在获取目标音频前,还包括下述步骤:
使用训练音频和第二语音情感识别信息对第一深度神经网络模型进行训练,从而确定第一神经网络模型参数的取值,所述第一深度神经网络模型将被用于所述第一语音情感识别信息的获取;所述第二语音情感识别信息为训练语音情感识别信息,用于第一深度神经网络模型的训练。


3.根据权利要求1所述结合语音与文本的多情感识别方法,其特征在于,在获取目标音频前,还包括下述步骤:
使用第二文本信息和第二文本情感识别信息对第二深度神经网络模型进行训练,从而确定第二神经网络模型参数的取值,所述第二神经网络将被用于第一文本情感识别信息的获取;所述第二文本信息为训练文本信息,用于第二深度神经网络模型的训练,所述第二文本情感识别信息为训练文本情感识别信息,用于第二深度神经网络模型的训练。


4.根据权利要求1所述结合语音与文本的多情感识别方法,其特征在于,所述第一语音情感识别信息为第一情感向量v1(e1,1,e1,2,e1,3...e1,n),其中,e1,1至e1,n代表所述语音特征被识别为各种情感的概率。
所述第一文本情感识别信息为第二情感向量v2(e2,1,e2,2,e2,3...e2,n),其中,e2,1至e2,n代表所述文本特征被识别为各种情感的概率。


5.根据权利要求4所述结合语音与文本的多情感识别方法,其特征在于,语音情感和文...

【专利技术属性】
技术研发人员:林伟伟吴铨辉
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1