结合语音与文本的多情感识别方法、系统、介质及设备技术方案

技术编号：23086683 阅读：56 留言：0更新日期：2020-01-11 01:43

本发明专利技术公开了一种结合语音与文本的多情感识别方法、系统、介质及设备，方法包括获取由多个音频段组成的目标音频，并使用语音识别技术转换为对应的多个文本信息；基于音频信息的语音特征获得音频情感识别信息，基于文本信息的文本特征获得文本情感识别信息；使用新的结合方法将这两种识别情感进行结合，获得对应音频段的目标情感信息。该新的结合方法为基于语音识别情感向量与文本识别情感向量，通过对这两种向量内不同情感信息进行不同的组合，再使用这些不同的组合进行情感结合模型的训练。本发明专利技术使用语音与文本的识别情感向量，从而保证语音情感分析与文本情感分析部分互相独立，既能够解决两极情感分析问题，也能够应用到多情感分析的场景。

Method, system, medium and equipment of multi sentiment recognition combining speech and text

全部详细技术资料下载

【技术实现步骤摘要】
结合语音与文本的多情感识别方法、系统、介质及设备
本专利技术涉及人机交互领域，特别涉及一种结合语音与文本的多情感识别方法、系统、介质及设备。
技术介绍
随着互联网进一步普及以及信息技术的不断发展，人们越来越认识到信息的重要性。而人工智能技术的不断深入研究为获取更多种类的信息提供了可能性。社群媒体等随着互联网的发展也再仅仅是传递信息的平台，开始允许用户创建自己的账号，同时成为收集信息的平台。越来越多的平台发现用户的情感信息是一种十分有价值的信息，它能够表达用户对某一事物的喜恶。例如为用户提供要交流反馈服务的产品都希望能够获得用户的情感信息，从而更好地改进提升自己的服务质量。很多平台在用户留意系统中给用户提供了评分系统，甚至我们能够对其他用户的评论进行评价。这是较流行并较易实现的收集用户情感信息的方法。但有时，在用户的留言中所携带的隐式情感信息具有更高的价值，因此我们需要用到情感识别的方法识别出留言中隐藏的情感信息。上述的分析方法中，可采用基于语音或是文本的情感识别方法对用户的语音或文本输入进行分析。语音的情感识别方法主要依靠声学特征对待识别样本进行情感分析。由于声波的特征以及许多研究人员多年在波型信息方面的研究，在声音维度的情感识别已经有着不错的成果。然而语音情感识别没有考虑待识别样本本身想要表达的语义。而文本的情感识别由于自然语言的复杂性，因此文本的情感识别没有像语音情感识别那样成熟，同样文本情感识别也没有考虑到同一句话用不同语气演绎能表达不同的情感。在使用不同的方式进行情感识别时，对用户在该方式下的情感表达...

【技术保护点】
1.结合语音与文本的多情感识别方法，其特征在于，包括下述步骤：/n获取目标音频，所述目标音频由多个音频段组成，所述目标音频包含第一语音特征，所述第一语音特征用于生成第一神经网络和语音识别工具的输入；/n从所述目标音频中转换出第一文本信息，所述第一文本信息包含第一文本特征，所述第一文本特征用于生成第二神经网络和文本识别工具的输入；/n基于第一语音特征获得第一语音情感识别信息，所述第一语音情感识别信息为第一情感向量，用于提供从目标音频中提取的语音情感信息；/n基于所述第一文本特征获得第一文本情感识别信息，所述第一文本情感识别信息为第二情感向量，用于提供从目标音频中提取的文本情感信息；/n基于所述第一语音情感识别信息与所述第一文本情感识别信息，将第一语音情感识别信息与所述第一文本情感识别信息结合，确定所述目标音频的目标情感；具体为：/n使用第一情感向量和第二情感向量以及目标情感对第三深度神经网络进行训练，以确定第三神经网络的参数，所述第三神经网络将被用于目标情感的获取，在第三神经网络的训练过程中，反向传播过程不会影响第一神经网络与第二神经网络的参数，从而保证第一神经网络与第二神经网络的独立性。/n...

【技术特征摘要】
1.结合语音与文本的多情感识别方法，其特征在于，包括下述步骤：
获取目标音频，所述目标音频由多个音频段组成，所述目标音频包含第一语音特征，所述第一语音特征用于生成第一神经网络和语音识别工具的输入；
从所述目标音频中转换出第一文本信息，所述第一文本信息包含第一文本特征，所述第一文本特征用于生成第二神经网络和文本识别工具的输入；
基于第一语音特征获得第一语音情感识别信息，所述第一语音情感识别信息为第一情感向量，用于提供从目标音频中提取的语音情感信息；
基于所述第一文本特征获得第一文本情感识别信息，所述第一文本情感识别信息为第二情感向量，用于提供从目标音频中提取的文本情感信息；
基于所述第一语音情感识别信息与所述第一文本情感识别信息，将第一语音情感识别信息与所述第一文本情感识别信息结合，确定所述目标音频的目标情感；具体为：
使用第一情感向量和第二情感向量以及目标情感对第三深度神经网络进行训练，以确定第三神经网络的参数，所述第三神经网络将被用于目标情感的获取，在第三神经网络的训练过程中，反向传播过程不会影响第一神经网络与第二神经网络的参数，从而保证第一神经网络与第二神经网络的独立性。

2.根据权利要求1所述结合语音与文本的多情感识别方法，其特征在于，在获取目标音频前，还包括下述步骤：
使用训练音频和第二语音情感识别信息对第一深度神经网络模型进行训练，从而确定第一神经网络模型参数的取值，所述第一深度神经网络模型将被用于所述第一语音情感识别信息的获取；所述第二语音情感识别信息为训练语音情感识别信息，用于第一深度神经网络模型的训练。

3.根据权利要求1所述结合语音与文本的多情感识别方法，其特征在于，在获取目标音频前，还包括下述步骤：
使用第二文本信息和第二文本情感识别信息对第二深度神经网络模型进行训练，从而确定第二神经网络模型参数的取值，所述第二神经网络将被用于第一文本情感识别信息的获取；所述第二文本信息为训练文本信息，用于第二深度神经网络模型的训练，所述第二文本情感识别信息为训练文本情感识别信息，用于第二深度神经网络模型的训练。

4.根据权利要求1所述结合语音与文本的多情感识别方法，其特征在于，所述第一语音情感识别信息为第一情感向量v1(e1,1,e1,2,e1,3...e1,n)，其中，e1,1至e1,n代表所述语音特征被识别为各种情感的概率。
所述第一文本情感识别信息为第二情感向量v2(e2,1,e2,2,e2,3...e2,n)，其中，e2,1至e2,n代表所述文本特征被识别为各种情感的概率。

5.根据权利要求4所述结合语音与文本的多情感识别方法，其特征在于，语音情感和文...

【专利技术属性】
技术研发人员：林伟伟，吴铨辉，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人