【技术实现步骤摘要】
本申请涉及人工智能,适用于金融科技领域和医疗科技领域,尤其涉及一种基于语音的情绪识别方法和装置、电子设备及存储介质。
技术介绍
1、语音识别是一种人工智能技术,通过声学模型、语言模型等将语音数据转换为文本数据,并通过分析音调、语速等声学特征,进一步判断说话者的情绪状态。语音识别技术可以应用于较多应用场景,例如在金融科技场景中,对客户在智能客服平台上输入的语音数据或者是通过电话呼入/呼出的通话记录进行语音识别,便于进行数据记录和后续使用计算机进行处理。在医疗健康场景中,对患者参与的远程心理评估测试、门诊沟通记录等语音数据进行识别,判断患者的状态。
2、目前,主要采用语音大模型实现语音识别,能够精准地将语音数据转换为文本数据,但在实际使用过程中,语音大模型却无法准确识别语音数据中蕴含的说话人的情绪特征,导致语音情绪识别的准确性较低。
3、因此,如何提高语音情绪识别的准确性,成为了亟待解决的技术问题。
技术实现思路
1、本申请实施例的主要目的在于提出一种基于语音的情绪识别
...【技术保护点】
1.一种基于语音的情绪识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述目标音频解码子模型包括自注意力层、第一交叉注意力层和第二交叉注意力层;所述通过所述目标说话人识别子模型对预设的情绪性别编码嵌入、所述目标音频编码数据和所述目标语音文本信息进行双重交叉注意力计算,得到目标说话人情绪信息,包括:
3.根据权利要求1所述的方法,其特征在于,所述情绪性别编码嵌入包括情绪编码嵌入和性别编码嵌入;在所述通过所述目标说话人识别子模型对预设的情绪性别编码嵌入、所述目标音频编码数据和所述目标语音文本信息进行双重交叉注意力计算
...【技术特征摘要】
1.一种基于语音的情绪识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述目标音频解码子模型包括自注意力层、第一交叉注意力层和第二交叉注意力层;所述通过所述目标说话人识别子模型对预设的情绪性别编码嵌入、所述目标音频编码数据和所述目标语音文本信息进行双重交叉注意力计算,得到目标说话人情绪信息,包括:
3.根据权利要求1所述的方法,其特征在于,所述情绪性别编码嵌入包括情绪编码嵌入和性别编码嵌入;在所述通过所述目标说话人识别子模型对预设的情绪性别编码嵌入、所述目标音频编码数据和所述目标语音文本信息进行双重交叉注意力计算,得到目标说话人情绪信息之前,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于,所述对所述目标语音数据进行特征提取,得到目标语音特征,包括:
5.根据权利要求1至4任一项所述的方法,其特征在于,所述目标语音识别模型由原始语音识别模型训练得到...
【专利技术属性】
技术研发人员:庄子扬,魏韬,王少军,肖京,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。