一种基于语音数据的情感识别方法、装置及电子设备制造方法及图纸

技术编号:36532366 阅读:14 留言:0更新日期:2023-02-01 16:15
本发明专利技术提供了一种基于语音数据的情感识别方法、装置及电子设备,涉及计算机技术领域,包括获取待确定情感的语音数据;将待确定情感的语音数据分别转换得到文本拼接特征和语言情感特征,文本拼接特征包括第一文本向量特征、第二文本向量特征;将第一文本向量特征、第二文本向量特征拼接,得到文本情感特征;将语言情感特征、文本情感特征拼接,确定待确定情感的语音数据的情感分类。本申请能够有效识别出情感类别,具有识别率高、鲁棒性强的特点,同时,能够利用不同模态之间的互补特性提高情感特征的表征能力,从而提升情感分析的能力。从而提升情感分析的能力。从而提升情感分析的能力。

【技术实现步骤摘要】
一种基于语音数据的情感识别方法、装置及电子设备


[0001]本专利技术涉及计算机
,尤其涉及一种基于语音数据的情感识别方法、装置及电子设备。

技术介绍

[0002]通常,人类的语言中包含着说话者的情感,在人机交互中,对于人的语言情感的识别是十分重要的环节。计算机在识别出语言内容的同时,识别说语言携带的情感,可以使得人机交互更加流利自然,提高人机交互的用户体验感。
[0003]现有的识别方法中,为了提高情感识别率,一般有两种方式:一是通过提升单模态的情感识别效果从而提升整体多模态的情感识别效果;二是通过研究改进多模态信息间的融合方式,来提升整体识别效果。为了打破单一模态的瓶颈,突破面向应用的阻碍,研究多模态情感识别具有更广阔的研究价值和应用意义。
[0004]因此,提出一种基于语音数据的情感识别方法、装置及电子设备。

技术实现思路

[0005]本说明书提供一种基于语音数据的情感识别方法、装置及电子设备,利用该识别方法能够有效识别出情感类别,具有识别率高、鲁棒性强的特点,同时,能够利用不同模态之间的互补特性提高情感特征的表征能力,从而提升情感分析的能力。
[0006]本说明书提供一种基于语音数据的情感识别方法,包括:
[0007]获取待确定情感的语音数据;
[0008]将所述待确定情感的语音数据分别转换得到文本拼接特征和语言情感特征,所述文本拼接特征包括第一文本向量特征、第二文本向量特征;
[0009]将所述第一文本向量特征、所述第二文本向量特征拼接,得到文本情感特征;
[0010]将所述语言情感特征、所述文本情感特征拼接,确定所述待确定情感的语音数据的情感分类。
[0011]可选的,所述将所述待确定情感的语音数据分别转换得到文本拼接特征和语言情感特征,所述文本拼接特征包括第一文本向量特征、第二文本向量特征,包括:
[0012]通过音频提取模型将所述待确定情感的语音数据拆分为有声语音数据、无声语音数据;
[0013]剔除所述无声语音数据,利用音频特征提取模型提取所述有声语音数据的语言情感特征;
[0014]基于所述有声语音数据得到所述文本拼接特征,具体包括:
[0015]将所述有声语音数据输入至词频

逆向文档频率模型,得到所述第一文本向量特征;
[0016]将所述有声数据输入至词向量模型,得到所述第二文本向量特征。
[0017]可选的,所述剔除所述无声语音数据,利用音频特征提取模型提取所述有声语音
数据的语言情感特征,包括:
[0018][0019]其中,Mel(f)为所述语言情感特征,所述f为频率。
[0020]可选的,所述将所述有声语音数据输入至词频

逆向文档频率模型,得到所述第一文本向量特征,包括:
[0021]将所述有声语音数据输入至词频

逆向文档频率模型,得到所述有声语音数据的关键词的重要性tf
i,j
及逆向文档频率idf
i

[0022]所述有声语音数据的关键词的重要性tf
i,j
的确定,具体包括:
[0023][0024]其中,n
i,j
为所述关键词在所述有声语音数据中出现的次数,∑
k
n
k,j
为所述有声语音数据中出现的词语的总值;
[0025]所述关键词的逆向文档频率idf
i
的确定,具体包括:
[0026][0027]其中,|D|为所述有声语音数据的文件总量,|{j:t
i
∈d
j
}|为包含所述关键词的有声语音数据的文件量;
[0028]基于所述有声语音数据的关键词的重要性tf
i,j
及所述逆向文档频率idf
i
,确定所述第一文本向量特征,具体包括:
[0029]TFIDF
i,j
=tf
i,j
*idf
i,j
[0030]其中,TFIDF
i,j
为所述第一文本向量特征。
[0031]可选的,所述将所述语言情感特征、所述文本情感特征拼接,确定所述待确定情感的语音数据的情感分类之后,包括:
[0032]统计所述待确定情感的语音数据的情感分类结果;
[0033]基于所述分类结果确定所述基于语音数据的情感识别方法的评价指标,具体包括:
[0034]所述分类结果包括正样本预测结果为正类的数量TP、正样本预测结果为负类的数量FN、负样本预测结果为正类的数量FP、负样本预测结果为负类的数量TN;
[0035]所述评价指标包括准确率Accuracy、精准率Precision、召回率Recall、调和平均值F1;
[0036]所述分类结果的准确率Accuracy的确定,具体包括:
[0037][0038]所述分类结果的精准率Precision的确定,具体包括:
[0039][0040]所述分类结果的召回率Recall的确定,具体包括:
[0041][0042]所述调和平均值F1的确定,具体包括:
[0043][0044]基于所述评价指标对所述基于语音数据的情感识别方法进行调整。
[0045]本说明书提供一种基于语音数据的情感识别装置,包括:
[0046]获取模块,用于获取待确定情感的语音数据;
[0047]转换模块,用于将所述待确定情感的语音数据分别转换得到文本拼接特征和语言情感特征,所述文本拼接特征包括第一文本向量特征、第二文本向量特征;
[0048]第一拼接模块,用于将所述第一文本向量特征、所述第二文本向量特征拼接,得到文本情感特征;
[0049]第二拼接模块,用于将所述语言情感特征、所述文本情感特征拼接,确定所述待确定情感的语音数据的情感分类。
[0050]可选的,所述转换模块,包括:
[0051]通过音频提取模型将所述待确定情感的语音数据拆分为有声语音数据、无声语音数据;
[0052]剔除所述无声语音数据,利用音频特征提取模型提取所述有声语音数据的语言情感特征;
[0053]基于所述有声语音数据得到所述文本拼接特征,具体包括:
[0054]将所述有声语音数据输入至词频

逆向文档频率模型,得到所述第一文本向量特征;
[0055]将所述有声数据输入至词向量模型,得到所述第二文本向量特征。
[0056]可选的,所述剔除所述无声语音数据,利用音频特征提取模型提取所述有声语音数据的语言情感特征,包括:
[0057][0058]其中,Mel(f)为所述语言情感特征,所述f为频率。
[0059]可选的,所述将所述有声语音数据输入至词频

逆向文档频率模型,得到所述第一文本向量特征,包括:
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音数据的情感识别方法,其特征在于,包括:获取待确定情感的语音数据;将所述待确定情感的语音数据分别转换得到文本拼接特征和语言情感特征,所述文本拼接特征包括第一文本向量特征、第二文本向量特征;将所述第一文本向量特征、所述第二文本向量特征拼接,得到文本情感特征;将所述语言情感特征、所述文本情感特征拼接,确定所述待确定情感的语音数据的情感分类。2.如权利要求1所述的基于语音数据的情感识别方法,其特征在于,所述将所述待确定情感的语音数据分别转换得到文本拼接特征和语言情感特征,所述文本拼接特征包括第一文本向量特征、第二文本向量特征,包括:通过音频提取模型将所述待确定情感的语音数据拆分为有声语音数据、无声语音数据;剔除所述无声语音数据,利用音频特征提取模型提取所述有声语音数据的语言情感特征;基于所述有声语音数据得到所述文本拼接特征,具体包括:将所述有声语音数据输入至词频

逆向文档频率模型,得到所述第一文本向量特征;将所述有声数据输入至词向量模型,得到所述第二文本向量特征。3.如权利要求2所述的基于语音数据的情感识别方法,其特征在于,所述剔除所述无声语音数据,利用音频特征提取模型提取所述有声语音数据的语言情感特征,包括:其中,Mel(f)为所述语言情感特征,所述f为频率。4.如权利要求2所述的基于语音数据的情感识别方法,其特征在于,所述将所述有声语音数据输入至词频

逆向文档频率模型,得到所述第一文本向量特征,包括:将所述有声语音数据输入至词频

逆向文档频率模型,得到所述有声语音数据的关键词的重要性tf
i,j
及逆向文档频率idf
i
;所述有声语音数据的关键词的重要性tf
i,j
的确定,具体包括:其中,n
i,j
为所述关键词在所述有声语音数据中出现的次数,∑
k
n
k,j
为所述有声语音数据中出现的词语的总值;所述关键词的逆向文档频率idf
i
的确定,具体包括:其中,|D|为所述有声语音数据的文件总量,|{j:t
i
∈d
j
}|为包含所述关键词的有声语音数据的文件量;基于所述有声语音数据的关键词的重要性tf
i,j
及所述逆向文档频率idf
i
,确定所述第一文本向量特征,具体包括:
TFIDF
i,j
=tf
i,j
*idf

【专利技术属性】
技术研发人员:何熲张虹玥谭润东高军晖
申请(专利权)人:上海暖禾脑科学技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1