语音情绪识别方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:23559970 阅读:18 留言:0更新日期:2020-03-25 05:07
本发明专利技术公开了一种语音情绪识别方法、装置、设备及计算机可读存储介质,所述方法包括:对待识别语音数据进行音素转换得到待识别音素序列;将待识别音素序列输入音素分类器得到音素情绪分类结果,其中,音素分类器至少基于文本数据所转换的音素序列预先训练得到的;将待识别语音数据输入预设语音分类器得到语音情绪分类结果;对音素情绪分类结果和语音情绪分类结果进行融合得到待识别语音数据的情绪识别结果。本发明专利技术实现了充分利用语音数据中的情绪信息,提高了情绪识别结果的准确率,提升了情绪识别效果。

Speech emotion recognition method, device, equipment and computer readable storage medium

【技术实现步骤摘要】
语音情绪识别方法、装置、设备及计算机可读存储介质
本专利技术涉及人工智能
,尤其涉及一种语音情绪识别方法、装置、设备及计算机可读存储介质。
技术介绍
情绪识别在智能人机交互系统,特别是自动客户服务系统中起到非常重要的作用。比如,在自动客服系统中,系统需要即时识别用户对话中表露出来的情绪,以便针对情绪采取相应的措施,如当用户感到愤怒时及时进行安抚,这对提升用户体验和应用效率非常重要。如今,智能人机交互系统走向语音化,对语音的情绪识别显得尤为重要。现有的语音情绪识别方法主要是通过机器识别将语音数据先转换为文本,再对文本采用基于文本的情绪识别方法进行情绪识别。然而这种识别方法将语音数据转换为文本,基于文本进行情绪识别,仅利用了语音数据中文本信息所反映的情绪信息,损失了语音数据中的非文本情绪信息,使得情绪识别效果差。
技术实现思路
本专利技术的主要目的在于提供一种语音情绪识别方法、装置、设备及计算机可读存储介质,旨在解决目前将语音转换为文本,再基于文本进行情绪识别的方法识别效果差的技术问题。为实现上述目的,本专利技术提供一种语音情绪识别方法,所述语音情绪识别方法包括:对待识别语音数据进行音素转换得到待识别音素序列;将所述待识别音素序列输入音素分类器得到音素情绪分类结果,其中,所述音素分类器至少基于文本数据所转换的音素序列预先训练得到的;将所述待识别语音数据输入预设语音分类器得到语音情绪分类结果;对所述音素情绪分类结果和所述语音情绪分类结果进行融合得到所述待识别语音数据的情绪识别结果。可选地,所述对待识别语音数据进行音素转换得到待识别音素序列的步骤之前,还包括:获取第一文本训练数据、第一语音训练数据和与各条训练数据对应的第一情绪标注;将所述第一文本训练数据进行音素转换得到第一音素序列,将所述第一语音训练数据转换得到第二音素序列;采用所述第一音素序列、所述第二音素序列和所述第一情绪标注对待训练音素分类器进行训练得到所述音素分类器。可选地,所述采用所述第一音素序列、所述第二音素序列和所述第一情绪标注对待训练音素分类器进行训练得到所述音素分类器的步骤之后,还包括:获取第二语音训练数据、与所述第二语音训练数据构成平行语料的第二文本训练数据,和与所述第二语音训练数据对应的第二情绪标注;采用所述第二语音训练数据作为所述预设语音分类器的输入数据,采用所述第二语音训练数据和所述第二文本训练数据分别转换的音素序列作为所述音素分类器的输入数据,对所述预设语音分类器和所述音素分类器的输出数据进行融合,并基于所述第二情绪标注和融合结果对所述预设语音分类器和所述音素分类器进行融合微调。可选地,所述将所述第一文本训练数据进行音素转换得到第一音素序列的步骤包括:将所述第一文本训练数据按照词语与音素之间的预设映射关系,转换得到第一音素序列。可选地,所述将所述待识别语音数据输入预设语音分类器得到语音情绪分类结果的步骤包括:从所述待识别语音数据中提取音频特征,其中,所述音频特征至少包括对数梅尔倒声谱图、音调、音量和强度中的一项;将所述音频特征输入预设语音分类器得到语音情绪分类结果。可选地,所述对所述音素情绪分类结果和所述语音情绪分类结果进行融合得到所述待识别语音数据的情绪识别结果的步骤包括:对所述音素情绪分类结果和所述语音情绪分类结果进行加权平均,根据加权平均的结果得到所述待识别语音数据的情绪识别结果。可选地,所述对所述音素情绪分类结果和所述语音情绪分类结果进行融合得到所述待识别语音数据的情绪识别结果的步骤包括:对所述音素情绪分类结果和所述语音情绪分类结果进行向量拼接;将向量拼接的结果输入预设神经网络得到所述待识别语音数据的情绪识别结果。此外,为实现上述目的,本专利技术还提供一种语音情绪识别装置,所述语音情绪识别装置包括:转换模块,用于对待识别语音数据进行音素转换得到待识别音素序列;第一输入模块,用于将所述待识别音素序列输入音素分类器得到音素情绪分类结果,其中,所述音素分类器至少基于文本数据所转换的音素序列预先训练得到的;第二输入模块,用于将所述待识别语音数据输入预设语音分类器得到语音情绪分类结果;融合模块,用于对所述音素情绪分类结果和所述语音情绪分类结果进行融合得到所述待识别语音数据的情绪识别结果。此外,为实现上述目的,本专利技术还提供一种语音情绪识别设备,所述语音情绪识别设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的语音情绪识别程序,所述语音情绪识别程序被所述处理器执行时实现如上所述的语音情绪识别方法的步骤。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语音情绪识别程序,所述语音情绪识别程序被处理器执行时实现如上所述的语音情绪识别方法的步骤。本专利技术中,在本实施例中,通过对待识别语音数据进行音素转换得到待识别音素序列;将待识别音素序列输入音素分类器得到音素情绪分类结果,其中,音素分类器至少基于文本数据所转换的音素序列预先训练得到的;将待识别语音数据输入预设语音分类器得到语音情绪分类结果;对音素情绪分类结果和所述语音情绪分类结果进行融合得到所述待识别语音数据的情绪识别结果。由于音素分类器通过文本数据所转换的音素序列训练得到,使得音素分类器学习到了音素序列中的语义信息,从而使得输出的音素情绪分类结果既包含了音素序列本身的发音特征所反映的情绪信息,还包含了音素序列中语义信息所反映的情绪信息;也即通过跨模态迁移技术,为单模态的语音数据补全了文本模态的信息。由于最终的情绪识别结果融合了音素情绪分类结果和语音情绪分类结果,使得待识别语音数据的文本语义信息所包含的情绪信息、发音特征所包含的情绪信息和音频特征所包含的情绪信息均被考虑在内,反映在最终的情绪识别结果中,实现了充分利用待识别语音数据中的情绪信息,从而提高了情绪识别结果的准确率,提升了情绪识别效果。附图说明图1是本专利技术实施例方案涉及的硬件运行环境的结构示意图;图2为本专利技术语音情绪识别方法第一实施例的流程示意图;图3为本专利技术实施例涉及的一种语音数据的情绪识别过程示意图;图4为本专利技术实施例涉及的一种音素分类器和语音分类器的训练过程示意图;图5为本专利技术语音情绪识别装置较佳实施例的功能示意图模块图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例提供了一种语音情绪识别设备,参照图1,图1是本专利技术实施例方案涉及的硬件运行环境的结构示意图。需要说明的是,图1即可为语音情绪识别设备的硬件运行环境的结构示意图。本专利技术实施例语音情绪识别设备可以是PC,也可以是智能手机、智能电视机、平板电脑、便携计算机等具有显示功能的终端设备。如图1本文档来自技高网...

【技术保护点】
1.一种语音情绪识别方法,其特征在于,所述语音情绪识别方法包括:/n对待识别语音数据进行音素转换得到待识别音素序列;/n将所述待识别音素序列输入音素分类器得到音素情绪分类结果,其中,所述音素分类器至少基于文本数据所转换的音素序列预先训练得到的;/n将所述待识别语音数据输入预设语音分类器得到语音情绪分类结果;/n对所述音素情绪分类结果和所述语音情绪分类结果进行融合得到所述待识别语音数据的情绪识别结果。/n

【技术特征摘要】
1.一种语音情绪识别方法,其特征在于,所述语音情绪识别方法包括:
对待识别语音数据进行音素转换得到待识别音素序列;
将所述待识别音素序列输入音素分类器得到音素情绪分类结果,其中,所述音素分类器至少基于文本数据所转换的音素序列预先训练得到的;
将所述待识别语音数据输入预设语音分类器得到语音情绪分类结果;
对所述音素情绪分类结果和所述语音情绪分类结果进行融合得到所述待识别语音数据的情绪识别结果。


2.如权利要求1所述的语音情绪识别方法,其特征在于,所述对待识别语音数据进行音素转换得到待识别音素序列的步骤之前,还包括:
获取第一文本训练数据、第一语音训练数据和与各条训练数据对应的第一情绪标注;
将所述第一文本训练数据进行音素转换得到第一音素序列,将所述第一语音训练数据转换得到第二音素序列;
采用所述第一音素序列、所述第二音素序列和所述第一情绪标注对待训练音素分类器进行训练得到所述音素分类器。


3.如权利要求2所述的语音情绪识别方法,其特征在于,所述采用所述第一音素序列、所述第二音素序列和所述第一情绪标注对待训练音素分类器进行训练得到所述音素分类器的步骤之后,还包括:
获取第二语音训练数据、与所述第二语音训练数据构成平行语料的第二文本训练数据,和与所述第二语音训练数据对应的第二情绪标注;
采用所述第二语音训练数据作为所述预设语音分类器的输入数据,采用所述第二语音训练数据和所述第二文本训练数据分别转换的音素序列作为所述音素分类器的输入数据,对所述预设语音分类器和所述音素分类器的输出数据进行融合,并基于所述第二情绪标注和融合结果对所述预设语音分类器和所述音素分类器进行融合微调。


4.如权利要求2所述的语音情绪识别方法,其特征在于,所述将所述第一文本训练数据进行音素转换得到第一音素序列的步骤包括:
将所述第一文本训练数据按照词语与音素之间的预设映射关系,转换得到第一音素序列。


5.如权利要求1所述的语音情绪识别方法,其特征在于,所述将所述待识别语音数据输入预设语音分...

【专利技术属性】
技术研发人员:吴学阳姜迪汤耀华徐倩
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1