当前位置: 首页 > 专利查询>清华大学专利>正文

语音情感识别和标注的方法及装置制造方法及图纸

技术编号:20078089 阅读:37 留言:0更新日期:2019-01-15 01:33
本发明专利技术实施例提供一种语音情感识别和标注方法及装置,该方法包括:对语音音频的识别文本进行文本情感识别,获得语音音频的文本情感信息;对语音音频的声学特征进行语音情感识别,获得语音音频的语音情感信息;结合语音情感信息及文本情感信息后,匹配获得对应的表情符号,并采用表情符号对识别文本进行标注。本发明专利技术实施例通过语音和文本双通道的情感识别,在语音识别的过程中给识别文本标注了合适的表情符号来表征识别文本中语句的情感信息,从而减少了语音识别过程中情感信息的缺失。

Method and Device of Speech Emotion Recognition and Annotation

The embodiment of the present invention provides a method and device for speech emotion recognition and annotation. The method includes: text emotion recognition of speech and audio recognition text to obtain text emotion information of speech and audio; speech emotion recognition of acoustic characteristics of speech and audio to obtain speech emotion information of speech and audio; matching after combining speech emotion information and text emotion information. The corresponding expression symbols are obtained, and the recognition text is annotated by the expression symbols. In the embodiment of the present invention, the emotional information of sentences in the recognition text is represented by appropriate emoticons in the process of speech recognition through dual-channel emotional recognition of speech and text, thereby reducing the loss of emotional information in the process of speech recognition.

【技术实现步骤摘要】
语音情感识别和标注的方法及装置
本专利技术实施例涉及自然语音处理领域,更具体地,涉及一种语音情感识别和标注的方法及装置。
技术介绍
语音识别是将人们说话得到的语音音频转换成文本。参见图2,在传统的语音识别STT流程中,直接利用神经网络模型对语音音频进行识别,识别得到文本。但是,语音交互是自然交互方式的重要形式,语音音频中不仅包含了文本内容所表达的信息,也包含了一部分纯文本所无法表达的情感信息。因此,现有技术中的语音识别方法会造成所表达的情感信息的缺失。
技术实现思路
为了解决上述问题,本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的语音情感识别和标注的方法及装置。根据本专利技术实施例的第一方面,提供一种语音情感识别和标注的方法,该方法包括:对语音音频的识别文本进行文本情感识别,获得语音音频的文本情感信息;对语音音频的声学特征进行语音情感识别,获得语音音频的语音情感信息;结合语音情感信息及文本情感信息后,匹配获得对应的表情符号,并采用表情符号对识别文本进行标注。根据本专利技术实施例第二方面,提供了一种语音情感识别和标注的装置,该装置包括:识别模块,用于对语音音频的识别文本进行文本情感识别,获得语音音频的文本情感信息;对语音音频的声学特征进行语音情感识别,获得语音音频的语音情感信息;标注模块,用于结合语音情感信息及文本情感信息后,匹配获得对应的表情符号,并采用表情符号对识别文本进行标注。根据本专利技术实施例的第三方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如第一方面的各种可能的实现方式中任一种可能的实现方式所提供的语音情感识别和标注的方法。根据本专利技术实施例的第四方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面的各种可能的实现方式中任一种可能的实现方式所提供的语音情感识别和标注的方法。本专利技术实施例提供的语音情感识别和标注的方法及装置,通过对语音音频的识别文本进行文本情感识别,获得语音音频的文本情感信息,以及对语音音频的声学特征进行语音情感识别,获得语音音频的语音情感信息;并结合语音情感信息及文本情感信息后,匹配获得对应的表情符号,采用表情符号对识别文本进行标注。由于通过语音和文本双通道的情感识别,在语音识别的过程中给识别文本标注了合适的表情符号来表征识别文本中语句的情感信息,从而减少了语音识别过程中情感信息的缺失。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。图1为本专利技术实施例提供的语音情感识别和标注的方法的流程示意图;图2为现有技术提供的语音情感识别和标注的方法的流程示意图;图3为本专利技术另一实施例提供的语音情感识别和标注的方法的流程示意图;图4为本专利技术又一实施例提供的语音情感识别和标注的方法的流程示意图;图5为本专利技术实施例提供的语音情感识别和标注的装置的结构示意图;图6为本专利技术实施例提供的电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为了解决现有技术中语音音频转换成文本的过程中存在的情感缺失的缺陷,本专利技术实施例提供一种语音情感识别和标注的方法。参见图1,该方法包括:101、对语音音频的识别文本进行文本情感识别,获得语音音频的文本情感信息;对语音音频的声学特征进行语音情感识别,获得语音音频的语音情感信息。其中,参见图3,语音音频的情感信息具体可以从两方面体现:第一方面情感信息是识别文本所携带的情感信息,这是由说话人所说的话的语义本身决定的;第二方面情感信息是语音音频的声学特征所携带的情感信息,这是由说话人说话时的情绪决定的。因此,本专利技术实施例分别对识别文本和语音音频进行情感识别,获得用于表示上述第一方面情感信息的文本情感信息以及用于表示上述第二方面情感信息的语音情感信息。而在执行步骤101前,可对待识别的语音音频进行语音识别,获得识别文本,本专利技术实施例对语音识别的方式不作限定。另外,在步骤101中,本专利技术实施例对识别文本进行文本情感识别以及对语音情感识别的先后顺序不作限定。102、结合语音情感信息及文本情感信息后,匹配获得对应的表情符号,并采用表情符号对识别文本进行标注。具体地,首先对根据步骤101中识别获得的文本情感信息及语音情感信息进行结合,本专利技术实施例对结合的方式不作限定,例如采用加权求和的方式。结合后能够获得一个综合语音情感信息和文本情感信息两方面、可以作为最终的用于表示语音音频的情感信息的综合情感信息。由于表情符号能够对情感信息进行表示,因此可对综合情感信息进行匹配,获得对应的表情符号。其中,本专利技术实施例对匹配的方式不作限定,例如可以预先构建一个数据库,该数据库中存储有多种表情符号以及每种表情符号对应的情感信息,从而在匹配时,可以在该数据库中匹配到与综合情感信息对应的表情符号。其中,本专利技术实施例对表情符号的类别不作限定,包括但不限于emoji表情。在匹配到对应的表情符号后,可以对识别文本进行标注,例如将表情符号插入到识别文本中合适的位置,最终获得了带有表情符号的识别文本。本专利技术实施例提供的语音情感识别和标注的方法,通过对语音音频的识别文本进行文本情感识别,获得语音音频的文本情感信息,以及对语音音频的声学特征进行语音情感识别,获得语音音频的语音情感信息;并结合语音情感信息及文本情感信息后,匹配获得对应的表情符号,采用表情符号对识别文本进行标注。由于通过语音和文本双通道的情感识别,在语音识别的过程中给识别文本标注了合适的表情符号来表征识别文本中语句的情感信息,从而减少了语音识别过程中情感信息的缺失。基于上述实施例的内容,作为一种可选实施例,提供一种对语音音频的识别文本进行文本情感识别,获得语音音频的文本情感信息的方法,包括但不限于:步骤1、对识别文本进行切分,获得多个短句,并计算获得每个短句在情感量化坐标系下的情感量化坐标。具体地,参见图4,由于识别文本可能是由多个句子组成的长文本,因此,首先根据识别文本中标点符号的断句对识别文本进行切分,将整个识别文本切分成多个短句。之后以每个短句作为处理单元,然后计算出每个短句在情感量化坐标系下的情感量化坐标。其中,情感量化坐标系中的每个坐标值都能够表征一种情感信息,从而可以利用情感量化坐标来表征每个短句所对应的情感信息。步骤2、对情感量化坐标进行线性扩展映射,获得文本坐标,文本坐标用于表示对应的短句的文本情感信息。其中,对情感量化坐标进行线性扩展映射的目的是让不同的表情符号区别更大,在之后的和语音坐标加权求和的时候可以有更好的结果。具体地,在获得每个短句对应的情感量化坐标后,将其进行线性扩展得到文本坐标,表示文本中的情感信息。本专利技术实施例本文档来自技高网...

【技术保护点】
1.一种语音情感识别和标注的方法,其特征在于,包括:对语音音频的识别文本进行文本情感识别,获得所述语音音频的文本情感信息;对所述语音音频的声学特征进行语音情感识别,获得所述语音音频的语音情感信息;结合所述语音情感信息及所述文本情感信息后,匹配获得对应的表情符号,并采用所述表情符号对所述识别文本进行标注。

【技术特征摘要】
1.一种语音情感识别和标注的方法,其特征在于,包括:对语音音频的识别文本进行文本情感识别,获得所述语音音频的文本情感信息;对所述语音音频的声学特征进行语音情感识别,获得所述语音音频的语音情感信息;结合所述语音情感信息及所述文本情感信息后,匹配获得对应的表情符号,并采用所述表情符号对所述识别文本进行标注。2.根据权利要求1所述的方法,其特征在于,所述对语音音频的识别文本进行文本情感识别,获得所述语音音频的文本情感信息,包括:对所述识别文本进行切分,获得多个短句,并计算获得每个所述短句在情感量化坐标系下的情感量化坐标;对所述情感量化坐标进行线性扩展映射,获得文本坐标,所述文本坐标用于表示对应的所述短句的文本情感信息。3.根据权利要求2所述的方法,其特征在于,所述计算获得每个所述短句对应的情感量化坐标,包括:计算获得每个所述短句对应的置信度最高的所述表情符号;将所述表情符号对应的情感量化坐标作为对应的所述短句的情感量化坐标。4.根据权利要求2所述的方法,其特征在于,所述对所述语音音频的声学特征进行语音情感识别,获得所述语音音频的语音情感信息,包括:对所述语音音频的声学特征进行情感分析,获得所述语音音频在所述情感量化坐标系下的情感向量值;对所述情感向量值依次进行非线性函数过滤和线性扩展映射,获得语音情感偏移向量,所述语音情感偏移向量用于表示所述语音音频的所述语音情感信息。5.根据权利要求4所述的方法,其特征在于,所述对所述语音音频的声学特征进行情感分析,获得所述语音音频在所述情感量化坐标下的情感向量值,包括:对所述语音音频的声学特征进行情...

【专利技术属性】
技术研发人员:徐迎庆胡佳雄胡效竹叶星宇徐千尧王楠
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1