The embodiment of the present invention provides a method and device for speech emotion recognition and annotation. The method includes: text emotion recognition of speech and audio recognition text to obtain text emotion information of speech and audio; speech emotion recognition of acoustic characteristics of speech and audio to obtain speech emotion information of speech and audio; matching after combining speech emotion information and text emotion information. The corresponding expression symbols are obtained, and the recognition text is annotated by the expression symbols. In the embodiment of the present invention, the emotional information of sentences in the recognition text is represented by appropriate emoticons in the process of speech recognition through dual-channel emotional recognition of speech and text, thereby reducing the loss of emotional information in the process of speech recognition.
【技术实现步骤摘要】
语音情感识别和标注的方法及装置
本专利技术实施例涉及自然语音处理领域,更具体地,涉及一种语音情感识别和标注的方法及装置。
技术介绍
语音识别是将人们说话得到的语音音频转换成文本。参见图2,在传统的语音识别STT流程中,直接利用神经网络模型对语音音频进行识别,识别得到文本。但是,语音交互是自然交互方式的重要形式,语音音频中不仅包含了文本内容所表达的信息,也包含了一部分纯文本所无法表达的情感信息。因此,现有技术中的语音识别方法会造成所表达的情感信息的缺失。
技术实现思路
为了解决上述问题,本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的语音情感识别和标注的方法及装置。根据本专利技术实施例的第一方面,提供一种语音情感识别和标注的方法,该方法包括:对语音音频的识别文本进行文本情感识别,获得语音音频的文本情感信息;对语音音频的声学特征进行语音情感识别,获得语音音频的语音情感信息;结合语音情感信息及文本情感信息后,匹配获得对应的表情符号,并采用表情符号对识别文本进行标注。根据本专利技术实施例第二方面,提供了一种语音情感识别和标注的装置,该装置包括:识别模块,用于对语音音频的识别文本进行文本情感识别,获得语音音频的文本情感信息;对语音音频的声学特征进行语音情感识别,获得语音音频的语音情感信息;标注模块,用于结合语音情感信息及文本情感信息后,匹配获得对应的表情符号,并采用表情符号对识别文本进行标注。根据本专利技术实施例的第三方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如第一方面的各种可能的实现 ...
【技术保护点】
1.一种语音情感识别和标注的方法,其特征在于,包括:对语音音频的识别文本进行文本情感识别,获得所述语音音频的文本情感信息;对所述语音音频的声学特征进行语音情感识别,获得所述语音音频的语音情感信息;结合所述语音情感信息及所述文本情感信息后,匹配获得对应的表情符号,并采用所述表情符号对所述识别文本进行标注。
【技术特征摘要】
1.一种语音情感识别和标注的方法,其特征在于,包括:对语音音频的识别文本进行文本情感识别,获得所述语音音频的文本情感信息;对所述语音音频的声学特征进行语音情感识别,获得所述语音音频的语音情感信息;结合所述语音情感信息及所述文本情感信息后,匹配获得对应的表情符号,并采用所述表情符号对所述识别文本进行标注。2.根据权利要求1所述的方法,其特征在于,所述对语音音频的识别文本进行文本情感识别,获得所述语音音频的文本情感信息,包括:对所述识别文本进行切分,获得多个短句,并计算获得每个所述短句在情感量化坐标系下的情感量化坐标;对所述情感量化坐标进行线性扩展映射,获得文本坐标,所述文本坐标用于表示对应的所述短句的文本情感信息。3.根据权利要求2所述的方法,其特征在于,所述计算获得每个所述短句对应的情感量化坐标,包括:计算获得每个所述短句对应的置信度最高的所述表情符号;将所述表情符号对应的情感量化坐标作为对应的所述短句的情感量化坐标。4.根据权利要求2所述的方法,其特征在于,所述对所述语音音频的声学特征进行语音情感识别,获得所述语音音频的语音情感信息,包括:对所述语音音频的声学特征进行情感分析,获得所述语音音频在所述情感量化坐标系下的情感向量值;对所述情感向量值依次进行非线性函数过滤和线性扩展映射,获得语音情感偏移向量,所述语音情感偏移向量用于表示所述语音音频的所述语音情感信息。5.根据权利要求4所述的方法,其特征在于,所述对所述语音音频的声学特征进行情感分析,获得所述语音音频在所述情感量化坐标下的情感向量值,包括:对所述语音音频的声学特征进行情...
【专利技术属性】
技术研发人员:徐迎庆,胡佳雄,胡效竹,叶星宇,徐千尧,王楠,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。