基于语调的意图识别方法、装置、设备及存储介质制造方法及图纸

技术编号:27246812 阅读:19 留言:0更新日期:2021-02-04 12:21
本发明专利技术涉及人工智能领域,公开了一种基于语调的意图识别方法、装置、设备及存储介质,用于解决在语音智能问答的意图识别过程中不能实现识别同字不同义的功能以及提高意图识别的准确率。获取待识别语音流,所述待识别语音流至少包括音调数据和语气特征词;根据所述待识别语音流获取文本数据;基于所述待识别语音流获取多个语音片段时刻戳,获取所述待识别语音流包括的语气词,得到目标语气特征词,并根据所述目标语气特征词和所述多个语音片段时刻戳确定目标语音流;根据所述目标语音流进行意图识别,得到目标意图,此外,本发明专利技术还涉及区块链技术,目标语音流可存储于区块链中。目标语音流可存储于区块链中。目标语音流可存储于区块链中。

【技术实现步骤摘要】
基于语调的意图识别方法、装置、设备及存储介质


[0001]本专利技术涉及语音识别领域,尤其涉及一种基于语调的意图识别方法、装置、设备及存储介质。

技术介绍

[0002]随着科技的发展,智能问答系统在日常生活中发挥着越来越大的作用,根据对话的展现形式,智能问答系统可以分为在线智能问答系统和语音智能问答系统两类。目前在线智能问答系统的应用已经比较成熟,在线智能问答机器人的解决率可以达到80%以上,为企业节约大量人工成本。语音智能问答系统涉及到语音识别和情绪识别部分,由于说话人表达习惯、口音和情绪的主观性等问题,应用上没有在线智能问答系统那么成熟。
[0003]目前常见的语音智能问答系统包括呼入智能问答系统和呼出智能问答系统两种。在现有的呼出智能问答系统中,采用对语音识别转录后的文本进行处理的方式,对用户意图进行理解,然而呼出智能问答系统多类似于问卷问答形式,用户大多以“嗯”、“啊”、“额”和“哦”等单音节形式作答,同一个字不同的语气表达的意图却大相径庭,采用转录后的文本数据进行意图识别时,无法实现识别同字不同义的功能,意图识别准确率低。

技术实现思路

[0004]本专利技术的主要目的在于解决在语音智能问答中通过文本数据进行意图识别时识别准确率低的问题。
[0005]本专利技术第一方面提供了一种基于语调的意图识别方法,包括:获取待识别语音流,所述待识别语音流至少包括音调数据和语气特征词;根据所述待识别语音流获取文本数据;基于所述待识别语音流获取多个语音片段时刻戳,获取所述待识别语音流包括的语气词,得到目标语气特征词,并根据所述目标语气特征词和所述多个语音片段时刻戳确定目标语音流;根据所述目标语音流进行意图识别,得到目标意图。
[0006]可选的,在本专利技术第一方面的第一种实现方式中,所述根据所述待识别语音流获取文本数据包括:对所述待识别语音流进行端点检测,得到多个语音数据片段,每个语音数据片段中包括一个语气特征词;根据所述多个语音数据片段得到文本数据。
[0007]可选的,在本专利技术第一方面的第二种实现方式中,所述根据所述多个语音数据片段得到文本数据包括:提取每个语音数据片段对应的声学特征,得到多个声学特征;训练所述多个声学特征,得到语言模型;将所述多个语音数据片段依次输入所述语言模型并结合预置的词典,生成文本数据。
[0008]可选的,在本专利技术第一方面的第三种实现方式中,所述基于所述待识别语音流获取多个语音片段时刻戳,获取所述待识别语音流包括的语气词,得到目标语气特征词,并根据所述目标语气特征词和所述多个语音片段时刻戳确定目标语音流:将所述多个语音数据片段依次输入预置的语音检测模型,生成与每个语音数据片段对应的语音片段时刻戳,得到多个语音片段时刻戳;对所述文本数据进行筛选,得到筛选后的文本数据;根据正则匹配
算法确定与所述筛选后的文本数据对应的目标语气特征词;基于所述目标语气特征词对应的目标语音片段在多个语音片段时刻戳中确定对应的目标语音片段时刻戳;基于目标语音片段时刻戳在待识别语音流中确定目标语音流。
[0009]可选的,在本专利技术第一方面的第四种实现方式中,所述根据所述目标语音流进行意图识别,得到目标意图包括:在所述音调数据中提取与所述目标语音流对应的音高曲线数据,得到目标音高曲线数据;根据所述目标音高曲线数据进行计算,得到目标音长数据;若所述目标音长数据大于音长阈值,则提取目标语音流的下一段语音流作为音长语音流,根据所述音长语音流或者与所述音长语音流对应的文本数据进行意图识别,得到目标意图;若所述目标音长数据小于或者等于所述音长阈值,则根据所述音高曲线数据计算得到目标音高曲线斜率和目标基频抖动;根据所述目标音高曲线斜率和所述目标基频抖动进行意图识别,得到目标意图。
[0010]可选的,在本专利技术第一方面的第五种实现方式中,所述若所述目标音长数据小于或者等于所述音长阈值,则根据所述音高曲线数据计算得到目标音高曲线斜率和目标基频抖动包括:若所述目标音长数据小于或者等于所述音长阈值,则在所述目标音高曲线数据中选取头部采样点和尾部采样点,并计算所述头部采样点和所述尾部采样点的斜率,得到目标音高曲线斜率;计算所述头部采样点和所述尾部采样点的差值,得到目标基频抖动。
[0011]可选的,在本专利技术第一方面的第六种实现方式中,所述根据所述目标音高曲线斜率和所述目标基频抖动进行意图识别,得到目标意图包括:当所述目标音高曲线斜率大于或者等于斜率阈值时,判断所述目标基频抖动是否大于或者等于抖动阈值;若所述目标基频抖动大于或者等于所述抖动阈值,则确定所述目标语音流的意图为疑问意图,所述疑问意图为目标意图;若所述目标基频抖动小于所述抖动阈值,则提取目标音高曲线数据对应的目标音高曲拱点,若目标音高曲拱点高于预置的肯定音高曲拱点,则确定所述目标语音流的意图为疑问意图;当所述目标音高曲线斜率小于所述斜率阈值时,判断所述目标基频抖动是否小于所述抖动阈值;若所述目标基频抖动小于所述抖动阈值,则确定所述目标语音流的意图为肯定意图,所述肯定意图为目标意图;若所述目标基频抖动大于或者等于所述抖动阈值且所述目标音高曲拱点低于或者等于所述肯定音高曲拱点,则确定所述目标语音流的意图为肯定意图。
[0012]本专利技术第二方面提供了一种基于语调的意图识别装置,包括:待识别语音流获取模块,用于获取待识别语音流,所述待识别语音流至少包括音调数据和语气特征词;文本获取模块,用于根据所述待识别语音流获取文本数据;特征词和语音流确定模块,用于基于所述待识别语音流获取多个语音片段时刻戳,获取所述待识别语音流包括的语气词,得到目标语气特征词,并根据所述目标语气特征词和所述多个语音片段时刻戳确定目标语音流;识别模块,用于根据所述目标语音流进行意图识别,得到目标意图。
[0013]可选的,在本专利技术第二方面的第一种实现方式中,所述时刻戳和文本获取模块包括:检测单元,用于对所述待识别语音流进行端点检测,得到多个语音数据片段;文本数据生成单元,用于根据所述多个语音数据片段得到文本数据。
[0014]可选的,在本专利技术第二方面的第二种实现方式中,所述文本数据生成单元具体用于:提取每个语音数据片段对应的声学特征,得到多个声学特征;训练所述多个声学特征,得到语言模型;将所述多个语音数据片段依次输入所述语言模型并结合预置的词典,生成
文本数据。
[0015]可选的,在本专利技术第二方面的第三种实现方式中,所述特征词和语音流确定模块具体用于:将所述多个语音数据片段依次输入预置的语音检测模型,生成与每个语音数据片段对应的语音片段时刻戳,得到多个语音片段时刻戳;对所述文本数据进行筛选,得到筛选后的文本数据;根据正则匹配算法确定与所述筛选后的文本数据对应的目标语气特征词;基于所述目标语气特征词对应的目标语音片段在多个语音片段时刻戳中确定对应的目标语音片段时刻戳;基于目标语音片段时刻戳在待识别语音流中确定目标语音流。
[0016]可选的,在本专利技术第二方面的第四种实现方式中,所述识别模块包括:音高曲线提取单元,用于在所述音调数据中提取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语调的意图识别方法,其特征在于,所述基于语调的意图识别方法包括:获取待识别语音流,所述待识别语音流至少包括音调数据和语气特征词;根据所述待识别语音流获取文本数据;基于所述待识别语音流获取多个语音片段时刻戳,获取所述待识别语音流包括的语气词,得到目标语气特征词,并根据所述目标语气特征词和所述多个语音片段时刻戳确定目标语音流;根据所述目标语音流进行意图识别,得到目标意图。2.根据权利要求1所述的基于语调的意图识别方法,其特征在于,所述根据所述待识别语音流获取文本数据包括:对所述待识别语音流进行端点检测,得到多个语音数据片段,每个语音数据片段中包括一个语气特征词;根据所述多个语音数据片段得到文本数据。3.根据权利要求2所述的基于语调的意图识别方法,其特征在于,所述根据所述多个语音数据片段得到文本数据包括:提取每个语音数据片段对应的声学特征,得到多个声学特征;训练所述多个声学特征,得到语言模型;将所述多个语音数据片段依次输入所述语言模型并结合预置的词典,生成文本数据。4.根据权利要求2所述的基于语调的意图识别方法,其特征在于,所述基于所述待识别语音流获取多个语音片段时刻戳,获取所述待识别语音流包括的语气词,得到目标语气特征词,并根据所述目标语气特征词和所述多个语音片段时刻戳确定目标语音流包括:将所述多个语音数据片段依次输入预置的语音检测模型,生成与每个语音数据片段对应的语音片段时刻戳,得到多个语音片段时刻戳;对所述文本数据进行筛选,得到筛选后的文本数据;根据正则匹配算法确定与所述筛选后的文本数据对应的目标语气特征词;基于所述目标语气特征词对应的目标语音片段在多个语音片段时刻戳中确定对应的目标语音片段时刻戳;基于目标语音片段时刻戳在待识别语音流中确定目标语音流。5.根据权利要求1-4中任意一项所述的基于语调的意图识别方法,其特征在于,所述根据所述目标语音流进行意图识别,得到目标意图包括:在所述音调数据中提取与所述目标语音流对应的音高曲线数据,得到目标音高曲线数据;根据所述目标音高曲线数据进行计算,得到目标音长数据;若所述目标音长数据大于音长阈值,则提取目标语音流的下一段语音流作为音长语音流,根据所述音长语音流或者与所述音长语音流对应的文本数据进行意图识别,得到目标意图;若所述目标音长数据小于或者等于所述音长阈值,则根据所述音高曲线数据计算得到目标音高曲线斜率和目标基频抖动;根据所述目标音高曲线斜率和所述目标基频抖动进行意图识别,得到目标意图。6.根据权利要求5所述的基于语调的意图识别方法,...

【专利技术属性】
技术研发人员:谭风云王少军马骏
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1