结合语音信息的口语理解方法、装置、设备及存储介质制造方法及图纸

技术编号:32247224 阅读:31 留言:0更新日期:2022-02-09 17:50
本发明专利技术涉及人工智能技术,揭露了一种结合语音信息的口语理解方法,包括:利用预设的分词器对口语语音数据对应的文本数据进行字符分词,得到字符序列,利用预设的N个分词器对所述文本数据进行分词,得到N个词语序列,利用投票机制,从所述N个词语序列中选取目标词语序列;利用训练得到的口语理解模型对所述字符序列、目标词语序列及口语语音数据进行编码、融合、并进行分类预测得到意图标签及槽位标签。本发明专利技术还提出一种结合语音信息的口语理解装置、电子设备以及存储介质。本发明专利技术可以提高口语理解的准确率。语理解的准确率。语理解的准确率。

【技术实现步骤摘要】
结合语音信息的口语理解方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种结合语音信息的口语理解方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]人机对话系统需要识别人类语言中的信息,才能执行相应的任务,如给问题做出回答、预定机票、手机中的语音助手等,这个过程也叫做口语理解(Spoken Language Understanding,SLU)。口语理解通常包括用户意图检测和语义槽填充两个任务。
[0003]随着深度学习技术的发展,利用神经网络对自然语言进行识别,已经取得较为不错的效果,但是由于口语具有一定的模糊性和歧义性。目前技术中存在如下三个问题:一、仅使用字符信息来进行口语理解的,这样没有充分把显式的单词序列信息利用起来,如“播放”被拆分成“播”“放”两个字就丢失了一部分语义信息;二、一般采用某一个分词器对句子进行分词,这样可能会出现分词错误,最终导致错误一级一级往后传播;三、仅将口语信息直接解析为文本,对文本进行分析,没有考虑到说话人的停顿与语义之间的关联性。r/>[0004]综本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种结合语音信息的口语理解方法,其特征在于,所述方法包括:获取口语语音数据及所述口语语音数据对应的文本数据;利用预设的分词器对所述文本数据进行字符分词,得到字符序列,利用预设的N个分词器对所述文本数据进行分词,得到N个词语序列,利用投票机制,从所述N个词语序列中选取目标词语序列,其中所述N为大于等于2的自然数;获取训练得到的口语理解模型,其中所述口语理解模型包括编码层、融合层、意图识别任务层及语义槽填充任务层;利用所述编码层对所述字符序列、所述目标词语序列及口语语音数据进行编码,得到字符编码序列、词语编码序列、语音特征向量;利用所述融合层,基于注意力机制,对所述字符编码序列、词语编码序列及语音特征向量进行融合,得到融合向量;利用所述意图识别任务层对所述融合向量进行分类,得到意图标签;利用所述语义槽填充任务层对所述字符编码序列及所述词语编码序列进行预测,得到槽位标签。2.如权利要求1所述的结合语音信息的口语理解方法,其特征在于,所述利用所述编码层对所述字符序列、所述目标词语序列及口语语音数据进行编码,得到字符编码序列、词语编码序列、语音特征向量,包括:利用预设的字符编码器、预设的词语编码器、预设的语音编码器构建编码层;利用所述字符编码器对所述字符序列进行编码,得到字符编码序列;利用所述词语编码器对所述目标词语序列进行编码,得到词语编码序列;利用所述语音编码器对所述口语语音数据进行编码,得到语音特征向量。3.如权利要求2所述的结合语音信息的口语理解方法,其特征在于,所述利用所述词语编码器对所述目标词语序列进行编码,得到词语编码序列,包括:利用预设的自注意力机制模块及预设的双向长短期记忆网络构建所述词语编码器;利用所述自注意力机制模块抽取所述目标词语序列的上下文信息;利用所述双向长短期记忆网络获取所述目标词语序列的顺序信息;对所述上下文信息及所述顺序信息进行全连接处理,得到词语编码序列。4.如权利要求2所述的结合语音信息的口语理解方法,其特征在于, 所述利用所述语音编码器对所述口语语音数据进行编码,得到语音特征向量,包括:在所述语音编码器中,对所述口语语音数据利用高通滤波器进行预加重处理;对所述预加重处理后的口语语音数据进行分帧加窗处理得到,得到加窗语音帧;对所述加窗语音帧进行快速傅立叶变换,得到对应的能量谱;利用三角带通滤波器对所述能量谱,进行频谱平滑及消除谐波,得到优化后的能量谱;计算所述优化后的能量谱的对数能量谱,对所述对数能量谱进行离散余弦变换,得到语音特征参数,并提取所述语音特征参数的一阶、二阶动态差分参数作为语音特征向量。5.如权利要求1至4中任一项所述的结合语音信息的口语理解方法,其特征在于,所述利用所述融合层,基于注意力机制,对所述字符编码序列、词语编码序列及语音特征向量进行融合,得到融合向量,包括:利用注意力模块及神经网络构建所述融合层;
利用所述注意力模块分别提取所述字符编码序列的字符综合表示向量,及所述词语编码序列的词语综合表示向量;利用所述神经网络中预设的融合函数对所述字符综合表示向量、所述词语综...

【专利技术属性】
技术研发人员:黄石磊汪雪蒋志燕程刚廖晨
申请(专利权)人:深圳市北科瑞声科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1