基于人机交互的语音信息处理方法、装置、设备及介质制造方法及图纸

技术编号：23402017 阅读：37 留言：0更新日期：2020-02-22 14:05

本发明专利技术提供一种基于人机交互的语音信息处理方法、装置、设备及介质，该方法包括：获取输入的基于自然语言的语音信息；预处理所述语音信息，并提取所述语音信息对应的关联特征，关联特征包括以下至少一维：命名实体、领域和意图；将关联特征内提取的命名实体、领域和意图中的一维或几维按槽位信息进行特征融合；根据融合后的特征确定相应的策略响应。本发明专利技术通过提取关联特征中的命名实体、领域和意图中的一维或几维，将特征按槽位信息进行融合后进行响应；一方面，能够灵活的匹配到用户需求；另一方面，经微调能够迅速的迁移到其他场景，提高了其应用能力。另外，显著减少会话的轮数，无需多轮会话即可得到更准确的响应，提高了用户的会话体验。

Speech information processing methods, devices, equipment and media based on human-computer interaction

全部详细技术资料下载

【技术实现步骤摘要】
基于人机交互的语音信息处理方法、装置、设备及介质
本专利技术涉及人工智能
，特别是涉及一种基于人机交互的语音信息处理方法、装置、设备及介质。
技术介绍
人机交互是人工智能领域的一个子方向，通俗的讲就是让人可以通过人类的语言(即自然语言)与计算机例如人机会话系统进行交互。通过人与人机会话系统的交互，能够使人机交互系统理解人的意图和需求，从而完成歌曲搜索、购物下单，设备的控制等任务。然而，现有的人机交互系统是基于规则匹配，实现复杂，不够灵活，机器无法较好的理解到用户的意图，同时，基于端对端的深度学习模型不利于控制交互流程。
技术实现思路
鉴于以上所述现有技术的缺点，本专利技术的目的在于提供基于人机交互的语音信息处理方法、装置、设备及介质，用于解决现有人机语音交互过程中，无法简单灵活地实现语音交互的问题。为实现上述目的及其他相关目的，本专利技术提供一种基于人机交互的语音信息处理方法，包括：获取输入的基于自然语言的语音信息；预处理所述语音信息，并提取所述语音信息对应的关联特征...

【技术保护点】
1.一种基于人机交互的语音信息处理方法，其特征在于，包括：/n获取输入的基于自然语言的语音信息；/n预处理所述语音信息，并提取与所述语音信息对应的关联特征，所述关联特征包括以下至少一维：命名实体、领域和意图；/n将所述关联特征内提取的命名实体、领域和意图中的一维或几维按槽位信息进行特征融合；/n根据融合后的特征确定对应的响应策略。/n

【技术特征摘要】
1.一种基于人机交互的语音信息处理方法，其特征在于，包括：
获取输入的基于自然语言的语音信息；
预处理所述语音信息，并提取与所述语音信息对应的关联特征，所述关联特征包括以下至少一维：命名实体、领域和意图；
将所述关联特征内提取的命名实体、领域和意图中的一维或几维按槽位信息进行特征融合；
根据融合后的特征确定对应的响应策略。

2.根据权利要求1所述的基于人机交互的语音信息处理方法，其特征在于，所述获取输入的基于自然语言的语音信息的步骤之前，还包括：
初始化全局信息，所述全局信息包括全局槽位信息的个人信息、对话历史记录和当前对话状态。

3.根据权利要求1所述的基于人机交互的语音信息处理方法，其特征在于，所述预处理所述语音信息的步骤，包括：归一化处理所述语音信息内的语料。

4.根据权利要求2所述的基于人机交互的语音信息处理方法，其特征在于，还包括：根据提取的关联特征更新所述全局信息，所述全局信息包括全局槽位信息的个人信息、对话历史记录和当前对话状态。

5.根据权利要求1所述的基于人机交互的语音信息处理方法，其特征在于，利用预先训练好的命名实体模型识别所述语音信息，得到相应的命名实体。

6.根据权利要求5所述的基于人机交互的语音信息处理方法，其特征在于，所述利用预先训练好的命名实体模型识别所述语音信息，得到相应的命名实体步骤，包括：
将与所述语音信息对应的原始输入序列生成以嵌入向量表达的输入序列；
构建生成输入序列的特征的命名实体特征生成模型；
构建生成预测的命名实体序列的命名实体判别模型。

7.根据权利要求6所述的基于人机交互的语音信息处理方法，其特征在于，所述将与所述语音信息对应的原始输入序列生成以嵌入向量表达的输入序列的步骤，包括：
将原始输入序列切分为字、词或多个语法单位；
根据时间序列采用单或多种粒度组合输入序列；
基于语义嵌入、字形嵌入或字音嵌入中任一维或几维提取所述输入序列每个单位；
融合多种嵌入类型，生成所述输入序列的嵌入向量。

8.根据权利要求7所述的基于人机交互的语音信息处理方法，其特征在于，采用深度卷积神经网络提取输入序列每个的单位的字形嵌入。

9.根据权利要求7所述的基于人机交互的语音信息处理方法，其特征在于，采用循环神经网络、长短期记忆网络或递归神经网络中任一方式提取输入序列每个的单位的字音嵌入。

10.根据权利要求6所述的基于人机交互的语音信息处理方法，其特征在于，所述命名实体特征生成模型采用双向长短记忆网络或Transformer模型进行训练。

11.根据权利要求6所述的基于人机交互的语音信息处理方法，其特征在于，以条件随机场算法模型为基础，利用最大似然估计算法进行训练，生成预测的命名实体序列的命名实体判别模型。

12.根据权利要求1所述的基于人机交互的语音信息处理方法，其特征在于，还包括：利用预先训练好的意图识别模型识别所述语音信息，得到相应的意图。

13.根据权利要求12所述的基于人机交互的语音信息处理方法，其特征在于，所述利用预先训练好的意图识别模型识别所述语音信息，得到相应的意图的步骤，包括：
利用无监督语音信息进行预训练得到语言模型中的编码器；
利用预设场景下的监督语音信息，结合所述编码器与意图识别分类器得到预设场景的意图识别模型；
将所述语音信息输入所述意图识别模型，识别得到相应的意图。

14.根据权利要求13所述的基于人机交互的语音信息处理方法，其特征在于，所述语言模型包括编码器与解码器，将所述语音信息的原始输入序列通过嵌入处理得到向量化表达的输入序列；所述编码器对所述输入序列进行编码；所述解码器对编码后的输入序列进行解码得到输出序列。

15.根据权利要求13所述的基于人机交互的语音信息处理方法，其特征在于，所述编码器对所述输入序列进行编码的步骤，包括：获取所述输入序列中每个单位的编码，其中，所述输入序列的粒度为字、词、多个语法单位或其组合；检测到所述输入序列包含不止一种粒度时，将不同粒度的编码按时序融合得到所述输入序列的编码。

16.根据权利要求15所述的基于人机交互的语音信息处理方法，其特征在于，当检测到所述输入序列涉及上下文时，将所述输入序列的编码按上下文进行融合，得到包含上下文的输入序列的编码。

17.根据权利要求13或14所述的基于人机交互的语音信息处理方法，其特征在于，所述编码器采用循环神经网络、注意力机制、长短期记忆网络或递归神经网络中一种或几种方式进行融合。

18.根据权利要求13所述的基于人机交互的语音信息处理方法，其特征在于，所述语言模型采用交叉熵训练准则。

19.根据权利要求13所述的基于人机交互的语音信息处理方法，其特征在于，所述意图识别分类器为全连接层。

20.根据权利要求1所述的基于人机交互的语音信息处理方法，其特征在于，所述将所述关联特征内提取的命名实体、领域和意图中的一种或几种按槽位信息进行特征融合的步骤之前，还包括：
检测所述关联特征内是否获取到领域；
当未获取到该领域时，则引导用户再次语音交互；
当获取到该领域时，则判断是否首次进入该领域，如果是首次进入该领域，则设置该领域信息；如果不是首次进入该领域，则根据提取的领域特征更新领域信息与全局信息。

21.根据权利要求1或20所述的基于人机交互的语音信息处理方法，其特征在于，根据提取的所述命名实体与意图获取所述关联特征中的领域特征。

22.根据权利要求1所述的基于人机交互的语音信息处理方法，其特征在于，将所述关联特征内提取的命名实体、领域和意图中的一维或几维按槽位信息进行特征融合的步骤，包括：
将提取的命名实体、领域和意图中的一维或几维特征，按照所述槽位信息填到对应的命名实体槽位、领域槽位和意图槽位，依据同类槽值合并实现特征融合。

23.一种基于人机交互的语音信息处理装置，其特征在于，包括：
对话获取模块，用于获取输入的基于自然语言的语音信息；
特征提取模块，用于预处理所述语音信息，并提取所述对话对应的关联特征，所述关联特征包括以下至少一维：命名实体、领域和意图；
特征融合...

【专利技术属性】
技术研发人员：姚志强，周曦，李继伟，杜晓薇，郝东，赵云，
申请(专利权)人：广州洪荒智能科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人