一种问答系统中基于语义的快速知识命中方法及装置制造方法及图纸

技术编号:31081044 阅读:54 留言:0更新日期:2021-12-01 11:57
本申请公开了一种问答系统中基于语义的快速知识命中方法及装置,所述方法包括如下步骤:准备用于模型训练的语料,包括用户问句及对应知识库中的知识,并标注用户问句与知识是否匹配;基于Bert模型按二分类任务使用标注后的语料进行模型训练,训练完成后将模型输出设置为Bert模型的pooled_output层输出,并保存为语义模型;知识库向量表示,其包含的语义向量的集合为语义向量空间;采用随机森林对语义向量空间进行语义分割,同一语义向量空间生成N棵二叉树;将用户问句转换为语义向量,进行知识命中计算。本申请引入深度学习模型来提升知识命中的效果,并优化匹配的算法提升知识命中的速度,使智能客服能支撑庞大的知识库。使智能客服能支撑庞大的知识库。使智能客服能支撑庞大的知识库。

【技术实现步骤摘要】
一种问答系统中基于语义的快速知识命中方法及装置


[0001]本专利技术涉及数据识别处理
,尤其涉及一种问答系统中基于语义的快速知识命中方法及装置。

技术介绍

[0002]近年来,智能客服已经成功运用于各行各业咨询服务业务中,为企业以及用户提供了快捷方便的解决路径。智能客服是指通过机器来自动识别用户的问题并给予相应的解决方案,在具体实现中,通过智能客服来回复用户的问题,可以提高用户问题的响应速度,节约了人力成本。
[0003]随着应用领域业务的发展壮大,智能客服问答系统应用的业务场景繁多且复杂,其相对应的知识库也越来越大,传统的检索与匹配算法在性能或效果方面越来越不能满足要求,导致知识命中率差,用户体验较差。

技术实现思路

[0004]本专利技术的目的在于提供一种问答系统中基于语义的快速知识命中方法及装置,以解决上述技术背景中提出的问题。
[0005]为实现上述目的,本专利技术采用以下技术方案:
[0006]本申请第一个方面提供了一种问答系统中基于语义的快速知识命中方法,包括:
[0007]S1,准备用于模型训练的语料,包括用户问句及对应知识库中的知识,并标注用户问句与知识是否匹配;
[0008]S2,基于Bert模型按二分类任务使用标注后的语料进行模型训练,训练完成后将模型输出设置为Bert模型的pooled_output层输出,并保存为语义模型;
[0009]S3,将文本表示的知识库转换为语义向量表示的知识库,即向量知识库,其包含的语义向量的集合为语义向量空间;
[0010]S4,采用随机森林对所述语义向量空间进行语义分割,同一语义向量空间生成N棵二叉树,N为大于等于1的自然数;其中,每棵二叉树都对应随机分割的语义向量表示的知识库,每棵二叉树的叶子节点代表一个不超过K个知识的语义向量,K为大于等于1且小于等于总向量数/N的自然数;
[0011]S5,将用户问句转换为其对应的语义向量,即用户问句语义向量,使用用户问句语义向量在N棵二叉树上进行遍历,查找到N个最邻近的叶子节点,将N个最邻近的叶子节点所包含的语义向量进行归集并去重,得到M个语义向量;
[0012]S6,计算M个语义向量与用户问句语义向量之间的相似度,选取相似度最高的语义向量确定为命中的知识。
[0013]具体地,上述步骤S4中,N为性能和精度的一个平衡值,需要根据实际效果逐步调整。
[0014]优选地,所述步骤S1包括如下步骤:
[0015]S11:收集用户问句及对应知识库中的知识,用户问句包含正向的和负向的,正向的表示和知识相匹配的问句,负向的表示和知识不匹配的问句,其中,和知识不匹配的问句中包括字面相似但语义不匹配的问句;
[0016]S12:标注用户问句与知识是否匹配,标注的格式为:用户问句+知识+标签,其中,标签为匹配或不匹配。
[0017]优选地,所述步骤S3包括如下步骤:
[0018]S31:将知识库中每条知识使用Bert模型的vocab字典将文本信息转换成数字信息;
[0019]S32:将数字信息输入所述语义模型中进行推理,并输出知识的语义表示向量;
[0020]S33:待所有知识推理完成后,文本表示的知识库就转换成了语义向量表示的知识库。
[0021]优选地,所述步骤S4包括如下步骤:
[0022]S41:随机选择向量知识库中的一个语义向量V,计算所有向量知识库中的语义向量与随机选择的语义向量V之间的余弦相似度;
[0023]S42:将余弦相似度在(0,1]范围内的语义向量划分至第一子空间,将余弦相似度在[

1,0]范围内的语义向量划分至第二子空间;
[0024]S43:以语义向量V为根节点,以第一子空间为左子树,第二子空间为右子树,语义向量V和第一子空间、第二子空间构成一个二叉树;
[0025]S44:对二叉树所有节点上的子空间重复步骤S41~S43,直到所有子空间的里的语义向量的个数都小于等于K;
[0026]S45:重复N次上述步骤,将向量知识库的语义向量空间投影成N棵二叉树。
[0027]优选地,所述步骤S5中,N个最邻近的叶子节点所包含的语义向量的个数小于等于N*K个。
[0028]优选地,所述步骤S5包括如下步骤:
[0029]S51:将用户问句使用Bert模型的vocab字典将文本信息转换成数字信息;
[0030]S52:将用户问句的数字信息输入所述语义模型中进行推理,并输出用户问句对应的语义向量,即用户问句语义向量;
[0031]S53:选取N棵二叉树中的任意一棵;
[0032]S54:计算用户问句语义向量与二叉树节点的余弦相似度,余弦相似度在(0,1]范围内则取左子树节点,否则取右子树节点;
[0033]S55:重复步骤S54,搜索这棵二叉树,直至找到该二叉树的叶子节点,即最邻近的叶子节点;
[0034]S56:重复步骤S53~S55,找出所有二叉树中的N个最邻近的叶子节点;
[0035]S57:将找出的N个最邻近的叶子节点的所有语义向量进行去重处理,得到M个语义向量,其中,N个叶子节点的所有语义向量的个数为小于等于N*K。
[0036]优选地,所述步骤S6包括如下步骤:
[0037]S61:计算M个语义向量与用户问句向量之间的余弦相似度;
[0038]S62:按余弦相似度的降序对M个语义向量进行排序,并返回相似度最高的语义向量D;
[0039]S63:将语义向量D的相似度值与预设距离阈值T进行比较,当D>T时,则表示命中知识。
[0040]本申请第二个方面提供了一种问答系统中基于语义的快速知识命中装置,包括:
[0041]语料标注准备模块,用于准备模型训练的语料,包括用户问句及对应知识库中的知识,并标注用户问句与知识是否匹配;
[0042]语义模型微调模块,用于基于Bert模型按二分类任务使用标注后的语料进行模型训练,训练完成后将模型输出设置为Bert模型的pooled_output层输出,并保存为语义模型;
[0043]知识库向量表示模块,用于将文本表示的知识库转换为语义向量表示的知识库,即向量知识库,其包含的语义向量的集合为语义向量空间;
[0044]二叉树生成模块,用于采用随机森林对所述语义向量空间进行语义分割,同一语义向量空间生成N棵二叉树,N为大于等于1的自然数;其中,每棵二叉树都对应随机分割的语义向量表示的知识库,每棵二叉树的叶子节点代表一个不超过K个知识的语义向量,K为大于等于1且小于等于总向量数/N的自然数;
[0045]用户问句查找模块,用于将用户问句转换为其对应的语义向量,即用户问句语义向量,使用用户问句语义向量在N棵二叉树上进行遍历,查找到N个最邻近的叶子节点,将N个最邻近的叶子节点所包含的语义向量进行归集并去重,得到M个语义向量;
[0046]知本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种问答系统中基于语义的快速知识命中方法,其特征在于,包括:S1,准备用于模型训练的语料,包括用户问句及对应知识库中的知识,并标注用户问句与知识是否匹配;S2,基于Bert模型按二分类任务使用标注后的语料进行模型训练,训练完成后将模型输出设置为Bert模型的pooled_output层输出,并保存为语义模型;S3,将文本表示的知识库转换为语义向量表示的知识库,即向量知识库,其包含的语义向量的集合为语义向量空间;S4,采用随机森林对所述语义向量空间进行语义分割,同一语义向量空间生成N棵二叉树,N为大于等于1的自然数;其中,每棵二叉树都对应随机分割的语义向量表示的知识库,每棵二叉树的叶子节点代表一个不超过K个知识的语义向量,K为大于等于1且小于等于总向量数/N的自然数;S5,将用户问句转换为其对应的语义向量,即用户问句语义向量,使用用户问句语义向量在N棵二叉树上进行遍历,查找到N个最邻近的叶子节点,将N个最邻近的叶子节点所包含的语义向量进行归集并去重,得到M个语义向量;S6,计算M个语义向量与用户问句语义向量之间的相似度,选取相似度最高的语义向量确定为命中的知识。2.根据权利要求1所述的一种问答系统中基于语义的快速知识命中方法,其特征在于,所述步骤S1包括如下步骤:S11:收集用户问句及对应知识库中的知识,用户问句包含正向的和负向的,正向的表示和知识相匹配的问句,负向的表示和知识不匹配的问句,其中,和知识不匹配的问句中包括字面相似但语义不匹配的问句;S12:标注用户问句与知识是否匹配,标注的格式为:用户问句+知识+标签,其中,标签为匹配或不匹配。3.根据权利要求1所述的一种问答系统中基于语义的快速知识命中方法,其特征在于,所述步骤S3包括如下步骤:S31:将知识库中每条知识使用Bert模型的vocab字典将文本信息转换成数字信息;S32:将数字信息输入所述语义模型中进行推理,并输出知识的语义表示向量;S33:待所有知识推理完成后,文本表示的知识库就转换成了语义向量表示的知识库。4.根据权利要求1所述的一种问答系统中基于语义的快速知识命中方法,其特征在于,所述步骤S4包括如下步骤:S41:随机选择向量知识库中的一个语义向量V,计算所有向量知识库中的语义向量与随机选择的语义向量V之间的余弦相似度;S42:将余弦相似度在(0,1]范围内的语义向量划分至第一子空间,将余弦相似度在[

1,0]范围内的语义向量划分至第二子空间;S43:以语义向量V为根节点,以第一子空间为左子树,第二子空间为右子树,语义向量V和第一子空间、第二子空间构成一个二叉树;S44:对二叉树所有节点上的子空间重复步骤S41~S43,直到所有子空间的里的语义向量的个数都小于等于K;S45:重复N次上述步骤,将向量知识库的语义向量空间投影成N棵二叉树。
5.根据权利要求1所述的一种问答系统中基于语义的快速知识命中方法,其特征在于,所述步骤S5包括如下步骤:S51:将用户问句使用Bert模型的vocab字典将文本信息转换成数字信息;S52:将用户问句的数字信息输入所述语义模型中进行推理,并输出用户问句对应的语义向量,即用户问句语义向量;S53:选取N棵二叉树中的任意一棵;S54:计算用户问句语义向量与二叉树节点的余弦相似度,余弦相似度在(0,1]范围内则取左子树节点,否则取右子树节点;S55:重复步骤S54,搜索这棵二叉树,直至找到该二叉树的叶子节点,即最邻近的叶子节点;S56:重复步...

【专利技术属性】
技术研发人员:郭大勇张海龙兰永
申请(专利权)人:上海通办信息服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1