用于语义混淆检测的方法及系统技术方案

技术编号:28210760 阅读:52 留言:0更新日期:2021-04-24 14:46
本发明专利技术公开用于语义混淆检测的方法及系统,其中,该方法包括获取对话平台的全量知识库;对所述全量知识库中两两问句之间进行表层语义分析,识别出第一候选混淆问句对集合;基于所述全量知识库利用句向量模型识别出第二候选混淆问句对集合;融合所述第一候选混淆问句对集合和所述第二候选混淆问句对集合,得到目标候选混淆问句对集合;基于所述目标候选混淆问句对集合更新所述全量知识库。本发明专利技术提供的用于语义混淆检测的系统,采用上述用于语义混淆检测的方法,提高了知识库的质量,还通过构造数据闭环实现了数据迭代,进一步提高了混淆检测的精确度。淆检测的精确度。淆检测的精确度。

【技术实现步骤摘要】
用于语义混淆检测的方法及系统


[0001]本专利技术涉及自然语言处理
,尤其涉及用于语义混淆检测的方法及系统。

技术介绍

[0002]对话平台知识库中每个知识点对应于一个问句的意图类,知识点内可能会存在不属于本知识点的边缘问句,知识点间也可能会存在语义相似的问句对。例如,申请价保服务这一知识点(意图类)下可能有以下相似问句:怎么进行保价/刚买的降价了我需要保价/旧机如何换钱/我昨天买的今天就便宜这么多/买的机器人可以回收吗/等。其中旧机如何换钱/买的机器人可以回收吗,这两个问句不属于申请价保服务这一知识点(意图类)下,则将其称为边缘问句。再例如,问句1:你好,买的多有优惠吗(对应知识点的标准问句:如何批量购买),问句2:买多能便宜吗(对应知识点的标准问句:价格能优惠吗),这两个问句属于不同的知识点(意图类),即问句1和问句2称为混淆问句对。边缘问句和混淆问句对的存在会影响每一个知识点下数据的纯度,进而降低对用户意图的识别准确率。因此,语义混淆检测是提升智能对话平台质量的重要方法,对于对话平台数据闭环的构造也具有重要意义。
[0003]目前语义混淆检测的主要方法,是将所有的混淆类作为一个新类别,进而将语义混淆检测转化成分类问题去解决。然而,这种解决方法有两方面的不足:
[0004]第一,现有方案无法适应智能对话平台知识库的不定期修改,也无法在平台运行的整个周期内打造数据闭环。具体来说,平台配置的训练语料是不确定的,会被定期修改,而语义混淆是相对于具体知识库语料来说的,而这本身存在矛盾,此外,不同对话系统配置的知识库不同,对应的混淆类也是不同的,因此无法给出确切的新类别范围,混淆类别定义则不确定,也就无法构造数据闭环。
[0005]第二,现有方案不能随着知识库意图数据的增多不断迭代优化模型,也不能对平台知识库进行实时/即时的混淆检测。一方面,随着对话平台的数据量不断增加,知识库语料越来越丰富,如何更好利用数据不断优化模型,这也是现有方案的局限性,然而分类问题受限于类别数,也不能充分利用大量语料。另一方面,在语义机器人运行周期中,对话平台知识库是不断变化的,而这种将语义混淆检测转化成分类问题的解决方案在线上实施会受到局限,导致无法拓展,即无法对平台知识库进行实时/即时的混淆检测。

技术实现思路

[0006]本专利技术的目的在于提供用于语义混淆检测的方法及系统,对平台知识库进行语料的提纯,提高了知识库的质量,还通过链接数据层和训练层,构造数据闭环,实现数据迭代,进一步提高了混淆检测的精确度。
[0007]为了实现上述目的,本专利技术提供如下技术方案:
[0008]一种用于语义混淆检测的方法,包括:
[0009]获取对话平台的全量知识库;
[0010]对所述全量知识库中两两问句之间进行表层语义分析,识别出第一候选混淆问句
对集合;
[0011]基于所述全量知识库利用句向量模型识别出第二候选混淆问句对集合;
[0012]融合所述第一候选混淆问句对集合和所述第二候选混淆问句对集合,得到目标候选混淆问句对集合;
[0013]基于所述目标候选混淆问句对集合更新所述全量知识库。
[0014]优选地,对所述全量知识库中两两问句之间进行表层语义分析,识别出第一候选混淆问句对集合的方法包括:
[0015]利用多种表层语义分析方法基于对应的表层语义特征,计算所述全量知识库中两两问句之间的语义相似度,基于所述语义相似度得到与表层语义分析方法一一对应的多个表层语义混淆问句对集合;
[0016]将表层语义混淆问句对集合中属于同一知识点的问句对剔除;
[0017]利用投票机制,从所有表层语义混淆问句对集合中筛选出第一候选混淆问句对集合。
[0018]较好地,所述表层语义分析方法包括jaccard相似度算法、词向量模型法、TF

IDF方法中的一种或多种。
[0019]优选地,基于所述全量知识库利用句向量模型识别出第二候选混淆问句对集合的方法包括:
[0020]利用句向量模型对所有问句进行编码,构建索引库,同时获取每个问句的语义表征向量;
[0021]利用距离函数基于语义表征向量从所述索引库中查询得到任一被检测问句对应的K个混淆问句,K≥0;
[0022]将所述K个混淆问句中与被检测问句属于不同知识点的混淆问句分别与被检测问句组成混淆问句对,并存入第二候选混淆问句对集合。
[0023]具体地,所述索引库包括FAISS库,所述距离函数包括余弦距离函数。
[0024]优选地,根据用户需求选择取交集的方式或者取并集的方式,融合所述第一候选混淆问句对集合和所述第二候选混淆问句对集合,得到目标候选混淆问句对集合。
[0025]较佳地,用于语义混淆检测的方法还包括对知识点内边缘问句的检测,具体方法包括:
[0026]获取任一知识点的中心值,以及知识点中所有问句到所述中心值的半径;
[0027]将知识点中到所述中心值的距离大于所述半径的所有问句存储到知识点的边缘问句候选集合中;
[0028]计算边缘问句候选集中所有问句的离群因子,并将所述离群因子大于预设阈值的问句存储到知识点的边缘问句集合中;
[0029]基于知识点的边缘问句集合更新所述全量知识库。
[0030]进一步地,所述任一知识点的中心值为任一知识点中每个问句的特征编码的平均值;
[0031]知识点中所有问句到所述中心值的半径为知识点中所有问句到所述中心值的平均距离。
[0032]较好地,基于目标候选混淆问句对集合和/或知识点的边缘问句集合更新所述全
量知识库的方法包括:
[0033]将目标候选混淆问句对集合和/或知识点的边缘问句集合存储到数据库中,并展示到前端页面供用户审核;
[0034]将审核结果判定为知识点分类错误的问句移动到正确的知识点或从所述全量知识库中删除以更新所述全量知识库。
[0035]一种用于语义混淆检测的系统,包括数据获取模块、第一混淆检测模块、第二混淆检测模块、融合模块及数据反馈模块,其中,
[0036]所述数据获取模块用于获取对话平台的全量知识库;
[0037]所述第一混淆检测模块基于所述全量知识库中每一个问句的表层语义特征,识别出第一候选混淆问句对集合;
[0038]所述第二混淆检测模块基于所述全量知识库利用句向量模型识别出第二候选混淆问句对集合;
[0039]所述融合模块用于融合所述第一候选混淆问句对集合和所述第二候选混淆问句对集合,得到目标候选混淆问句对集合;
[0040]所述数据反馈模块基于所述目标候选混淆问句对集合更新所述全量知识库。
[0041]与现有技术相比,本专利技术提供的用于语义混淆检测的方法及系统具有以下有益效果:
[0042]本专利技术提供的用于语义混淆检测的方法,首先利用表层语义分析方法和句向量模型分析方法,分别识别出第一候选混淆问句对集合和第二候选混淆本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于语义混淆检测的方法,其特征在于,包括:获取对话平台的全量知识库;对所述全量知识库中两两问句之间进行表层语义分析,识别出第一候选混淆问句对集合;基于所述全量知识库利用句向量模型识别出第二候选混淆问句对集合;融合所述第一候选混淆问句对集合和所述第二候选混淆问句对集合,得到目标候选混淆问句对集合;基于所述目标候选混淆问句对集合更新所述全量知识库。2.根据权利要求1所述的用于语义混淆检测的方法,其特征在于,对所述全量知识库中两两问句之间进行表层语义分析,识别出第一候选混淆问句对集合的方法包括:利用多种表层语义分析方法基于对应的表层语义特征,计算所述全量知识库中两两问句之间的语义相似度,基于所述语义相似度得到与表层语义分析方法一一对应的多个表层语义混淆问句对集合;将表层语义混淆问句对集合中属于同一知识点的问句对剔除;利用投票机制,从所有表层语义混淆问句对集合中筛选出第一候选混淆问句对集合。3.根据权利要求2所述的用于语义混淆检测的方法,其特征在于,所述表层语义分析方法包括jaccard相似度算法、词向量模型法、TF

IDF方法中的一种或多种。4.根据权利要求1所述的用于语义混淆检测的方法,其特征在于,基于所述全量知识库利用句向量模型识别出第二候选混淆问句对集合的方法包括:利用句向量模型对所有问句进行编码,构建索引库,同时获取每个问句的语义表征向量;利用距离函数基于语义表征向量从所述索引库中查询得到任一被检测问句对应的K个混淆问句,K≥0;将所述K个混淆问句中与被检测问句属于不同知识点的混淆问句分别与被检测问句组成混淆问句对,并存入第二候选混淆问句对集合。5.根据权利要求4所述的用于语义混淆检测的方法,其特征在于,所述索引库包括FAISS库,所述距离函数包括余弦距离函数。6.根据权利要求1所述的用于语义混淆检测的方法,其特征在于,根据用户需求选择取交集的方式或者取并集的...

【专利技术属性】
技术研发人员:汪燕燕陈述沈艺张兵兵钟涛
申请(专利权)人:江苏苏宁云计算有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1