一种标准文档相似度检测方法、装置及系统制造方法及图纸

技术编号:36512760 阅读:20 留言:0更新日期:2023-02-01 15:42
本申请提供一种标准文档相似度检测方法、装置及系统,包括:从标准文档检索系统中确定出具有相似实体的个待比对文档;对多个待比对文档进行两两互组,得到个的比对组;针对每个比对组,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度;若整体相似度不达第一阈值,确定该比对组内两个待比对文档互为非近似文档;若整体相似度达到第一阈值,确定比对组内两个待比对文档互为近似文档,并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度;基于实体相似度是否达到第二阈值,确定互为近似文档的两个待比对文档是否存在冲突。文档是否存在冲突。文档是否存在冲突。

【技术实现步骤摘要】
一种标准文档相似度检测方法、装置及系统


[0001]本申请涉及文档检索
,具体而言,涉及一种标准文档相似度检测方法、装置及系统。

技术介绍

[0002]信息检索是泛指用户从包含各种信息的文档集合中查找所需要的信息或知识的过程。信息检索往往是对自然语言的处理。由于自然语言不同于数据,它没有很好的结构,同时在语义上也存在模糊性,因此检索时对用户需求的分析有一定难度。
[0003]基于此,通过知识图谱构建检索系统的方式逐渐流行起来,通过文档的知识图谱构建检索系统,可以利用结构化的知识快速地查询信息,实现高效的信息检索。由于知识图谱的数据来源的不确定性,不可避免地存在文档冲突(不同文档中对同一知识点具有冲突)。因此,进行相应的文档相似度检测是必要的。

技术实现思路

[0004]本申请实施例的目的在于提供一种标准文档相似度检测方法、装置及系统,以实现对标准文档的相似度检测。
[0005]为了实现上述目的,本申请的实施例通过如下方式实现:第一方面,本申请实施例提供一种标准文档相似度检测方法,包括:从标准文档检索系统中确定出具有相似实体的个待比对文档,其中,标准文档检索系统中的每个文档具有三元组形式构建的知识图谱,三元组形式为:头实体

关系

尾实体,;对多个待比对文档进行两两互组,得到个的比对组;针对每个比对组,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度;若整体相似度不达第一阈值,确定该比对组内两个待比对文档互为非近似文档;若整体相似度达到第一阈值,确定比对组内两个待比对文档互为近似文档,并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度;若实体相似度达到第二阈值,确定互为近似文档的两个待比对文档不存在冲突;若实体相似度未达第二阈值,确定互为近似文档的两个待比对文档存在冲突并进行标记。
[0006]在本申请实施例中,从标准文档检索系统中确定出具有相似实体的个待比对文档(具有三元组形式构建的知识图谱),对多个待比对文档进行两两互组,得到个的比对组;针对每个比对组,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度。这样可以在进行实体的相似度比对之前,先确定整体相似度是否达到第一阈值,从而保证两个文档是相近的,具有应当一致的知识,从而保证对相近知识进行相似度检测的合理性,避免对近似但实际为不同知识的误检。若整体相似度不达第一阈值,确定该比对组内两个待比对文档互为非近似文档,不需要进行实体相似度的比对;若整体相似度达到第一阈值,确定比对组内两个待比对文档互为近似文档,并对互为近似文档的
两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度。这样能够在确定两个待比对文档互为近似文档(实体名称一致时,理应具有相同的知识,即,表现为两个文档中同名的头实体所在的三元组应当不存在相悖的关系或尾实体)时,再去检测二者的实体相似度,进行实体层面的比对,进行有效的标准文档相似度检测。在实体相似度未达第二阈值,确定互为近似文档的两个待比对文档存在冲突并进行标记,以便进行后续的冲突消除处理(例如通过人工判断是否真的存在冲突)。
[0007]结合第一方面,在第一方面的第一种可能的实现方式中,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度,包括:基于该比对组内两个待比对文档的知识图谱,确定出两个待比对文档之间的所有相似实体,共计组相似实体,其中,每组相似实体为同名实体;针对每组相似实体,以该组相似实体中的每个实体为头实体,从其所在知识图谱中确定出不超过层的实体网,并基于该组相似实体中每个实体的实体网,计算该组相似实体的相似度,共计得到个相似度,其中,层的实体网,为层的实体网,为头实体,为第层关系,表示第层尾实体,每相邻两个实体及其关系视为一层实体子网;确定相似度最高的一组相似实体为目标相似实体,确定目标相似实体对应的相似度为所述整体相似度。
[0008]在该实现方式中,通过以一组相似实体中的每个实体为头实体,从其所在知识图谱中确定出不超过层的实体网,并基于该组相似实体中每个实体的实体网,计算该组相似实体的相似度,共计得到个相似度,这样可以以相似实体中的每个实体为中心,检测其知识图谱构成的网络之间的相似度,从而可以有效地确定整体相似度,且此种方式确定的整体相似度,能够非常有效地对需要进行实体相似度检测的相似实体进行筛选,排除掉仅是同名,但实际不是同一种概念的相似实体,节约计算资源,也能够有效降低误检率。
[0009]结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,基于该组相似实体中每个实体的实体网,计算该组相似实体的相似度,包括:针对该组相似实体:对两个实体网中每层实体子网进行相似度比对,确定出每层实体子网的相似度分量;基于每层实体子网的相似度分量,确定出该组相似实体的相似度。
[0010]结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,对两个实体网中每层实体子网进行相似度比对,确定出每层实体子网的相似度分量,包括:针对两个实体网中第层实体子网:将第一实体网中第层实体子网的每组关联向量与第二实体网中第层实体子网的每组关联向量进行对应匹配,确定出关联向量匹配结果,其中,一组关联向量由一个关系向量及其对应的尾实体向量组成;基于每组关联向量匹配结果,按照以下公式计算第层实体子网的相似度分量:,,
其中表示同一比对组内两个待比对文档的第组相似实体的第层实体子网中第组关联向量匹配结果,、、、、分别为对应分值,、、、、分别为对应、、、、的权重,、、、、分别为对应、、、、的数量,表示同一比对组内两个待比对文档的第组相似实体的第层实体子网的相似度分量。
[0011]在该实现方式中,通过此种方式可以将第一实体网中第层实体子网的每组关联向量与第二实体网中第层实体子网的每组关联向量进行对应匹配,确定出关联向量匹配结果,并基于关联向量匹配结果进行对应的相似度计算,最终得到第组相似实体的第层实体子网的相似度分量,且此相似度分量在计算时,排除了赘余关联向量的影响,能够更加准确地反映第层实体子网的相似度分量。
[0012]结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,基于每层实体子网的相似度分量,确定出该组相似实体的相似度,包括:基于每层实体子网的相似度分量,按照以下公式计算该组相似实体的相似度:,其中,表示同一比对组内两个待比对文档的第组相似实体的相似度,表示第层实体子网的相似度分量对应的权重,表示调节参数,表示第层实体子网到第层实体子网中具备同名实体的实体子网的层数。
[0013]在该实现方式中,在计算一组相似实体的相似度时,以该组相似实体的每层实体子网的相似度分量为基础,考虑第层实体子网之后(即第层实体子网到第层实体子网)中具备同名实体的实体子网的情况,后续层次的实体子网具备同名实体揭示了其具有较多匹配层级的事实,可以利用调节参数来调节权重(调节参数大于1),由本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标准文档相似度检测方法,其特征在于,包括:从标准文档检索系统中确定出具有相似实体的个待比对文档,其中,标准文档检索系统中的每个文档具有三元组形式构建的知识图谱,三元组形式为:头实体

关系

尾实体,;对多个待比对文档进行两两互组,得到个的比对组;针对每个比对组,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度;若整体相似度不达第一阈值,确定该比对组内两个待比对文档互为非近似文档;若整体相似度达到第一阈值,确定比对组内两个待比对文档互为近似文档,并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对,确定出实体相似度;若实体相似度达到第二阈值,确定互为近似文档的两个待比对文档不存在冲突;若实体相似度未达第二阈值,确定互为近似文档的两个待比对文档存在冲突并进行标记。2.根据权利要求1所述的标准文档相似度检测方法,其特征在于,基于该比对组内两个待比对文档的知识图谱,进行整体相似度比对,确定出整体相似度,包括:基于该比对组内两个待比对文档的知识图谱,确定出两个待比对文档之间的所有相似实体,共计组相似实体,其中,每组相似实体为同名实体;针对每组相似实体,以该组相似实体中的每个实体为头实体,从其所在知识图谱中确定出不超过层的实体网,并基于该组相似实体中每个实体的实体网,计算该组相似实体的相似度,共计得到个相似度,其中,层的实体网,为层的实体网,为头实体,为第层关系,表示第层尾实体,每相邻两个实体及其关系视为一层实体子网;确定相似度最高的一组相似实体为目标相似实体,确定目标相似实体对应的相似度为所述整体相似度。3.根据权利要求2所述的标准文档相似度检测方法,其特征在于,基于该组相似实体中每个实体的实体网,计算该组相似实体的相似度,包括:针对该组相似实体:对两个实体网中每层实体子网进行相似度比对,确定出每层实体子网的相似度分量;基于每层实体子网的相似度分量,确定出该组相似实体的相似度。4.根据权利要求3所述的标准文档相似度检测方法,其特征在于,对两个实体网中每层实体子网进行相似度比对,确定出每层实体子网的相似度分量,包括:针对两个实体网中第层实体子网:将第一实体网中第层实体子网的每组关联向量与第二实体网中第层实体子网的每组关联向量进行对应匹配,确定出关联向量匹配结果,其中,一组关联向量由一个关系向量及其对应的尾实体向量组成;基于每组关联向量匹配结果,按照以下公式计算第层实体子网的相似度分量:
,,其中,表示同一比对组内两个待比对文档的第组相似实体的第层实体子网中第组关联向量匹配结果,、、、、分别为对应分值,、、、、分别为对应、、、、的权重,、、、、分别为对应、、、、的数量,表示同一比对组内两个待比对文档的第组相似实体的第层实体子网的相似度分量。5.根据权利要求4所述的标准文档相似度检测方法,其特征在于,基于每层实体子网的相似度分量,确定出该组相似实体的相似度,包括:基于每层实体子网的相似度分量,按照以...

【专利技术属性】
技术研发人员:周育忠林正平涂亮
申请(专利权)人:南方电网科学研究院有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1