一种标准文档相似度检测方法、装置及系统制造方法及图纸

技术编号：36512760 阅读：20 留言：0更新日期：2023-02-01 15:42

本申请提供一种标准文档相似度检测方法、装置及系统，包括：从标准文档检索系统中确定出具有相似实体的个待比对文档；对多个待比对文档进行两两互组，得到个的比对组；针对每个比对组，基于该比对组内两个待比对文档的知识图谱，进行整体相似度比对，确定出整体相似度；若整体相似度不达第一阈值，确定该比对组内两个待比对文档互为非近似文档；若整体相似度达到第一阈值，确定比对组内两个待比对文档互为近似文档，并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对，确定出实体相似度；基于实体相似度是否达到第二阈值，确定互为近似文档的两个待比对文档是否存在冲突。文档是否存在冲突。文档是否存在冲突。

全部详细技术资料下载

【技术实现步骤摘要】
一种标准文档相似度检测方法、装置及系统

[0001]本申请涉及文档检索
，具体而言，涉及一种标准文档相似度检测方法、装置及系统。

技术介绍

[0002]信息检索是泛指用户从包含各种信息的文档集合中查找所需要的信息或知识的过程。信息检索往往是对自然语言的处理。由于自然语言不同于数据，它没有很好的结构，同时在语义上也存在模糊性，因此检索时对用户需求的分析有一定难度。
[0003]基于此，通过知识图谱构建检索系统的方式逐渐流行起来，通过文档的知识图谱构建检索系统，可以利用结构化的知识快速地查询信息，实现高效的信息检索。由于知识图谱的数据来源的不确定性，不可避免地存在文档冲突（不同文档中对同一知识点具有冲突）。因此，进行相应的文档相似度检测是必要的。

技术实现思路

[0004]本申请实施例的目的在于提供一种标准文档相似度检测方法、装置及系统，以实现对标准文档的相似度检测。
[0005]为了实现上述目的，本申请的实施例通过如下方式实现：第一方面，本申请实施例提供一种标准文档相似度检测方法，包括：从标准文档检索系统中确定出具有相似实体的个待比对文档，其中，标准文档检索系统中的每个文档具有三元组形式构建的知识图谱，三元组形式为：头实体
‑
关系
‑
尾实体，；对多个待比对文档进行两两互组，得到个的比对组；针对每个比对组，基于该比对组内两个待比对文档的知识图谱，进行整体相似度比对，确定出整体相似度；若整体相似度不达第一阈值，确定该比对组内两个待比对文档互为非近似文...

【技术保护点】

【技术特征摘要】
1.一种标准文档相似度检测方法，其特征在于，包括：从标准文档检索系统中确定出具有相似实体的个待比对文档，其中，标准文档检索系统中的每个文档具有三元组形式构建的知识图谱，三元组形式为：头实体
‑
关系
‑
尾实体，；对多个待比对文档进行两两互组，得到个的比对组；针对每个比对组，基于该比对组内两个待比对文档的知识图谱，进行整体相似度比对，确定出整体相似度；若整体相似度不达第一阈值，确定该比对组内两个待比对文档互为非近似文档；若整体相似度达到第一阈值，确定比对组内两个待比对文档互为近似文档，并对互为近似文档的两个待比对文档中每一组相似实体进行相似度比对，确定出实体相似度；若实体相似度达到第二阈值，确定互为近似文档的两个待比对文档不存在冲突；若实体相似度未达第二阈值，确定互为近似文档的两个待比对文档存在冲突并进行标记。2.根据权利要求1所述的标准文档相似度检测方法，其特征在于，基于该比对组内两个待比对文档的知识图谱，进行整体相似度比对，确定出整体相似度，包括：基于该比对组内两个待比对文档的知识图谱，确定出两个待比对文档之间的所有相似实体，共计组相似实体，其中，每组相似实体为同名实体；针对每组相似实体，以该组相似实体中的每个实体为头实体，从其所在知识图谱中确定出不超过层的实体网，并基于该组相似实体中每个实体的实体网，计算该组相似实体的相似度，共计得到个相似度，其中，层的实体网，为层的实体网，为头实体，为第层关系，表示第层尾实体，每相邻两个实体及其关系视为一层实体子网；确定相似度最高的一组相似实体为目标相似实体，确定目标相似实体对应的相似度为所述整体相似度。3.根据权利要求2所述的标准文档相似度检测方法，其特征在于，基于该组相似实体中每个实体的实体网，计算该组相似实体的相似度，包括：针对该组相似实体：对两个实体网中每层实体子网进行相似度比对，确定出每层实体子网的相似度分量；基于每层实体子网的相似度分量，确定出该组相似实体的相似度。4.根据权利要求3所述的标准文档相似度检测方法，其特征在于，对两个实体网中每层实体子网进行相似度比对，确定出每层实体子网的相似度分量，包括：针对两个实体网中第层实体子网：将第一实体网中第层实体子网的每组关联向量与第二实体网中第层实体子网的每组关联向量进行对应匹配，确定出关联向量匹配结果，其中，一组关联向量由一个关系向量及其对应的尾实体向量组成；基于每组关联向量匹配结果，按照以下公式计算第层实体子网的相似度分量：
，，其中，表示同一比对组内两个待比对文档的第组相似实体的第层实体子网中第组关联向量匹配结果，、、、、分别为对应分值，、、、、分别为对应、、、、的权重，、、、、分别为对应、、、、的数量，表示同一比对组内两个待比对文档的第组相似实体的第层实体子网的相似度分量。5.根据权利要求4所述的标准文档相似度检测方法，其特征在于，基于每层实体子网的相似度分量，确定出该组相似实体的相似度，包括：基于每层实体子网的相似度分量，按照以...

【专利技术属性】
技术研发人员：周育忠，林正平，涂亮，
申请(专利权)人：南方电网科学研究院有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人