基于知识图谱的军工科研生产数据相似性判别方法及系统技术方案

技术编号:31917177 阅读:25 留言:0更新日期:2022-01-15 12:59
本发明专利技术实施例提供一种基于知识图谱的军工科研生产数据相似性判别方法及系统,包括构建本体体系,包括构建产生军工科研生产数据的本体以及本体之间的第一关联关系,其中,本体包括多种元素;构建知识图谱,包括基于本体体系,从原始文件中提取实体以及每个原始文件中所包含实体之间的第二关联关系,并在进行实体对齐和关联关系推理后,生成原始文件对应的知识图谱,其中,实体为本体的多种元素中的至少一种;构建知识子图,包括基于知识图谱,抽取获得待判别文件中每个待判别文件的实体的数量信息和第二关联关系的数量信息,确定每个待判别文件的知识子图;基于每个待判别文件的知识子图,判别待判别文件的相似性。判别待判别文件的相似性。判别待判别文件的相似性。

【技术实现步骤摘要】
基于知识图谱的军工科研生产数据相似性判别方法及系统


[0001]本专利技术涉及数据处理领域,特别涉及一种基于知识图谱的军工科研生产数据相似性判别方法及系统。

技术介绍

[0002]在长期的军工科研生产过程中积累了大量的数据文件,在开展数据处理与统计分析等相关工作时,面临着数据文件重复的问题,即,多个文件描述角度不同、分析层次不同、制作单位不同,但本质上描述的内容是相同的。这种情况在开展数据处理时,需要进行归并整合,进行统计分析时应按照一项而不是多项进行统计。
[0003]当前相似文件判重问题主要采用人工的方式进行,由有经验的资深专家判断多份文件本质内容是否相同。这种方法耗时费力且能处理的数据量有限,难以满足数字化智能化发展浪潮下大规模非结构化数据快速处理的需求。
[0004]从技术角度,一般采用文字重复率计算、IT

IDF关键词计算、文本向量余弦相似度计算等方法。文字重复率计算方法是指单纯统计多个数据文件之间重复文字占总文字的比例,比例越高则相似性越强;TF

IDF关键词计算方法是以词语作本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的军工科研生产数据相似性判别方法,其特征在于,包括:构建本体体系,包括构建产生军工科研生产数据的本体以及本体之间的第一关联关系,其中,所述本体包括多种元素;构建知识图谱,包括基于所述本体体系,从原始文件中提取实体以及每个原始文件中所包含实体之间的第二关联关系,并在进行实体对齐和关联关系推理后,生成所述原始文件对应的知识图谱,其中,所述实体为所述本体的多种元素中的至少一种;构建知识子图,包括基于所述知识图谱,抽取获得待判别文件中每个待判别文件的实体的数量信息和第二关联关系的数量信息,确定所述每个待判别文件的知识子图;基于所述每个待判别文件的知识子图,判别所述待判别文件的相似性。2.根据权利要求1所述的基于知识图谱的军工科研生产数据相似性判别方法,其特征在于,所述本体包括机构、装备、人员、任务、时间和地点中的至少一种;所述第一关联关系为所述本体中多个元素中任意两个元素所构成的关联关系,或同一元素所对应的不同实体之间的关联关系。3.根据权利要求2所述的基于知识图谱的军工科研生产数据相似性判别方法,其特征在于,还包括:基于预设间隔时长,对用以构建所述本体体系的本体以及本体之间的第一关联关系进行更新。4.根据权利要求3所述的基于知识图谱的军工科研生产数据相似性判别方法,其特征在于,每个所述第二关联关系均包括两个实体。5.根据权利要求4所述的基于知识图谱的军工科研生产数据相似性判别方法,其特征在于,若所述待判别文件分别为待判别文件a和待判别文件b,则所述判别所述待判别文件的相似性的公式如下:其中,S
ab
分别表示待判别文件a的知识子图a与待判别文件b的知识子图b的相似性;e
a
为知识子图a包含实体的数量信息,e
b
为知识子图b包含实体的数量信息;e
ab
为知识子图a和知识子图b包含重复实体的数量信息;r
a
为知识子图a包含第二关联关系的数量信息,r
b
为知识子图b包含第二关联关系的数量信息;r
ab
为知识子图a和知识子图b包含重复第二关联关系的数量信息。6.一种基于知识图谱的军工科研生产数据相似性判别系统,其特征在于,包括:本...

【专利技术属性】
技术研发人员:姚晗吴美熹李占徐雅丽魏双剑王建峰谭艾迪王美慧米思坤
申请(专利权)人:中国船舶工业综合技术经济研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1