一种面向军事领域的知识图谱构建方法技术

技术编号:34444974 阅读:16 留言:0更新日期:2022-08-06 16:38
本发明专利技术涉及一种面向军事领域的知识图谱构建方法,属于知识图谱领域。本发明专利技术通过爬虫从互联网获取到军事相关新闻报道和百科类装备及机构等信息,对已有的数据进行补充;然后通过总结和前期经验,设置部分实体类型和实体关系类型,利用多种算法融合的方式进行军事实体、要素属性和实体间关系的抽取;对获得的实体、属性和关系进行融合校验,得到正确数据集合,进而进行知识图谱的可视化和推理、挖掘等其他应用。本发明专利技术可形成知识图谱,可以进行进一步应用和可视化展现。一步应用和可视化展现。一步应用和可视化展现。

【技术实现步骤摘要】
一种面向军事领域的知识图谱构建方法


[0001]本专利技术属于知识图谱领域,具体涉及一种面向军事领域的知识图谱构建方法。

技术介绍

[0002]知识图谱在2012年由Google提出并应用于搜索业务中,其通过将海量、多元异构、零散碎片的知识,进行清洗、消歧和去冗余等操作后整理为结构化的三元组形式并加以存储和应用生成大规模的知识图谱,较为简洁的呈现了客观世界实体间的逻辑关系和层次结构。在划分上,知识图谱根据内容覆盖范围可以划分为通用的知识图谱和面向特定领域的知识图谱,也称为垂直领域的知识图谱。
[0003]现阶段,特定领域的知识图谱仍旧在研究和探索中。知识图谱具有强大的语义分析和互联能力,在知识应用可视化、搜索引擎、智能问答和决策支持等方面取得很多成果,在智慧医疗、电子商务、现代农业等诸多领域都获得应用,在军事领域应用较少。
[0004]军事领域的智能化和自动化进程对军事知识采集、存储、表示、查询等技术提出更高的要求,因此知识图谱在军事上将发会越来越重要的作用。将知识图谱应用于军事领域可以实现实体数据的集中存储、统一分发以及共建共享,在实体关系推理和发展,也起着重要作用。依托数据挖掘和关联分析等技术,从简单展示向实用性靠拢,可以从海量、多源、零散的军事数据中发现潜在信息,辅助进行态势判断和趋势分析。但是目前面向军事领域的知识图谱较少,缺乏领域特点和针对性,无法实现准确和高效构建。

技术实现思路

[0005](一)要解决的技术问题
[0006]本专利技术要解决的技术问题是如何提供一种面向军事领域的知识图谱构建方法,以解决面向军事领域的知识图谱较少,缺乏领域特点和针对性,无法实现准确和高效构建的问题。
[0007](二)技术方案
[0008]为了解决上述技术问题,本专利技术提出一种面向军事领域的知识图谱构建方法,该方法包括如下步骤:
[0009]S11、融合整理已有的结构化数据和半结构化军事数据;
[0010]S12、通过爬虫从互联网获取到军事相关新闻报道和百科知识,对已有的数据进行补充;
[0011]S13、对已经获取到的数据进行文本清洗,删除重复信息、纠正无效值和缺失值,包括不需要用的标点符号、停用词、标签和无关内容,并提供数据审查、校验和一致性检测,进而执行分词、词性标注和向量化工作;
[0012]S14、通过总结和前期经验设置部分实体类型和实体关系类型;
[0013]S15、利用规则匹配和实体向量算法融合的方式进行军事实体、属性和实体间关系的抽取;
[0014]S16、对获得的军事实体、属性和实体间关系进行融合校验,得到正确数据集合;
[0015]S17、进行知识图谱的可视化和推理。
[0016]进一步地,结构化数据包括物资装备字典、地点字典和同名词典。
[0017]进一步地,半结构化军事数据包括装备属性数据和作战文书。
[0018]进一步地,所述步骤S14中,实体类型包括军事装备、人员、机构和物资;实体关系类型包括应用、就职、部署、搭载、指挥和打击关系。
[0019]进一步地,所述步骤S15具体包括:
[0020]首先与已有的武器装备实体字典、同义词库进行匹配识别实体内容,进一步通过语义、语法规则识别模板进行实体识别,采用基于词向量的Bi

LSTM

CRF算法,并在其中添加注意力机制,增强军事实体关键特征的权重,抽取出军事实体、属性和实体间关系类型;
[0021]其中,借助实体字典和关联同义词库,通过迭代式同步更新实体字典和同义词库,从而在下次识别同义实体时,一定范围快速解决;
[0022]其中,针对新词,利用语义和语法规则匹配方式进行简单发现,进行归类和整理,而后进一步通过Bert

BiLSTM

CRF算法,并在其中添加注意力机制进行军事实体的新词发现和识别。
[0023]进一步地,所述实体识别具体包括:通过利用属性关系指示词、位置规律和共现规律的规则匹配对实体和实体属性进行识别,直接连接对应属性信息,通过关系触发字与位置特征发现新的实体关系。
[0024]进一步地,所述步骤S16具体包括:通过实体属性和实体上下文语义判断实体是否对齐,对多源的属性和关系进行纠错和择优以消除矛盾和歧义,最终实现对实体属性和关系的融合和消歧。
[0025]进一步地,所述步骤S17具体包括:进行抽取结果的可视化,在充分考虑数据量和数据关联性情况下,通过图数据库实现可视化;通过可视化界面建立战场焦点,关联相关实体和属性、关系,可以进行战场兵力和武器效能对比;通过图推理算法实现未知实体关系和属性的推理。
[0026]本专利技术还提供一种面向军事领域的知识图谱构建方法,该方法包括如下步骤:
[0027]S21、整合已有非结构化军事文本数据;
[0028]S22、通过从网络获取到国内外军事相关新闻报道和百科类装备及机构信息,对已有的数据进行补充;
[0029]S23、通过总结和前期经验设置部分实体类型和实体关系类型,形成装备类别、人员机构类别实体元数据;
[0030]S24、利用多种算法融合的方式进行军事实体、要素属性和实体间关系的抽取;
[0031]S25、对获得的实体、属性和关系进行融合校验,得到正确数据集合;
[0032]S26、进行知识图谱的可视化和推理。
[0033]本专利技术还提供一种面向军事领域的知识图谱构建系统,该系统包括如下模块:
[0034]数据获取模块,用于结构化数据和半结构化军事数据的获取;
[0035]数据预处理模块,用于非结构化数据的清洗,提供数据审查、校验和一致性检测,进而执行分词、词性标注和向量化工作;
[0036]预定义模块,用于实体、属性元数据预定义和实体关系类型预定义;
[0037]要素信息抽取模块,用于军事相关实体、属性及关系的抽取,并进行融合校验;
[0038]知识图谱可视化模块,用于知识图谱的可视化和定制化展现。
[0039](三)有益效果
[0040]本专利技术提出一种面向军事领域的知识图谱构建方法,本专利技术在单一通过规则或者神经网络识别实体、属性和关系的通用方法下,提出多层次的混合方式。通过预先的基础实体字典库和同名库,实现基础的实体要素抽取,并在实施过程中进行增量化的迭代更新;进一步的,应用规则方式进行实体军事装备和机构等识别;在这些方法上进一步使用神经网络方式进行实体要素提取,实现高效出抽取。最终形成知识图谱,可以进行进一步应用和可视化展现。
附图说明
[0041]图1为本专利技术面向军事领域的知识图谱构建方法流程图;
[0042]图2为面向军事领域的知识图谱构建功能模块图;
[0043]图3为实体、属性和关系抽取流程图。
具体实施方式
[0044]为使本专利技术的目的、内容和优点更加清楚,下面结合附图和实施例,对本专利技术的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向军事领域的知识图谱构建方法,其特征在于,该方法包括如下步骤:S11、融合整理已有的结构化数据和半结构化军事数据;S12、通过爬虫从互联网获取到军事相关新闻报道和百科知识,对已有的数据进行补充;S13、对已经获取到的数据进行文本清洗,删除重复信息、纠正无效值和缺失值,包括不需要用的标点符号、停用词、标签和无关内容,并提供数据审查、校验和一致性检测,进而执行分词、词性标注和向量化工作;S14、通过总结和前期经验设置部分实体类型和实体关系类型;S15、利用规则匹配和实体向量算法融合的方式进行军事实体、属性和实体间关系的抽取;S16、对获得的军事实体、属性和实体间关系进行融合校验,得到正确数据集合;S17、进行知识图谱的可视化和推理。2.如权利要求1所述的面向军事领域的知识图谱构建方法,其特征在于,结构化数据包括物资装备字典、地点字典和同名词典。3.如权利要求1所述的面向军事领域的知识图谱构建方法,其特征在于,半结构化军事数据包括装备属性数据和作战文书。4.如权利要求1所述的面向军事领域的知识图谱构建方法,其特征在于,所述步骤S14中,实体类型包括军事装备、人员、机构和物资;实体关系类型包括应用、就职、部署、搭载、指挥和打击关系。5.如权利要求1

4任一项所述的面向军事领域的知识图谱构建方法,其特征在于,所述步骤S15具体包括:首先与已有的武器装备实体字典、同义词库进行匹配识别实体内容,进一步通过语义、语法规则识别模板进行实体识别,采用基于词向量的Bi

LSTM

CRF算法,并在其中添加注意力机制,增强军事实体关键特征的权重,抽取出军事实体、属性和实体间关系类型;其中,借助实体字典和关联同义词库,通过迭代式同步更新实体字典和同义词库,从而在下次识别同义实体时,一定范围快速解决;其中,针对新词,利用语义和语法规则匹配方式进行简单发现,进行归类和整理,而后进一步通过Bert

BiLSTM

CRF算法,并在其中添...

【专利技术属性】
技术研发人员:谢德鹏胡欣欣葛志袁晓光
申请(专利权)人:北京计算机技术及应用研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1