一种军事法规元知识网络的构建方法技术

技术编号:37272092 阅读:19 留言:0更新日期:2023-04-20 23:40
本发明专利技术公开了一种军事法规元知识网络的构建方法,包括以下步骤:步骤一:预备知识,步骤二:军事法规元知识网络构建,步骤三,实验与分析。本发明专利技术的一种军事法规元知识网络的构建方法,将文档各级标题作为节点融入元知识网络,一方面使同一标题下的实体具备语义相关性,另一方面大量无法以三元组形式存在的知识得以保留。与传统知识图谱中的三元组相比,元知识的语义丰富性与层次性有了提高,更好地反映了知识间的逻辑关系。同时文档结构信息也可满足问答系统对可解释性的需求,即针对某一问题,在给出短答案的同时,输出答案所在段落及其所属条目作为完整解释,可更好地为指挥员提供军事决策辅助。供军事决策辅助。供军事决策辅助。

【技术实现步骤摘要】
Metaknowledge),其结构特征通过文档的各级标题体现出来,这种层次结构蕴含着文档各部分之间起承转合的内在逻辑;
[0014]定义4:一定规模的文档元知识通过文档之间的语义相关性所链接形成的网络,称为文档元知识网络(Document Metaknowledge Network),简称元知识网络(Metaknowledge Network)。
[0015]进一步的,所述元知识结构要素抽取包括各级标题为层次实体,上下级标题间的从属关系为层次关系,二者共同构成元知识结构要素,通过分析军事法规库,发现其文档层次清晰,各级标题具有很强的规律性,采用基于规则的方法对文档结构要素进行抽取,军事法规的标题表述形式包括:
[0016]一级标题,文字表述为“第”+中文序数词+“章”;
[0017]二级标题,文字表述为“第”+中文序数词+“节”;
[0018]三级标题,文字表述为“第”+中文序数词+“条”;
[0019]首先,对文档进行文本清洗,即检查换行、空格、缩进、括号等字符,确保全文规范统一,然后,基于标题表述规则识别文档中的各级标题和正文,最后,将文档内容进行结构化表示,以XML格式输出。
[0020]进一步的,所述元知识语义要素抽取包括元知识语义要素由语义实体和语义关系构成,人员、单位、装备、奖励、处分、动作、口令和场地视为语义实体,执行权限、应获奖励、应受处分、速度、角度和距离视为语义关系;
[0021]首先,对部分文档进行“B

I

O”实体标注与“h/>‑
r

t”关系标注,然后,使用标注文档对BERT+BiLSTM+CRF实体抽取模型及DeepKE少样本关系抽取模型进行训练,最后,使用训练的模型对军事法规文档进行语义要素抽取;
[0022]需要注意的是,由于训练数据集规模有限,抽取完成后应进行数据质量检查,如果抽取效果不理想,可考虑标注更多文本用于训练,或调整模型参数,其次,部分语义实体在同一段落内反复出现,视为同一实体,应将其对应的语义要素进行融合。
[0023]进一步的,所述文档元知识构建包括以文档的结构要素为框架,将语义要素下挂至所属的各级标题(层次实体),构建文档元知识,文档元知识以JSON字典形式保存。
[0024]进一步的,所述语义相关度量包括在文档元知识内部,实体之间已通过层次关系和语义关系建立链接,但标注的语义关系仅限于同一段落内部,然而,文档的不同章节之间、不同文档之间也存在广泛联系,人工标注如此海量节点的相关性是不现实的,应引入自动化的方法实现各章节之间以及跨文档的语义相关度量,将文档元知识集合构建为相互之间存在语义关联的元知识网络;
[0025]语义相关度量需计算大量层次实体的语义嵌入值并进行比对,输出结果为文档元知识集合内全部层次实体的相关性矩阵,适合以稀疏矩阵(称为语义相关矩阵)进行存储和计算,正是由于军事法规的标题精确而规范,来自不同文档的节点才得以通过各级标题语义上的相关性建立联系,从而使原本孤立的文档元知识相互链接形成元知识网络。
[0026]本专利技术的有益效果为:
[0027]本专利技术的一种军事法规元知识网络的构建方法,从公开军事法规入手,将元知识作为文本的结构化表示方法,使用基于规则的方法抽取结构要素,使用BERT+BiLSTM+CRF模型与浙江大学DeepKE工具包抽取语义要素,构建了军事法规元知识网络,可为问答系统及
Network)。
[0044]各级标题下的段落是文档的基本语义单元,是文档具体知识的直接来源。从段落中抽取的实体和关系构成了具体知识,将具体知识按照其所属的各级标题,以文档结构的形式有序地组织起来,即构成了文档元知识。成规模的文档元知识通过文档主题之间的语义相关性建立链接,形成了元知识网络。
[0045]各级标题在生成元知识时均被视为实体,称为层次实体;要素之间从属或并列的层次结构关系称为层次关系;层次实体与层次关系构成了结构要素。从文档段落正文中抽取出的实体和关系分别称为语义实体和语义关系,它们并称为语义要素。
[0046]元知识即包含了文档结构信息的三元组知识,各级标题作为元知识层次实体,搭建了文档元知识的基本框架。正文中的语义实体作为层次实体的下属节点,以共同的层次关系为纽带,具备了相关性。而传统知识图谱中的三元组仅链接了语义实体,不涉及层次实体,一方面位于同一标题下的实体由于不具备层次关系而失去了相关性,另一方面未标注语义关系的实体无法以三元组的形式融入知识图谱。
[0047]军事法规的层次结构非常清晰,各级标题对所属内容概括很精确,同一标题下看似没有语义关系的实体有较强的相关性,实体的各级标题也能指明其主旨。所以,相比于传统知识图谱,包含了文档结构信息的元知识网络更适合用来表示军事法规。
[0048]军事法规元知识网络构建:
[0049]如图1所示,构建军事法规元知识网络的输入为非结构化的文档集,流程大致可分为元知识结构要素抽取、元知识语义要素抽取、文档元知识构建和语义相关度量四部分。
[0050]1.元知识结构要素抽取
[0051]各级标题为层次实体,上下级标题间的从属关系为层次关系,二者共同构成元知识结构要素。通过分析军事法规库,发现其文档层次清晰,各级标题具有很强的规律性,故本文采用基于规则的方法对文档结构要素进行抽取。军事法规的标题表述形式如表1所示。
[0052]表1军事法规标题形式
[0053][0054]首先,对文档进行文本清洗,即检查换行、空格、缩进、括号等字符,确保全文规范统一,然后,基于标题表述规则识别文档中的各级标题和正文,最后,将文档内容进行结构化表示,以XML格式输出。转换后的XML文档结构如下:
[0055][0056]文档结构要素抽取结果如图2所示(以《国际海上避碰规则》为例,下同)。
[0057]2.元知识语义要素抽取
[0058]元知识语义要素由语义实体和语义关系构成。例如,人员、单位、装备、奖励、处分、动作、口令和场地等视为语义实体,执行权限、应获奖励、应受处分、速度、角度和距离等视为语义关系。
[0059]首先,对部分文档进行“B

I

O”实体标注与“h

r

t”关系标注。然后,使用标注文档对BERT+BiLSTM+CRF实体抽取模型及DeepKE少样本关系抽取模型进行训练。最后,使用训练的模型对军事法规文档进行语义要素抽取。结果如图3所示。
[0060]需要注意的是,由于训练数据集规模有限,抽取完成后应进行数据质量检查,如果抽取效果不理想,可考虑标注更多文本用于训练,或调整模型参数。其次,部分语义实体在同一段落内反复出现,视为同一实体,应将其对应的语义要素进行融合。
[0061]3.文档元知识构建
[0062]以文档的结构要素为框架,将语义要素下挂至所属的各级标题(层次实体),构建本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种军事法规元知识网络的构建方法,其特征在于,包括以下步骤:步骤一:预备知识,元数据为描述数据的数据,主要是描述数据属性的信息,元知识为描述知识的知识(knowledge about knowledge),反映了具体知识的逻辑关联;步骤二:军事法规元知识网络构建,构建军事法规元知识网络的输入为非结构化的文档集,流程可分为元知识结构要素抽取、元知识语义要素抽取、文档元知识构建和语义相关度量四部分;步骤三,实验与分析,以公开的军事法规为例,构建元知识网络,验证所提流程和方法的可行性。2.根据权利要求1所述的一种军事法规元知识网络的构建方法,其特征在于:所述元数据包括以下定义:定义1:通过关系链接起来的一定规模的实体所形成的语义网络(Semantic Network),称为具体知识,简称知识(Knowledge),“实体—关系—实体”三元组(Triplet)是构成知识的基本单元;定义2:元知识(Metaknowledge)是知识的结构化表示,是具有结构特征的知识,其结构反映了知识“递进”或“并列”的逻辑;定义3:以文档为数据来源生成的元知识称为文档元知识(Document Metaknowledge),其结构特征通过文档的各级标题体现出来,这种层次结构蕴含着文档各部分之间起承转合的内在逻辑;定义4:一定规模的文档元知识通过文档之间的语义相关性所链接形成的网络,称为文档元知识网络(Document Metaknowledge Network),简称元知识网络(Metaknowledge Network)。3.根据权利要求1所述的一种军事法规元知识网络的构建方法,其特征在于:所述元知识结构要素抽取包括各级标题为层次实体,上下级标题间的从属关系为层次关系,二者共同构成元知识结构要素,通过分析军事法规库,发现其文档层次清晰,各级标题具有很强的规律性,采用基于规则的方法对文档结构要素进行抽取,军事法规的标题表述形式包括:一级标题,文字表述为“第”+中文序数词+“章”;二级标题,文字表述为“第”+中文序数词+“节”;三级标题,文字表述为“第”+中文序数词+“条”;首先,对文档进行文本清洗,即检查换行、空格、缩进、括号等字符,确保全文...

【专利技术属性】
技术研发人员:刘奕明谢振杰徐瑞麟付伟徐建桥朱婷婷孙志宏殷瑛
申请(专利权)人:中国人民解放军海军工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1