一种战争类研究报告的信息抽取方法技术

技术编号:32510729 阅读:59 留言:0更新日期:2022-03-02 10:54
本发明专利技术公开了一种战争类研究报告的信息抽取方法,包括如下步骤,获取战争类研究报告数据集;基于人工神经网络库建立实体关系联合抽取模型;将所述数据集拆分为训练集和测试集,采用所述训练集对所述实体关系联合抽取模型进行优化训练,当特征参数达到设定阈值时,生成最优实体关系联合抽取模型;通过所述最优实体关系联合抽取模型对所述测试集进行信息抽取,生成关系抽取报告。本发明专利技术对实体关系联合抽取模型引入了先验知识,使抽取效果得到了进一步的提升,能够有效处理“头尾重叠问题”、“SEO问题”和“EPO问题”,进一步提高识别准确率。率。率。

【技术实现步骤摘要】
一种战争类研究报告的信息抽取方法


[0001]本专利技术涉及信息
,尤其涉及一种战争类研究报告的信息抽取方法。

技术介绍

[0002]美国国防部发布的一些战争类的研究报告对于毁伤领域研究非常有意义,如“海湾战争”,“阿富汗战争”,“朝鲜战争”等。通过分析一些战争类研究报告可以掌握在战争中各个国家的协同,各类部队所扮演的角色,各种武器的运用以及之间的关系等等,甚至可以挖掘和推断出一些隐含的关键信息。因此从一些战争类研究报告中抽取其中的关键信息以及各个信息之间的关系对于毁伤领域的研究以及国防安全具有相当重要的意义。
[0003]信息抽取是将自然语言文本作为输入,并生成由某些标准指定的结构化信息的任务。信息抽取的各种子任务(例如,命名实体识别,关系抽取,共指解析,命名实体链接,知识库推理等)构成了各种下游自然语言处理(NLP)任务(例如机器翻译、问题回答系统、自然语言理解、文本摘要和Siri和Cortana等智能机器助理)。实体关系关系抽取是为了从非结构化文本中抽取出(头实体,关系,尾实体)这样的结构化三元组知识,是信息抽取重要任务之一,主要分为半监督、监督学习两种,其作为信息抽取、自然语言理解、信息检索等领域的核心任务和重要环节,能够从文本中抽取实体和实体之间的语义关系。随着知识图谱的广泛应用,作为图谱构建的关键技术,实体关系抽取正得到越来越多的研究人员的关注。
[0004]半监督学习方法不需要太多的训练样本,但是其抽取的查全率很低。因此目前研究主要集中在监督学习抽取,其中又分为流水线式关系抽取方法(Pipline)和联合关系抽取方法(Joint Model)。其中联合抽取由于可以将实体抽取任务和关系抽取任务合并为一个任务完成,因此解决了流水线式关系抽取方法误差传播问题。

技术实现思路

[0005]为解决现有技术中存在的问题,本专利技术提出一种战争类研究报告的信息抽取方法,解决了利用神经网络算法对战争类研究报告进行信息抽取的问题并充分利用了大量的已知知识从而提升了联合关系抽取的效果。
[0006]为实现上述目的,本专利技术提供了如下方案:一种战争类研究报告的信息抽取方法,包括:
[0007]S1.获取战争类研究报告数据集;
[0008]S2.基于人工神经网络库构建实体关系联合抽取模型;
[0009]S3.将所述数据集拆分为训练集和测试集,采用所述训练集对所述实体关系联合抽取模型进行优化训练,当特征参数达到设定阈值时,生成最优实体关系联合抽取模型;
[0010]S4.通过所述最优实体关系联合抽取模型对所述测试集进行信息抽取,生成抽取报告。
[0011]优选地,所述获取战争类研究报告数据集包括以下步骤:
[0012]S11.提取所述战争类研究报告,获取文本,利用正则表达式对所述文本进行过滤,
获得过滤后的文本,将所述过滤后的文本以句子为单位进行分割,获得分割后的文本;
[0013]S12.对所述分割后的文本进行人工标注,获得标注的数据集;
[0014]步骤三,将所述标注的数据集划分训练集和测试集。
[0015]优选地,所述实体关系联合抽取模型包括:输入层、BERT编码层、头先验知识层、头实体预测层、尾实体先验知识层、特定关系和尾实体预测层;
[0016]所述输入层用于对输入文本进行切分以及分割;
[0017]所述BERT编码层用于对所述分割后的文本进行编码,转化为Transformer块输出的向量;
[0018]所述头先验知识层用于将当前的头实体先验知识融合到所述头实体预测层,将生成的头实体先验矩阵与所述BERT编码层输出的向量拼接成第一向量矩阵;
[0019]所述头实体预测层用于从所述第一向量矩阵中识别并保存所有头实体;
[0020]所述尾实体先验知识层用于从先验知识中根据头实体先验信息和对应关系先验信息预测尾实体的先验信息,将生成的尾实体先验矩阵与所述BERT编码层输出的向量拼接成第二向量矩阵;
[0021]所述特定关系和尾实体预测层用于从所述第二向量矩阵中,根据所述头实体预测层预测出的所有头实体,对应每种特定关系预测出对应的尾实体。
[0022]优选地,所述BERT编码层表达式为:
[0023]h
α
=Trans(h
α
‑1),α∈[1,N][0024]其中h
α
为BERT编码层中的第α层Transformer块输出的向量,N为Transformer块的数量。
[0025]优选地,所述头实体预测层表达式为:
[0026]p
istart_n
=σ(W
start
x
i
+b
start
)
[0027]p
iend_n
=σ(W
end
x
i
+b
end
)
[0028][0029]其中p
istart_h
为句子切分后序列x第i个字符是头实体开始字符的概率,p
iend_h
为第i个字符是头实体结尾字符的概率,W
start
为头实体开始位置的训练权重参数,b
start
为头实体开始位置的偏置项,W
end
为头实体结束位置的训练权重参数,b
end
为头实体结束位置的偏置项,x
i
为第i个字符位置对应的向量,σ为激活函数,S
input
为BERT编码层处理后的文本;L为序列S
input
的长度,t∈{start_h,end_h}代表t位于头实体开始字符和结尾字符范围内,为第i个字符是头实体的第t个字符的概率,为句子切分后序列S
input
的第i个字符的头实体第t个字符的二分类标签,为0或1;代表是否正确,代表正确,否则为0,代表是否正确,代表正确,否则为0,p
θ(h|x)
为头实体预测层优化拟然函数。
[0030]优选地,所述特定关系和尾实体预测层表达式为:
[0031][0032][0033][0034]p
istart_t
为预测在S
input
序列中的第i个字符为开始字符的概率,p
iend_t
为预测在S
input
序列中第i个字符为结束字符的概率,为第k个头实体编码,为当前字符的一维向量。为特定关系对应的尾实体开始位置的训练权重参数,为特定关系对应的尾实体结束位置的训练权重参数,为特定关系对应的尾实体开始位置的偏置项,为特定关系对应的尾实体结束位置的偏置项,t∈{start_h,end_h}代表t位于特定关系对应的尾实体开始字符和结尾字符范围内,为第i个字符是尾实体的第t个字符的概率,是句子切分后序列x的第i个字符为尾实体第t个字符的二分类标签,为0或1;为特定关系和尾实体预测的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种战争类研究报告的信息抽取方法,其特征在于:包括以下步骤:S1.获取战争类研究报告数据集;S2.基于人工神经网络库建立实体关系联合抽取模型;S3.将所述数据集拆分为训练集和测试集,采用所述训练集对所述实体关系联合抽取模型进行优化训练,当特征参数达到特定阈值时,生成最优实体关系联合抽取模型;S4.通过所述最优实体关系联合抽取模型对所述测试集进行信息抽取,生成关系抽取报告。2.根据权利要求1所述的战争类研究报告的信息抽取方法,其特征在于:所述获取战争类研究报告数据集包括以下步骤:S11.提取所述战争类研究报告,获取文本,利用正则表达式对所述文本进行过滤,获得过滤后的文本,将所述过滤后的文本以句子为单位进行分割,获得分割后的文本;S12.对所述分割后的文本进行人工标注,获得标注的数据集。3.根据权利要求1所述的战争类研究报告的信息抽取方法,其特征在于:所述实体关系联合抽取模型包括:输入层、BERT编码层、头先验知识层、头实体预测层、尾实体先验知识层、特定关系和尾实体预测层;所述输入层用于对输入文本进行切分以及分割;所述BERT编码层用于对所述分割后的文本进行编码,转化为Transformer块输出的向量;所述头先验知识层用于将当前的头实体先验知识融合到所述头实体预测层,将生成的头实体先验矩阵与所述BERT编码层输出的向量拼接成第一向量矩阵;所述头实体预测层用于从所述第一向量矩阵中识别并保存所有头实体;所述尾实体先验知识层用于从先验知识中根据头实体先验信息和对应关系先验信息预测尾实体的先验信息,将生成的尾实体先验矩阵与所述BERT编码层输出的向量拼接成第二向量矩阵;所述特定关系和尾实体预测层用于从所述第二向量矩阵中,根据所述头实体预测层预测出的所有头实体,对应每种特定关系预测出对应的尾实体。4.根据权利要求3所述的战争类研究报告的信息抽取方法,其特征在于:所述BERT编码层表达式为:h
α
=Trans(h
α
‑1),α∈[1,N]其中h
α
为BERT编码层中的第α层Transformer块输出的向量,N为Transformer块的数量。5.根据权利要求3所述的战争类研究报告的信息抽取方法,其特征在于:所述头实体预测层表达式为:p
istart_h
=σ(W
start
x
i
+b
start
)p
iend_h
=σ(W
end
x
i
+b
end
)其中p
istart_h
为句子切分后序列x第i个字符是头...

【专利技术属性】
技术研发人员:张磊王继民王幸孔德锋汪剑辉王晓峰
申请(专利权)人:中国人民解放军军事科学院国防工程研究院工程防护研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1