一种结合句法分析的军事想定实体关系抽取方法及装置制造方法及图纸

技术编号:22884061 阅读:30 留言:0更新日期:2019-12-21 07:20
本发明专利技术公开一种结合句法分析的军事想定实体关系抽取方法及装置,所述方法包括以下步骤:1、预定义军事想定实体关系抽取任务的目标关系类型;2、构建实体关系抽取模型的训练数据集和测试数据集;3、对语料逐条进行句法解析,滤除对实体关系抽取无贡献的句子成分;4、利用预训练的词嵌入矩阵将句法解析后保留的句子成分转换为向量化的词嵌入;5、使用向量化的训练数据对实体关系抽取模型进行训练;6、对待处理的军事想定文本进行实体关系抽取。本发明专利技术提出的结合句法分析的军事想定实体关系抽取方法,能够有效提升实体关系抽取的计算效率和精度。

A method and device for extracting entity relationship of military scenario based on syntax analysis

【技术实现步骤摘要】
一种结合句法分析的军事想定实体关系抽取方法及装置
本专利技术属于自然语言处理
,特别涉及一种面向军事想定的实体关系抽取方法及装置。
技术介绍
军事想定,分为基本想定和补充想定,是按照训练课题对作战双方的企图、态势及作战发展情况进行设想和假定的演习文书,是组织、诱导军事演习和作业的基本文书。军事想定实体关系是军事想定数据的基本信息元素,是对军事想定数据进行抽取、处理、分析的基础,抽取军事想定实体关系的目的,是发现隐含在军事想定非结构化文本中的实体关系,并采取一定的手段将其抽取出来。目前,开放领域的实体关系抽取方法主要包括基于规则的方法、基于核函数的方法和基于深度学习的方法。其中,基于规则的方法需要根据待处理语料涉及的领域知识,严重依赖于专家知识和人工归纳,因而代价较高、移植性差,难以得到广泛使用;基于核函数的方法通过计算语法结构树的相似度来进行实体关系抽取,因而训练和测试速度太慢,不适合处理大规模数据;基于深度学习的方法通过利用深度神经网络可以自动抽取句子中的高级特征,移植性强、抽取精度高,但对于军事想定这一封闭领域的文本,由于缺少本文档来自技高网...

【技术保护点】
1.一种结合句法分析的军事想定实体关系抽取方法,其特征在于,所述方法包括以下步骤:/nS1、语料库构建:预定义实体关系抽取目标关系类型,对军事想定原始文本进行标注,构建实体关系抽取模型训练数据集和测试数据集,具体包括:/nS1.1、实体关系预定义:采用Semantic Evaluation会议关于实体关系类型定义的原则和方法,预定义待抽取实体关系类型;/nS1.2、实体关系语料构建:根据预定义实体关系类型,采用手工方法对军事想定原始文本进行标注,生成实体关系抽取语料库,语料库中每一条语料的存储形式为(e

【技术特征摘要】
1.一种结合句法分析的军事想定实体关系抽取方法,其特征在于,所述方法包括以下步骤:
S1、语料库构建:预定义实体关系抽取目标关系类型,对军事想定原始文本进行标注,构建实体关系抽取模型训练数据集和测试数据集,具体包括:
S1.1、实体关系预定义:采用SemanticEvaluation会议关于实体关系类型定义的原则和方法,预定义待抽取实体关系类型;
S1.2、实体关系语料构建:根据预定义实体关系类型,采用手工方法对军事想定原始文本进行标注,生成实体关系抽取语料库,语料库中每一条语料的存储形式为(e1,e2,r,s),其中e1、e2分别表示头部实体和尾部实体,r表示两个实体之间的语义关系,s表示描述实体e1、e2具有语义关系r的句子;
S1.3、数据集划分:划分训练数据集与测试数据集,按照特定比例将步骤S1.2获得的语料库划分为训练数据集和测试数据集;
S2、句法解析:对语料库中每一条语料中的句子s进行句法解析,滤除对实体关系抽取无贡献的句子成分,具体包括:
S2.1、句法树生成:利用句法解析开源工具对语料库中每一条语料中的句子s进行解析,生成句法树;
S2.2、解析树剪枝:剪除句法树中与实体关系三元组(e1,e2,r)无关的句子成分,生成句法解析子树;
S2.3、子树重组:将句法解析子树重组为文本序列,重组过程中不改变词语原始的先后次序;
S3、数据向量化,将步骤S2.3生成的重组序列转换为以分布式向量形式表达的词嵌入集合,具体包括:
S3.1、训练原始文本向量化:结合领域内权威词典将当前输入的重组序列si以词为单位转换为one-hot向量,si表示输入的第i条语料中的句子;
S3.2、词嵌入生成:利用词向量转化开源工具将步骤S3.1获得的one-hot向量集合逐词转换为低维实值词嵌入:
S4、模型训练:利用数据化的实体关系抽取训练数据集训练基于深度神经网络的实体关系抽取模型,具体包括:
S4.1、语义特征抽取:选用特定神经网络作为基础关系抽取器,从步骤S3.4输出的向量集合中提取出当前语句的高级语义特征,模型采用双向神经网络以同时抽取实体对e1、e2的上、下文语义信息,以提升实体关系的识别精度,第i个语料的第j个词的特征表达式如下式所示:



式中,表示前向通道输出和反向通道输出的组合,[]表示括号中为一向量,表示前向通道输出的第i个语料中第j个词的语义特征,表示反向通道输出的第i个语料中第j个词的语义特征;
S4.2、实体关系预测:利用分类器对步骤S4.1输出的特征向量进行处理,计算当前语料(e1,e2,r,s)中关系r为预定义实体关系类型集合Y=[y1,y2,…,y8]中关系yn(n∈[1,8])的估计概率



式中,softmax(·)表示softmax分类器运算,W表示分类器网络的权值矩阵,si表示第i个语料中的句子,表示第i个语料中句子的所有词汇的特征向量的组合,b表示分类器网络的偏置;
估计概率中,最大值所对应的关系类型即为对当前语料中关系r的预测结果,用标签来表示:



式中,表示取最大值运算,表示第i个语料中的句子si所描述的实体关系类型为yn的条件概率,yn表示第n种预定义实体关系类型,si表示第i个语料中的句子;
S4.3、代价函数优化:通过计算真实标签y的负似然函数的对数,得到深度神经网络的代价函数如下:



式中,tn表示one-hot向量,表示步骤S4.2中softamx分类器输出的每个预定义关系类型的估计概率,m表示预定义关系类型的数量(此处取值为8),λ表示L2正则化的超参数,θ表示实体关系抽取模型中的独立参数,||·||表示取范数,通过最小化代价函数J(θ),不断调整模型超参数,完成模型训练;
S5、实体关系抽取:利用训练完成的模型对待处理的军事想定文本进行实体关系抽取,具体包括:
S5.1、测试文本向量化:使用步骤S3中的处理过程,将待处理军事想定原始文本逐句进行向量化;
S5.2、实体关系预测...

【专利技术属性】
技术研发人员:杨若鹏卢稳新鲁义威刘乾蒋序平张建军温鸿鹏
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1