面向警情笔录数据的实体关系联合抽取方法技术

技术编号:26690312 阅读:23 留言:0更新日期:2020-12-12 02:40
面向警情笔录数据的实体关系联合抽取方法,收集警情笔录数据作为训练数据,获得各句子中存在的实体标签以及实体标签间的关系标签;对每个句子进行上下文编码;对每个句子的上下文语义表征进行命名实体识别;根据训练数据的先验共现信息构建标签依赖图,获取一组相互依赖的关系标签嵌入表示;对于待预测的警情笔录数据的每个句子,综合其上下文语义表征和命名实体识别结果以及关系标签嵌入表示,预测每个句子中所有的实体关系。该方法不仅能解决目前警情笔录关系抽取中误差传导、不能充分利用各子任务之间的交互信息问题,而且还能利用警情笔录数据中关系标签的重要依赖知识提高警情笔录关系抽取的性能。

【技术实现步骤摘要】
面向警情笔录数据的实体关系联合抽取方法
本专利技术涉及自然语言处理和深度学习领域,尤其涉及一种面向警情笔录数据的实体关系联合抽取方法。
技术介绍
面向警情笔录数据的实体关系抽取(RelationExtraction)是警情笔录信息抽取技术的重要环节,是警情笔录信息抽取领域重要的基础任务和难点问题之一。其任务是从非结构化文本中识别出一对实体以及这对实体具有的语义关系,并构成关系三元组。从理论价值层面看,实体关系抽取涉及到机器学习、语言学、数据挖掘等多个学科的理论和方法。从应用层面看,实体关系抽取可用于大规模知识库的自动构建。实体关系抽取还能为信息检索和自动问答系统的构建提供数据支持。近年来,研究人员已经在关系抽取方面做出了诸多工作,尤其是基于神经网络的有监督的关系抽取方法。目前进行面向警情笔录数据的实体关系抽取的方法主要是基于流水线的抽取方法,即把实体和关系的抽取分为两个子任务:先采用命名实体识别模型抽取出所有实体,再采用关系分类器得到实体对之间的关系。然而,流水线方法存在着以下几个缺点:1、误差累计,实体识别模块的错误会影响到接下来的关系分类性能;2、忽视了两个子任务之间存在的关系,丢失相互信息,影响抽取效果;3、产生冗余信息,由于对识别出来的实体进行两两配对,然后再进行关系分类,那些没有关系的实体对就会带来多余信息,提升错误率。相比于流水线方法,联合学习方法能够利用警情笔录数据中实体和关系间紧密的交互信息,同时抽取实体并分类实体对的关系,很好地解决了流水线方法所存在的问题。然而,目前存在的联合抽取方法虽然消除了流水线方法中两个子任务相互独立的问题,但现有的方法大都孤立的预测每一个关系而未考虑关系标签相互之间的丰富语义关联。
技术实现思路
针对目前警情笔录领域下实体关系抽取方法存在误差传导、不能充分利用各子任务之间的交互信息和未考虑关系标签之间语义关联的问题,本专利技术提出了一种面向警情笔录数据的实体关系联合抽取方法。该方法不仅能解决目前警情笔录关系抽取中误差传导、不能充分利用各子任务之间的交互信息问题,而且还能利用警情笔录数据中关系标签的重要依赖知识。实际应用中本专利技术显著提高了警情笔录关系抽取的性能。为实现上述技术目的,本专利技术采用的具体技术方案如下:面向警情笔录数据的实体关系联合抽取方法,包括:S1.收集大量警情笔录数据作为训练数据,预定义m个实体标签以及q个关系标签,针对收集的警情笔录数据以句子为单位,对各句子中存在的实体标签和关系标签进行人工标注,以及获得训练数据中关系标签的先验共现信息。S2.对警情笔录数据中的每个句子进行上下文编码得到每个句子的上下文语义表征。S3.对警情笔录数据中的每个句子的上下文语义表征进行命名实体识别。S4.根据训练数据的先验共现信息构建标签依赖图的邻接矩阵,使用多层图卷积网络进行关系标签依赖编码后,得到一组相互依赖的关系标签嵌入表示。S5.对于待预测的警情笔录数据的每个句子,综合其上下文语义表征和命名实体识别结果以及S4中得到的关系标签嵌入表示,预测每个句子中所有的实体关系。本专利技术的S2中将警情笔录数据中的任意句子用X={x1,x2,…xn}表示,其中x1,x2,…xn表示句子中的字符,n是句子的长度;将每个句子对应的分别输入到分词器得到分词后的数据W={w1,w2,…wk},其中,w1,w2,…wk表示句子中的各词单元,其中k是预处理后的数据W的长度,k<=n;将分词后的数据W={w1,w2,…wk}输入至预训练语言模型BERT,通过预训练语言模型BERT将划分出的每个词单元映射为对应的上下文语义表征,其中分别代表w1,w2,…wk对应的上下文语义表征。本专利技术的S1中预定义的m个实体标签为;实体标签序列,S3中对于警情笔录数据中的每个句子的上下文语义表征Z={z1,z2,…zk},给定一组实体标签序列,计算Z的实体标签序列为Y的概率值,将最大概率值对应的实体标签序列作Z的预测实体标签序列;将预测实体标签序列向量化映射为对应的实体标签嵌入序列,其中分别为对应的预测实体标签的标签嵌入。本专利技术的S4中针对收集的警情笔录数据,使用一个邻接矩阵来表示有q个关系标签的关系标签依赖图。具体地,关系标签依赖图中一个图节点即表示一个关系标签节点,关系标签之间的关联则存储在关系标签依赖图的边上,如果两个关系标签同时出现在同一个句子中,那么将认为它们对应的标签的同时出现,即两者间存在边;使用两个关系标签之间的共现次数作为两个关系标签在关系标签依赖图的邻接矩阵中的连接权值。对于预定义的q种关系标签,将每个关系标签映射为一个待更新的p维向量,得到一组关系标签节点嵌入,其中p是一个超参数,由交叉验证得到。将作为多层图卷积网络的初始输入;通过构建好的关系标签依赖图的邻接矩阵A,图卷积网络的每一层可以写成非线性函数,使用多层图卷积网络来学习多个关系标签节点嵌入之间的相关性,完成关系标签依赖编码后,得到一组相互依赖的关系标签嵌入表示}。本专利技术的S5中对于待预测的警情笔录数据的每个句子,获取其语义向量序列和实体标签嵌入序列并进行拼接,得到目标向量集合,综合目标向量集合中的任意两个目标向量,与S4中得到的关系标签嵌入表示中每一种可能的关系标签进行关系预测,得到对应的预测实体关系。与现有技术相比,本专利技术具有以下优点:1、采用预训练语言模型BERT,BERT能对不同层次信息之间的复杂交互进行建模,学习深层语境化的词汇表征。2、实体关系联合抽取,联合学习能够利用警情笔录数据中实体和关系间紧密的交互信息,并解决流水线方法的弊端。3、与现有方法相比,不再孤立的预测每一个关系并利用图卷积网络学习关系标签相互之间的丰富语义关联信息。附图说明图1为本专利技术的流程图。图2为本专利技术的系统框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本专利技术所揭示内容的精神,任何所属
技术人员在了解本
技术实现思路
的实施例后,当可由本
技术实现思路
所教示的技术,加以改变及修饰,其并不脱离本
技术实现思路
的精神与范围。本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。参照图1和图2,本实施例提供一种面向警情笔录数据的实体关系联合抽取方法,包括:S1.收集大量警情笔录数据作为训练数据。每条警情笔录数据都由专业人员进行实体标签和关系标签的标注。具体地,预定义m个实体标签以及q个实体标签间的关系标签,针对收集的警情笔录数据以句子为单位,对各句子中存在的实体标签和关系标签进行人工标注,获得训练数据中关系标签的先验共现信息即各个句子中不同关系标签共同出现的次数。与某市公安系统合作,收集了真实案件受理过程中产生的警情文本作为训练数据。由专家组紧密贴合业务,设计出科学合理的标签体系。在本方案具体实施中,根据办案需求和警情数据特点,共设计和预定义了m种实体标签,包括人物,机构,地点等;并本文档来自技高网
...

【技术保护点】
1.面向警情笔录数据的实体关系联合抽取方法,其特征在于,包括:/nS1. 收集大量警情笔录数据作为训练数据,预定义

【技术特征摘要】
1.面向警情笔录数据的实体关系联合抽取方法,其特征在于,包括:
S1.收集大量警情笔录数据作为训练数据,预定义m个实体标签以及q个关系标签,针对收集的警情笔录数据以句子为单位,对各句子中存在的实体标签和关系标签进行人工标注,并统计训练数据中关系标签的先验共现信息;
S2.对警情笔录数据中的每个句子进行上下文编码得到每个句子的上下文语义表征;
S3.对警情笔录数据中的每个句子的上下文语义表征进行命名实体识别;
S4.根据训练数据的先验共现信息构建标签依赖图的邻接矩阵,使用多层图卷积网络进行关系标签依赖编码后,得到一组相互依赖的关系标签嵌入表示;
S5.对于待预测的警情笔录数据的每个句子,综合其上下文语义表征和命名实体识别结果以及S4中得到的关系标签嵌入表示,预测每个句子中所有的实体关系。


2.根据权利要求1所述的面向警情笔录数据的实体关系联合抽取方法,其特征在于:S2中将警情笔录数据中的任意句子用X={x1,x2,…xn}表示,其中x1,x2,…xn表示句子中的字符,n是句子的长度;将每个句子对应的分别输入到WordPiece分词器得到分词后的数据W={w1,w2,…wk},其中,w1,w2,…wk表示句子中的各词单元,其中k是预处理后的数据W的长度,k<=n;将分词后的数据W={w1,w2,…wk}输入至预训练语言模型BERT,通过预训练语言模型BERT将划分出的每个词单元映射为对应的上下文语义表征Z={z1,z2,…zk},其中z1,z2,…zk分别代表w1,w2,…wk对应的上下文语义表征。


3.根据权利要求2所述的面向警情笔录数据的实体关系联合抽取方法,其特征在于:S1中预定义的m个实体标签为;实体标签序列,S3中对于警情笔录数据中的每个句子的上下文语义表征,给定一组实体标签序列,计算Z的实体标签序列为Y的概率值,将最大概率值对应的实体标签序列作Z的预测实体标签序列;将预测实体标签序列向量化映射为对应的实体标签嵌入序列H={h1,h2,…he},其中h1,h2,…hk分别为对应的预测实体标签的标签嵌入。


4.根据权利要求3所述的面向警情笔录数据的实体关系联合抽取方法,其特征在于:S3中计算Z的实体标签序列为Y的概率值的方法如下:
对于警情笔录数据中的每个句子的上下文语义表征,首先使用线性变换得到中每个得到每个实体标签的得分,,代表的实体标签为的得分;
预定义的实体标签数量m,预定义的实体标签序列为,给定一组实体标签序列,计算上下文语义表征Z的实体标签序列为的线性CRF得分,公式为:



其中,为实体标签到实体标签的转移得分;
最后通过softmax函数计算Z的实体标签序列为Y...

【专利技术属性】
技术研发人员:谢松县彭立宏
申请(专利权)人:湖南数定智能科技有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1