面向警情笔录数据的实体关系联合抽取方法技术

技术编号：26690312 阅读：40 留言：0更新日期：2020-12-12 02:40

面向警情笔录数据的实体关系联合抽取方法，收集警情笔录数据作为训练数据，获得各句子中存在的实体标签以及实体标签间的关系标签；对每个句子进行上下文编码；对每个句子的上下文语义表征进行命名实体识别；根据训练数据的先验共现信息构建标签依赖图，获取一组相互依赖的关系标签嵌入表示；对于待预测的警情笔录数据的每个句子，综合其上下文语义表征和命名实体识别结果以及关系标签嵌入表示，预测每个句子中所有的实体关系。该方法不仅能解决目前警情笔录关系抽取中误差传导、不能充分利用各子任务之间的交互信息问题，而且还能利用警情笔录数据中关系标签的重要依赖知识提高警情笔录关系抽取的性能。

全部详细技术资料下载

【技术实现步骤摘要】
面向警情笔录数据的实体关系联合抽取方法
本专利技术涉及自然语言处理和深度学习领域，尤其涉及一种面向警情笔录数据的实体关系联合抽取方法。
技术介绍
面向警情笔录数据的实体关系抽取(RelationExtraction)是警情笔录信息抽取技术的重要环节，是警情笔录信息抽取领域重要的基础任务和难点问题之一。其任务是从非结构化文本中识别出一对实体以及这对实体具有的语义关系，并构成关系三元组。从理论价值层面看，实体关系抽取涉及到机器学习、语言学、数据挖掘等多个学科的理论和方法。从应用层面看，实体关系抽取可用于大规模知识库的自动构建。实体关系抽取还能为信息检索和自动问答系统的构建提供数据支持。近年来，研究人员已经在关系抽取方面做出了诸多工作，尤其是基于神经网络的有监督的关系抽取方法。目前进行面向警情笔录数据的实体关系抽取的方法主要是基于流水线的抽取方法，即把实体和关系的抽取分为两个子任务：先采用命名实体识别模型抽取出所有实体，再采用关系分类器得到实体对之间的关系。然而，流水线方法存在着以下几个缺点：1、误差累计，实体识别...

【技术保护点】
1.面向警情笔录数据的实体关系联合抽取方法，其特征在于，包括：/nS1. 收集大量警情笔录数据作为训练数据，预定义

【技术特征摘要】
1.面向警情笔录数据的实体关系联合抽取方法，其特征在于，包括：
S1.收集大量警情笔录数据作为训练数据，预定义m个实体标签以及q个关系标签，针对收集的警情笔录数据以句子为单位，对各句子中存在的实体标签和关系标签进行人工标注，并统计训练数据中关系标签的先验共现信息；
S2.对警情笔录数据中的每个句子进行上下文编码得到每个句子的上下文语义表征；
S3.对警情笔录数据中的每个句子的上下文语义表征进行命名实体识别；
S4.根据训练数据的先验共现信息构建标签依赖图的邻接矩阵，使用多层图卷积网络进行关系标签依赖编码后，得到一组相互依赖的关系标签嵌入表示；
S5.对于待预测的警情笔录数据的每个句子，综合其上下文语义表征和命名实体识别结果以及S4中得到的关系标签嵌入表示，预测每个句子中所有的实体关系。

2.根据权利要求1所述的面向警情笔录数据的实体关系联合抽取方法，其特征在于：S2中将警情笔录数据中的任意句子用X={x1,x2,…xn}表示，其中x1,x2,…xn表示句子中的字符，n是句子的长度；将每个句子对应的分别输入到WordPiece分词器得到分词后的数据W={w1,w2,…wk}，其中，w1,w2,…wk表示句子中的各词单元，其中k是预处理后的数据W的长度，k<=n；将分词后的数据W={w1,w2,…wk}输入至预训练语言模型BERT，通过预训练语言模型BERT将划分出的每个词单元映射为对应的上下文语义表征Z={z1,z2,…zk}，其中z1,z2,…zk分别代表w1,w2,…wk对应的上下文语义表征。

3.根据权利要求2所述的面向警情笔录数据的实体关系联合抽取方法，其特征在于：S1中预定义的m个实体标签为；实体标签序列，S3中对于警情笔录数据中的每个句子的上下文语义表征，给定一组实体标签序列，计算Z的实体标签序列为Y的概率值，将最大概率值对应的实体标签序列作Z的预测实体标签序列；将预测实体标签序列向量化映射为对应的实体标签嵌入序列H={h1,h2,…he}，其中h1,h2,…hk分别为对应的预测实体标签的标签嵌入。

4.根据权利要求3所述的面向警情笔录数据的实体关系联合抽取方法，其特征在于：S3中计算Z的实体标签序列为Y的概率值的方法如下：
对于警情笔录数据中的每个句子的上下文语义表征，首先使用线性变换得到中每个得到每个实体标签的得分，，代表的实体标签为的得分；
预定义的实体标签数量m，预定义的实体标签序列为，给定一组实体标签序列，计算上下文语义表征Z的实体标签序列为的线性CRF得分，公式为：

其中，为实体标签到实体标签的转移得分；
最后通过softmax函数计算Z的实体标签序列为Y...

【专利技术属性】
技术研发人员：谢松县，彭立宏，
申请(专利权)人：湖南数定智能科技有限公司，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人