复杂句中实体关联关系的抽取方法技术

技术编号:37446555 阅读:9 留言:0更新日期:2023-05-06 09:18
本发明专利技术公开一种复杂句中实体关联关系的抽取方法,包括构造复杂句数据集,对数据集中的每个句子实体进行人工标注,得到实体标签;建立关系抽取模型,用复杂句数据集中的句子和实体标签对所述模型进行训练;将待抽取关联关系的复杂句输入训练好的关系抽取模型,得到数据标签,进而得到句子实体的关联关系。本发明专利技术通过提出一种新的英文文本实体关系抽取标注方案,将单词是否为实体及实体的哪一部分、与其它哪个实体存在关系、存在何种关系的信息都包含在标注标签中,使得在处理英文文本实体关系抽取任务时不仅可以识别临近实体的关系,也可以识别复杂句中非临近实体的关系。可以识别复杂句中非临近实体的关系。可以识别复杂句中非临近实体的关系。

【技术实现步骤摘要】
复杂句中实体关联关系的抽取方法


[0001]本专利技术涉及自然语言处理
,具体涉及英文复杂句中实体关联关系的抽取方法。

技术介绍

[0002]实体与关系抽取是从非结构化本文中检测实体并识别它们的语义关系,对文本实体和关系的识别是构建知识库的重要步骤,也是许多自然语言处理任务的重要基础。传统的方法以流水线的方式处理实体与关系抽取任务,即首先提取实体,然后识别它们的关系。这个分离的框架是的任务易于处理,但忽略了两个子任务直接的相关性,实体识别的结果可能会影响关系分类的性能。
[0003]近年来,研究人员提出了联合学习框架,即使用单一模型将实体和关系一起抽取出来。这样可以有效地整合实体和关系的信息。大多数现有的联合抽取方法是基于特征的结构化系统,这种方法通常需要复杂的特征工程并严重依赖其他NLP工具包。为此研究人员引进基于神经网络的端到端的实体和关系联合抽取方法,设计了新的标注方案,将实体和关系的联合抽取转化为标记问题,这样可以使用神经网络模型来处理抽取任务,而不需要复杂的特征工程。然而,现有的联合抽取任务仅处理临近实体的关系,对于复杂句中非临近实体(即两个实体间存在其他实体)的情况无法抽取其关系。

技术实现思路

[0004]针对现有问题,本专利技术提供一种英文复杂句中实体关联关系的抽取方法。其主要贡献是提出了一种新的标签标注方案,以句子为单位,采用编码的方式,对英文文本数据标注其标签,将实体之间的存在的所有关系在编码向量中体现出来。
[0005]本专利技术提供的复杂句中实体关联关系的抽取方法,包括以下步骤:
[0006]构造复杂句数据集,对数据集中的每个句子实体进行人工标注,得到实体标签;
[0007]建立关系抽取模型,用所述复杂句数据集中的句子和所述实体标签对所述模型进行训练;
[0008]将待抽取关联关系的复杂句输入训练好的关系抽取模型,得到数据标签,进而得到句子实体的关联关系。
[0009]进一步的,所述对数据集中的每个句子实体进行人工标注,得到实体标签具体包括:
[0010]定义关系集合,先从句子中选取实体词,在实体词两两之间定义关系,每个句子得到一关系集合;
[0011]对关系进行数值化处理,将所述关系集合中的各个关系映射到正整数数值列表中;
[0012]对句中的每个单词,生成长度为句子的长度加2的一维0向量作为单词的标注标签,其中前两位为实体标记,后面每一位各对应句子中的一个单词;
[0013]对于句子中实体词的某个单词,若单词处于实体的开始位,则将标签前两位标注为[1,0];若单词处于实体的结束位,则将标签前两位标注为[0,1];对处于中间位置的单词,前两位标注为[0,0];对于长度为1的实体词,则将标签前两位标注为[1,1];
[0014]若实体之间存在关系,则在标签中,在与其存在关系的实体的索引位置后两位标注两个实体间关系的对应数值,从而得到完整的实体标签。
[0015]更进一步的,所述在与其存在关系的实体的索引位置后两位标注两个实体间关系的对应数值具体包括,若两个实体间索引靠前的实体为关系的主语,则该关系在标签中标注为正数,若为宾语,则标注为负数。
[0016]进一步的,所述关系抽取模型为BiLSTM神经网络。
[0017]进一步的,在对数据集中的每个句子实体进行人工标注之前,还包括数据处理步骤,具体为:
[0018]对句子按照空格进行分词处理,得到单词序列[w0,w1,w2,

,w
n
],其中w0为第一个单词,n为单词的数量;
[0019]生成单词序列[w0,w1,w2,

,w
n
]的词向量,得到向量序列[v0,v1,

,v
n
];
[0020]遍历所述数据集,对所有数据进行分词和向量化处理。
[0021]本专利技术还提供一种计算机可读的存储介质,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述技术方案任一项中所述的方法。
[0022]一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述技术方案任一项中所述的方法。
[0023]本专利技术通过提出一种新的英文文本实体关系抽取标注方案,将单词是否为实体及实体的哪一部分、与其它哪个实体存在关系、存在何种关系的信息都包含在标注标签中,使得在处理英文文本实体关系抽取任务时不仅可以识别临近实体的关系,也可以识别复杂句中非临近实体的关系。
附图说明
[0024]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0025]图1为本专利技术实施例复杂句中实体关联关系的抽取方法流程图;
[0026]图2为本专利技术复杂句实体关系示例;
[0027]图3为本专利技术实体编码示例。
具体实施方式
[0028]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范
围。
[0029]需要说明的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0030]本实施例以英文的复杂句为例,描述一种复杂句中实体关联关系的抽取方法,包括以下步骤:
[0031]S1、构造复杂句数据集,对数据集中的每个句子实体进行人工标注,得到实体标签。
[0032]所述对数据集中的每个句子实体进行人工标注,得到实体标签具体包括:
[0033]S11、定义关系集合,先从句子中选取实体词,在实体词两两之间定义关系,每个句子得到一关系集合;
[0034]S12、对关系进行数值化处理,将关系集合中的各个关系映射到正整数数值列表中;
[0035]S13、对句中的每个单词,生成长度为句子的长度加2的一维0向量作为单词的标注标签,其中前两位为实体标记,后面每一位各对应句子中的一个单词;
[0036]S14、对于句子中实体词的某个单词,若单词处于实体的开始位,则将标签前两位标注为[1,0];若单词处于实体的结束位,则将标签前两位标注为[0,1];对处于中间位置的单词,前两位标注为[0,0];对于长度为1的实体词,则将标签前两本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.复杂句中实体关联关系的抽取方法,其特征在于,包括以下步骤:构造复杂句数据集,对数据集中的每个句子实体进行人工标注,得到实体标签;建立关系抽取模型,用所述复杂句数据集中的句子和所述实体标签对所述模型进行训练;将待抽取关联关系的复杂句输入训练好的关系抽取模型,得到数据标签,进而得到句子实体的关联关系。2.根据权利要求1所述的复杂句中实体关联关系的抽取方法,其特征在于,所述对数据集中的每个句子实体进行人工标注,得到实体标签具体包括:定义关系集合,先从句子中选取实体词,在实体词两两之间定义关系,每个句子得到一关系集合;对关系进行数值化处理,将所述关系集合中的各个关系映射到正整数数值列表中;对句中的每个单词,生成长度为句子的长度加2的一维0向量作为单词的标注标签,其中前两位为实体标记,后面每一位各对应句子中的一个单词;对于句子中实体词的某个单词,若单词处于实体的开始位,则将标签前两位标注为[1,0];若单词处于实体的结束位,则将标签前两位标注为[0,1];对处于中间位置的单词,前两位标注为[0,0];对于长度为1的实体词,则将标签前两位标注为[1,1];若实体之间存在关系,则在标签中,在与其存在关系的实体的索引位置后两位标注两个实体间关系的对应数值,从而得到完整的实体标签。3.根据权利要求2所述的复杂句中实体关联关系的抽取方法,其特征在于,所述在与...

【专利技术属性】
技术研发人员:陆珏萦陈建平傅启明方浪陆芸芸李华康
申请(专利权)人:苏州派维斯信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1