复杂句中实体关联关系的抽取方法技术

技术编号：37446555 阅读：9 留言：0更新日期：2023-05-06 09:18

本发明专利技术公开一种复杂句中实体关联关系的抽取方法，包括构造复杂句数据集，对数据集中的每个句子实体进行人工标注，得到实体标签；建立关系抽取模型，用复杂句数据集中的句子和实体标签对所述模型进行训练；将待抽取关联关系的复杂句输入训练好的关系抽取模型，得到数据标签，进而得到句子实体的关联关系。本发明专利技术通过提出一种新的英文文本实体关系抽取标注方案，将单词是否为实体及实体的哪一部分、与其它哪个实体存在关系、存在何种关系的信息都包含在标注标签中，使得在处理英文文本实体关系抽取任务时不仅可以识别临近实体的关系，也可以识别复杂句中非临近实体的关系。可以识别复杂句中非临近实体的关系。可以识别复杂句中非临近实体的关系。

全部详细技术资料下载

【技术实现步骤摘要】
复杂句中实体关联关系的抽取方法

[0001]本专利技术涉及自然语言处理
，具体涉及英文复杂句中实体关联关系的抽取方法。

技术介绍

[0002]实体与关系抽取是从非结构化本文中检测实体并识别它们的语义关系，对文本实体和关系的识别是构建知识库的重要步骤，也是许多自然语言处理任务的重要基础。传统的方法以流水线的方式处理实体与关系抽取任务，即首先提取实体，然后识别它们的关系。这个分离的框架是的任务易于处理，但忽略了两个子任务直接的相关性，实体识别的结果可能会影响关系分类的性能。
[0003]近年来，研究人员提出了联合学习框架，即使用单一模型将实体和关系一起抽取出来。这样可以有效地整合实体和关系的信息。大多数现有的联合抽取方法是基于特征的结构化系统，这种方法通常需要复杂的特征工程并严重依赖其他NLP工具包。为此研究人员引进基于神经网络的端到端的实体和关系联合抽取方法，设计了新的标注方案，将实体和关系的联合抽取转化为标记问题，这样可以使用神经网络模型来处理抽取任务，而不需要复杂的特征工程。然而，现有的联合抽取任务仅处理临近实体的关系，对于复杂句中非临近实体(即两个实体间存在其他实体)的情况无法抽取其关系。

技术实现思路

[0004]针对现有问题，本专利技术提供一种英文复杂句中实体关联关系的抽取方法。其主要贡献是提出了一种新的标签标注方案，以句子为单位，采用编码的方式，对英文文本数据标注其标签，将实体之间的存在的所有关系在编码向量中体现出来。
[0005]本专利技术提供的复杂句中实体关联关系的...

【技术保护点】

【技术特征摘要】
1.复杂句中实体关联关系的抽取方法，其特征在于，包括以下步骤：构造复杂句数据集，对数据集中的每个句子实体进行人工标注，得到实体标签；建立关系抽取模型，用所述复杂句数据集中的句子和所述实体标签对所述模型进行训练；将待抽取关联关系的复杂句输入训练好的关系抽取模型，得到数据标签，进而得到句子实体的关联关系。2.根据权利要求1所述的复杂句中实体关联关系的抽取方法，其特征在于，所述对数据集中的每个句子实体进行人工标注，得到实体标签具体包括：定义关系集合，先从句子中选取实体词，在实体词两两之间定义关系，每个句子得到一关系集合；对关系进行数值化处理，将所述关系集合中的各个关系映射到正整数数值列表中；对句中的每个单词，生成长度为句子的长度加2的一维0向量作为单词的标注标签，其中前两位为实体标记，后面每一位各对应句子中的一个单词；对于句子中实体词的某个单词，若单词处于实体的开始位，则将标签前两位标注为[1,0]；若单词处于实体的结束位，则将标签前两位标注为[0,1]；对处于中间位置的单词，前两位标注为[0,0]；对于长度为1的实体词，则将标签前两位标注为[1,1]；若实体之间存在关系，则在标签中，在与其存在关系的实体的索引位置后两位标注两个实体间关系的对应数值，从而得到完整的实体标签。3.根据权利要求2所述的复杂句中实体关联关系的抽取方法，其特征在于，所述在与...

【专利技术属性】
技术研发人员：陆珏萦，陈建平，傅启明，方浪，陆芸芸，李华康，
申请(专利权)人：苏州派维斯信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人