一种基于二维时序网络的端到端文本实体关系识别方法技术

技术编号:26651026 阅读:20 留言:0更新日期:2020-12-09 00:51
本发明专利技术提供了一种基于二维时序网络的端到端文本实体关系识别方法,属于自然语言处理技术领域。所述方法包括:对文本语句进行处理后嵌入embedding层,得到语句的向量表示;对向量表示编码处理后得到头实体张量和尾实体张量;从向量表示中识别出关系类别;用关系类别对头实体张量和尾实体张量进行缩放;从经缩放的头实体张量中识别出头实体类别和尾实体类别;对经缩放的头实体张量和尾实体张量进行加权处理;对头实体张量和尾实体张量进行缩放;对上一步经缩放的头实体张量和尾实体张量进行处理,得到最终的关系张量。本发明专利技术采用联合建模方式的端到端关系识别模型,相较于管道式的方法可以消除误差累加;本发明专利技术可以有效处理交织实体和交织关系的识别问题。

【技术实现步骤摘要】
一种基于二维时序网络的端到端文本实体关系识别方法
本专利技术属于自然语言处理
,具体涉及一种基于二维时序网络的端到端文本实体关系识别方法。
技术介绍
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,它主要研究能够实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融计算机科学、语言学、数学、人工智能等于一体的交叉学科。实体关系识别与抽取是自然语言处理中的一项重要任务,通过从文本中抽取结构化的实体关系事实,可用于自动构建和扩充知识图谱。知识图谱则是以语义网络为基础的大型知识系统,通过“头实体-关系-尾实体”以及“实体-属性-属性值”的三元组数据基本格式来描述客观世界的。通过知识图谱的查询和推理,机器能够解决不同的问题输入。知识获取是知识图谱开发的重要一步,主要通过实体识别、关系识别、事件识别等方法从文本中获取三元组信息。目前常用的实体关系识别方法主要基于多模型的管道式信息处理思想。如公布号为CN111444715A的专利技术专利涉及一种实体关系识别方法,所述实体关系识别方法首先对待处理语句进行分词处理获得语句元素,并从所述语句元素中确定语句中的头实体;随后基于所述头实体对所述语句元素进行编码,并根据编码结果确定与所述头实体具有实体对应关系的尾实体。该方法的文本语句会按顺序经过分词、实体识别、关系识别等模型,后边模型的推理误差无法避免地会受到前边模型误差的影响,会出现模型误差叠加问题,进而影响识别结果。最近又提出了联合建模的实体关系识别方法,把多个文本处理任务放在一个模型中进行处理,用来减少识别误差。如公布号为CN110705301A的专利技术专利涉及一种实体关系抽取方法,所述实体关系抽取方法通过实体和关系联合抽取模型对文本进行处理,所述实体和关系联合抽取模型通过定义特殊的标注集,由实体类别、关系类别排列组合而来。它们将实体和关系联合抽取任务归纳为一种序列标注任务,通过模型给文本中每个字或词标注上包含实体类别和关系类别的标签,然后根据每个字或词的标签再提取出实体和关系。虽然所述联合抽取模型对实体识别和关系抽取进行了联合建模,但是所述联合抽取模型内部仍会出现误差叠加,特别是在实体、关系类别较多的时候,抽取的实体关系准确性较低。
技术实现思路
本专利技术所要解决的技术问题是,针对现有技术的不足,提供一种基于二维时序网络的端到端文本实体关系识别方法。为解决上述技术问题,本专利技术所采用的技术方案是:一种基于二维时序网络的端到端文本实体关系识别方法,所述方法包括:S1、获取文本语句,对文本语句进行处理后嵌入embedding层,并对嵌入结果进行编码处理,得到语句的向量表示;S2、对步骤S1中得到的向量表示进行处理,得到头实体张量和尾实体张量;S3、对步骤S1中得到的向量表示进行识别处理,得到文本语句提及的关系类别;S4、用步骤S3中得到的关系类别对步骤S2中得到的头实体张量和尾实体张量进行缩放处理;S5、从步骤S4中经缩放的头实体张量中识别涉及到的实体类别,得到头实体类别;从步骤S4中经缩放的尾实体张量中识别涉及到的实体类别,得到尾实体类别;S6、对步骤S4中经缩放的头实体张量和尾实体张量分别进行加权处理;S7、用步骤S5中得到的头实体类别对步骤S6中经加权的头实体张量进行缩放处理,用步骤S5中得到的尾实体类别对步骤S6中经加权的尾实体张量进行缩放处理;S8、对步骤S7中经缩放的头实体张量和尾实体张量进行处理,得到最终的关系张量。进一步的,根据权利要求1所述的一种基于二维时序网络的端到端文本实体关系识别方法,其特征在于:所述步骤S1中对文本语句的处理,包括序列编码处理和CLS字符嵌入处理,所述CLS字符用来代表整个文本语句。进一步的,根据权利要求1所述的一种基于二维时序网络的端到端文本实体关系识别方法,其特征在于:所述步骤S5中得到的头实体类别和尾实体类别均采用BIO标注方法。进一步的,根据权利要求1所述的一种基于二维时序网络的端到端文本实体关系识别方法,其特征在于:所述步骤S6中,利用点积缩放自注意力机制对步骤S4中经缩放的头实体张量和尾实体张量分别进行加权处理。进一步的,根据权利要求1所述的一种基于二维时序网络的端到端文本实体关系识别方法,其特征在于:所述步骤S8中,利用S3步骤中得到的关系类别对所述关系张量进行缩放处理。进一步的,根据权利要求1所述的一种基于二维时序网络的端到端文本实体关系识别方法,其特征在于:所述步骤S4中得到的头实体类别和尾实体类别,以及S8步骤中得到的关系张量均含有关系类别纬度。传统实体关系抽取方法是以规则匹配为基础的方法,该方法是运用语言学知识制定一系列抽取规则,对经过预处理的文本语句进行规则匹配。若匹配成功,便说明该语句中的实体对存在规则对应的关系。基于规则的方法能够在特定的领域内取得较好的效果,但是还存在一些问题:研究人员需要在相关领域专家的指导下花费大量的时间编写关系规则,并且这些规则不具有通用性,当迁移到其他领域时规则就失效了。并且抽取规则比较难于制定,规则太少的话会造成覆盖度不够,不能有效抽取关系,造成召回率过低的问题。覆盖度太高又会在一定程度上引入冲突,无法使规则之间有序合作,导致准确率下降。因此,近些年来,越来越多的研究者开始研究基于神经网络的实体关系抽取方法。目前常用的基于神经网络的关系抽取方法是使用管道式(流水线)方法进行抽取,该方法先对句子进行实体识别,然后对识别出的实体两两组合,再进行关系识别,最后把存在实体关系的三元组作为结果输出。如公布号为CN107291687A的专利技术专利涉及一种基于依存语义的中文无监督开放式实体关系抽取方法,所述方法包括以下步骤:1、预处理输入文本;2、对输入文本进行命名实体识别;3、从识别出的实体中任意选出两个实体构成候选实体对;4、寻找候选实体对中的两个实体之间的依存路径;5、根据依存路径抽取的关系词与候选实体对构成关系三元组;6、输出关系三元组。该方法即为管道式(流水线)方法,存在以下缺点:1、错误传播,实体识别模块的错误会影响下面的关系分类性能;2、产生了没必要的冗余信息,没有关系的实体会带来多余信息,提升了错误率。针对这种情况,本专利技术提出了基于时序二维网络的端到端文本实体关系识别方法。时序二维网络(2DTemporalAdjacentNetwork,又名二维时序邻接网络或二维时域邻近网络)是把序列中所有位置的起点和终点关联形成的网络。本专利技术基于时序二维网络的思想,把待处理文本语句中头实体的首字符作为起点,把尾实体的首字符作为终点,并将头实体的首字符代表的起点和尾实体的首字符代表的终点互相关联,因头实体首字符矩阵和尾实体首字符矩阵均含有关系类别纬度,在互相关联过程后,即实现了实体识别和关系抽取的联合建模。本专利技术的有益效果如下:本专利技术采用联合建模方式的端到端关系识别模型,相对于管道式的关系识别模型,一方面消除了管道模型误差累加的弊端,另一方面使得模型的部署简便化,不本文档来自技高网
...

【技术保护点】
1.一种基于二维时序网络的端到端文本实体关系识别方法,其特征在于:所述方法包括:/nS1、获取文本语句,对文本语句进行处理后嵌入embedding层,并对嵌入结果进行编码处理,得到语句的向量表示;/nS2、对步骤S1中得到的向量表示进行处理,得到头实体张量和尾实体张量;/nS3、对步骤S1中得到的向量表示进行识别处理,得到文本语句提及的关系类别;/nS4、用步骤S3中得到的关系类别对步骤S2中得到的头实体张量和尾实体张量进行缩放处理;/nS5、从步骤S4中经缩放的头实体张量中识别涉及到的实体类别,得到头实体类别;从步骤S4中经缩放的尾实体张量中识别涉及到的实体类别,得到尾实体类别;/nS6、对步骤S4中经缩放的头实体张量和尾实体张量分别进行加权处理;/nS7、用步骤S5中得到的头实体类别对步骤S6中经加权的头实体张量进行缩放处理,用步骤S5中得到的尾实体类别对步骤S6中经加权的尾实体张量进行缩放处理;/nS8、对步骤S7中经缩放的头实体张量和尾实体张量进行处理,得到最终的关系张量。/n

【技术特征摘要】
1.一种基于二维时序网络的端到端文本实体关系识别方法,其特征在于:所述方法包括:
S1、获取文本语句,对文本语句进行处理后嵌入embedding层,并对嵌入结果进行编码处理,得到语句的向量表示;
S2、对步骤S1中得到的向量表示进行处理,得到头实体张量和尾实体张量;
S3、对步骤S1中得到的向量表示进行识别处理,得到文本语句提及的关系类别;
S4、用步骤S3中得到的关系类别对步骤S2中得到的头实体张量和尾实体张量进行缩放处理;
S5、从步骤S4中经缩放的头实体张量中识别涉及到的实体类别,得到头实体类别;从步骤S4中经缩放的尾实体张量中识别涉及到的实体类别,得到尾实体类别;
S6、对步骤S4中经缩放的头实体张量和尾实体张量分别进行加权处理;
S7、用步骤S5中得到的头实体类别对步骤S6中经加权的头实体张量进行缩放处理,用步骤S5中得到的尾实体类别对步骤S6中经加权的尾实体张量进行缩放处理;
S8、对步骤S7中经缩放的头实体张量和尾实体张量进行处理,得到最终的关系张量。


2....

【专利技术属性】
技术研发人员:付勇井友鼎杜创胜王旭峰甘志芳王顺智
申请(专利权)人:河南合众伟奇云智科技有限公司
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1