System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于星型拓扑结构的联合实体关系抽取方法技术_技高网
当前位置: 首页 > 专利查询>三峡大学专利>正文

一种基于星型拓扑结构的联合实体关系抽取方法技术

技术编号:41300991 阅读:4 留言:0更新日期:2024-05-13 14:48
本发明专利技术公开了一种基于星型拓扑结构的联合实体关系抽取方法,该方法通过将混合编码信息输入BERT模块进行编码获取词向量信息,然后通过编码器获取头实体信息,最后通过到Star‑Transformer星型拓扑结构网络得出实体关系三元组信息;可以有效抽取其中蕴含的实体对及其语义关系,进而获取句子中的结构化三元组信息,便于海量数据的处理;将分析出的多个实体之间的语义关系和实体进行关联,促进了大规模知识库的自动构建。

【技术实现步骤摘要】

本专利技术涉及数据处理,特别涉及一种基于星型拓扑结构的联合实体关系抽取方法


技术介绍

1、信息抽取主要包括两大部分:实体关系抽取和事件抽取;而实体关系抽取技术作为信息抽取技术的核心任务之一,旨在通过对文本语句进行建模,以快速高效地抽取其中蕴含的实体对及其语义关系,进而获取句子中的结构化三元组信息,便于海量数据的处理;将分析出的多个实体之间的语义关系和实体进行关联,促进了大规模知识库的自动构建;对用户查询意图进行理解和分析,提高了搜索引擎的检索效率;在知识图谱的构建和扩展、机器阅读、文本摘要、问答系统、机器翻译等下游自然语言处理任务中具有奠基性意义;综上所述,实体关系抽取技术不仅具有理论意义,还具有十分广阔的应用前景。

2、面向中文文本的关系抽取起步比较晚,而且中文与英文等语言相差较大;中文语料库的建立需要经过中文分词、词性标注和句法分析等预处理,并且在处理的过程中会存在很多错误,这就导致中文实体关系抽取的效果略差于英文关系抽取。因此,中文领域的实体关系抽取研究具有较大的挑战性,主要存在3个特殊性:1)中文的单元词汇边界模糊,缺少英文文本中空格这样明确的分隔符,也没有明显的词形变换特征,因此容易造成许多边界歧义,从而增加了关系抽取的难度;2)中文触发词抽取难度较大,且数量过多,导致关系抽取的召回率较低,通过对语料的分析发现,由于中文词汇表达的多义性,对同一类事件,中文触发词的个数要远大于英文,文献[1]统计表明在ace语料里中文触发词个数比英文多30%;3)中文存在多义性、句式复杂表达灵活,多省略等特点。不同领域中的同一词语表达的意思并不一样,或者同一种语义可能存在多种表达形式;

3、现有技术的关系抽取方法主要分为两种:

4、流水线方法:先从文本中抽取全部实体,接着针对全部可能的实体对,判定其之间存在的关系类别,将存在关系的三元组作为预测结果输出。该方法存在的主要问题是:(1)误差积累:实体抽取阶段的错误会影响下一步关系抽取的性能;(2)实体冗余:由于先对抽取的实体进行两两配对,然后再进行关系分类,没有关系的候选实体对所带来的冗余信息,会提升错误率,增加计算复杂度;(3)交互缺失:忽略了实体抽取任务和关系抽取任务之间的内在联系和依赖关系。

5、联合抽取方法:通过实体识别和关系分类联合模型,直接来得到存在关系的实体三元组信息。该方法存在的弊端是:(1)设计的模型具有更复杂的结构;(2)通过该方法提取的特征信息可能一致,也可能冲突,将会导致模型的学习变得混乱。(3)无法更好地解决实体冗余和关系重叠问题。

6、因此,需要设计一种基于星型拓扑结构的联合实体关系抽取方法来解决上述问题。


技术实现思路

1、本专利技术所要解决的技术问题是提供一种基于星型拓扑结构的联合实体关系抽取方法,该方法可以快速高效地抽取其中蕴含的实体对及其语义关系,进而获取句子中的结构化三元组信息,便于海量数据的处理;将分析出的多个实体之间的语义关系和实体进行关联,促进了大规模知识库的自动构建。

2、为实现上述技术效果,本专利技术所采用的技术方案是:

3、一种基于星型拓扑结构的联合实体关系抽取方法,包括以下步骤:

4、s1,通过公开中文实体关系数据库来抽取数据集,并对原始数据集中的实体类型信息进行标注来构建schema表;

5、s2,对步骤s1中的标注数据进行筛选,去除不规范数据;

6、s3,将筛选后的文本数据采用字词混合嵌入的方法,构建混合编码信息;

7、s4,将混合编码数据输入到bert预训练模块中进行编码,输出为编码后的词向量信息;

8、s5,将位置信息与步骤s4预训练模块输出的词向量拼接后输入到头实体解码器,获取文本中所有存在的头实体信息;

9、s6,将头实体识别阶段所有识别出的头实体信息,根据其实体类型信息在schema表中筛选所有存在的关系模型;

10、s7,将步骤s6中的头实体信息,输入到star-transformer星型拓扑结构网络中,得到星型拓扑网络的输出;使用残差连接的方式对网络参数进行优化,降低star-transformer拓扑结构的深度和复杂性;

11、s8,将star-transformer得到的最终卫星节点表示与中继节点表示向量,输入到尾实体识别模块,以此来预测对应的尾实体,最终得到实体关系三元组信息。

12、优选地,步骤s2中,所标注数据主要包括头实体信息、头实体类型信息、预定义的关系信息、尾实体信息、尾实体信息和尾实体类型信息;不规范数据指空值和出错信息。

13、优选地,步骤s3中,为了解决中文语句缺乏明确的词边界信息,更加有效融合语义信息,将词级表示与字符相结合,来避免分词带来的错误传播;s3的具体方法包括:

14、s301,预先训练一个word2vec模型,通过该模型来加载对应的词向量,然后与字向量进行融合,公式如下所示:

15、

16、其中,ti表示字词向量混合的结果向量,wk表示初始通过加载得到的第k个词向量,e为中间过程的变换矩阵,ci表示字向量,将词向量转换为和字向量相同的维度,之后再与词向量对应的字向量进行融合;

17、s302,接着全零初始化一个与字向量维度相同的嵌入层,传入字在文本中的位置编号后得到对应的字的位置向量pi;将位置向量pi与字词混合向量ti相加作为最终的输入向量ti,得到t=(t1,t2,…,tn),输入到预训练模型中;公式如下所示:

18、ti=pi+ti。

19、优选地,步骤s4包括:

20、使用一个预训练模型bert对输入向量进行编码;bert是由n个相同transformer块组成的堆栈;具体公式如下所示:

21、h0=sws+wp;

22、hα=transformer(hα-1),α∈[1,n];

23、其中,s是输入句子中字符索引的one-hot矩阵,ws为字符嵌入矩阵,wp为位置嵌入矩阵,p表示输入序列中的位置索引,hα为α层隐藏状态向量,n为transformer块的数量。

24、优选地,步骤s5包括:

25、头实体解码器的工作目标是用来解析输入句子中所有可能出现的头实体,将经过bert编码器编码后的向量输入全连接层并通过sigmoid函数激活,得到解码后的输出;采用二元指针标注的方式对头实体进行识别,头实体的开始位置和结束位置都用1来表示,其余位置都用0表示,对于文本中存在的多个实体,采用就近原则,某个开始位置为1的字符到其后最近的结束位置为1的字符之间的词就是一个头实体,通过以下公式来预测头实体边界的可能性:

26、

27、

28、其中,和表示第i个标记作为主体的开始和结束位置的概率,该概率超过阈值0.5时,对应的标记则为1,否则标记为0;xi为句子第i个字符的编码向量表示,wstart和wend表本文档来自技高网...

【技术保护点】

1.一种基于星型拓扑结构的联合实体关系抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于星型拓扑结构的联合实体关系抽取方法,其特征在于,步骤S2中,所标注数据主要包括头实体信息、头实体类型信息、预定义的关系信息、尾实体信息、尾实体信息和尾实体类型信息;不规范数据指空值和出错信息。

3.根据权利要求1所述的一种基于星型拓扑结构的联合实体关系抽取方法,其特征在于,步骤S3中,为了解决中文语句缺乏明确的词边界信息,更加有效融合语义信息,将词级表示与字符相结合,来避免分词带来的错误传播;S3的具体方法包括:

4.根据权利要求1所述的一种基于星型拓扑结构的联合实体关系抽取方法,其特征在于,步骤S4包括:

5.根据权利要求1所述的一种基于星型拓扑结构的联合实体关系抽取方法,其特征在于,步骤S5包括:

6.根据权利要求1所述的一种基于星型拓扑结构的联合实体关系抽取方法,其特征在于,步骤S6包括:

7.根据权利要求1所述的一种基于星型拓扑结构的联合实体关系抽取方法,其特征在于,步骤S7中,Star-Transformer拓扑结构1个中继节点和n个卫星节点组成,第i个卫星节点的状态表示文本序列中第i个标记的特征;中继节点充当一个虚拟枢纽,从所有卫星节点收集和分发信息。Star-Transformer结构提出了一种时间步长循环更新的方法,每个卫星节点由输入向量初始化,中继节点初始化为所有文本序列特征的平均值,使用多头注意力机制对节点进行更新;该拓扑结构在获取远程依赖信息的同时,通过将整个实体跨度的表示作为中继节点,与句子和其他实体建立联系,来增强语义表示并获取实体之间的潜在联系。

8.根据权利要求1所述的一种基于星型拓扑结构的联合实体关系抽取方法,其特征在于,步骤S7包括:

9.根据权利要求1所述的一种基于星型拓扑结构的联合实体关系抽取方法,其特征在于,步骤S8包括:

...

【技术特征摘要】

1.一种基于星型拓扑结构的联合实体关系抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于星型拓扑结构的联合实体关系抽取方法,其特征在于,步骤s2中,所标注数据主要包括头实体信息、头实体类型信息、预定义的关系信息、尾实体信息、尾实体信息和尾实体类型信息;不规范数据指空值和出错信息。

3.根据权利要求1所述的一种基于星型拓扑结构的联合实体关系抽取方法,其特征在于,步骤s3中,为了解决中文语句缺乏明确的词边界信息,更加有效融合语义信息,将词级表示与字符相结合,来避免分词带来的错误传播;s3的具体方法包括:

4.根据权利要求1所述的一种基于星型拓扑结构的联合实体关系抽取方法,其特征在于,步骤s4包括:

5.根据权利要求1所述的一种基于星型拓扑结构的联合实体关系抽取方法,其特征在于,步骤s5包括:

6.根据权利要求1所述的一种基于星型拓扑结构的联合实体关系抽取方法,...

【专利技术属性】
技术研发人员:唐庭龙齐宁孙水发吴义熔
申请(专利权)人:三峡大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1