System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于实体关系统计关联的文档关系抽取方法技术方案_技高网

基于实体关系统计关联的文档关系抽取方法技术方案

技术编号:41196245 阅读:8 留言:0更新日期:2024-05-07 22:24
本发明专利技术公开了基于实体关系统计关联的文档关系抽取方法,所述方法包括:构建关系抽取模型,包括预训练语言模型和关系预测层;使用预训练语言模型编码文档,获得文档特征以及实体特征;对每个实体计算统计关系向量;把每对实体的实体特征和统计关系向量输入关系预测层,获得实体对的关系概率分布;计算关系分类损失函数,优化关系分类损失函数,训练关系抽取模型;使用关系抽取模型进行关系抽取。本发明专利技术发现对于文档关系抽取,其天然存在着很强的统计先验知识,本发明专利技术创新性地对每个实体与每种关系的统计关联进行计算,并作为先验知识引入深度学习模型中,提升模型性能。

【技术实现步骤摘要】

本专利技术涉及深度学习和自然语言处理领域,尤其涉及一种基于实体关系统计关联的文档关系抽取方法


技术介绍

1、关系抽取是信息抽取研究的重要方向,已逐步从句子级扩展到了文档级,与句子相比,文档通常蕴含更多的关系事实,通过文档关系抽取构建起来的医学知识图谱,可为医疗知识库构建、病历信息检索等提供更多的信息支持,能够更好地应用于语义搜索、知识问答、临床决策支持等场景中。

2、文档关系抽取中存在着丰富的先验知识,这些知识可以通过实体类型和关系类型之间的统计关联来建模。将这种统计先验知识注入关系抽取模型具有多重价值。首先,它可以为模型提供先验信息,从而降低模型在处理关系时犯下常识性错误的概率。通过利用大规模语料库中的统计数据,模型可以学习到不同实体类型之间的常见关系类型分布,以及关系类型的频率。这样的先验知识可以指导模型更加准确地预测和抽取文档中的关系。其次,统计先验知识可以提高模型的性能和鲁棒性。通过利用先验知识,模型能够更好地适应不同领域和语境中的关系抽取任务。它可以帮助模型更好地理解文档中的关系,从而提高模型在复杂场景下的表现。

3、因此,研究如何将统计先验知识注入关系抽取模型是一条非常有前景的技术路径,其中,设计基于实体关系统计关联的文档关系抽取方法是一种有效的方法,通过结合深度学习和实体类型和关系类型统计关联建模的方法,构建更强大和智能的关系抽取模型,为实际应用中的文本分析、知识图谱构建等任务提供更准确和可靠的解决方案。


技术实现思路

1、本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术公开了基于实体关系统计关联的文档关系抽取方法。所述方法创新性地对每个实体与每种关系的统计关联进行计算,并作为先验知识引入深度学习模型中,实现了高精度的文档关系抽取。

2、本专利技术的目的是通过如下技术方案实现的,基于实体关系统计关联的文档关系抽取方法,所述方法包括:

3、步骤1,构建关系抽取模型,包括预训练语言模型和关系预测层;

4、步骤2,使用预训练语言模型编码文档,获得文档特征以及实体特征;

5、步骤3,对每个实体计算统计关系向量;

6、步骤4,把每对实体的实体特征和统计关系向量输入关系预测层,获得实体对的关系概率分布;

7、步骤5,计算关系分类损失函数,优化关系分类损失函数,训练关系抽取模型;

8、步骤6,使用关系抽取模型进行关系抽取。

9、所述的对每个实体计算统计关系向量,具体做法如下:

10、步骤301,对第i个实体计算头实体统计关系向量;表达式为:

11、

12、其中,表示第i个实体的头实体统计关系向量,c表示数据集预定义的关系类别数,表示的第k个元素,表示第i个实体的实体类型,表示训练集中头实体类型为的三元组个数,表示训练集中头实体类型为关系为第k类关系的三元组个数;

13、步骤302,对第i个实体计算尾实体统计关系向量;表达式为:

14、

15、其中,表示第i个实体的尾实体统计关系向量,c表示数据集预定义的关系类别数,表示的第k个元素,表示第i个实体的实体类型,表示训练集中尾实体类型为的三元组个数,表示训练集中尾实体类型为关系为第k类关系的三元组个数;

16、步骤303,把第i个实体的头实体统计关系向量和尾实体统计关系向量拼接起来,得到第i个实体的统计关系向量,表达式为:

17、

18、其中,表示第i个实体的统计关系向量,表示第i个实体的头实体统计关系向量,表示第i个实体的尾实体统计关系向量;

19、步骤304,计算所有实体的统计关系向量,表达式为:

20、

21、其中,表示所有实体的统计关系向量,u表示实体数量,表示第i个实体的统计关系向量。

22、所述的使用预训练语言模型编码文档,获得文档特征以及实体特征,包括以下步骤:

23、步骤201,将文档进行分词,并使用预训练的词嵌入模型对每个词进行编码,获得词的向量表示;文档为,词序列为,预训练的词嵌入模型为,表达式为:

24、

25、其中,是词嵌入序列,是词嵌入的维度,是文档中词汇的数量;

26、步骤202,将词嵌入序列输入到预训练语言模型roberta中进行编码,获得文档特征,roberta的编码函数表示为,表达式为:

27、

28、其中,是文档特征,是roberta的隐藏层维度,roberta的隐藏层维度与词嵌入的维度相等,表示第i个词的特征,至此,获得文档特征和文档中每个词的特征;

29、步骤203,计算实体特征;第个实体在文档中有个指称,其中第个指称是长度为的词序列为,词的特征表示为;

30、对于第个实体的第个指称,将其对应的词特征进行聚合,得到该指称的特征,表达式为:

31、

32、将第个实体的所有指称的特征取平均,得到第个实体的特征,表达式为:

33、

34、其中,为第个实体的特征;

35、所有实体特征的表达式为:

36、

37、其中,表示所有的实体特征,u表示实体数量。

38、所述的把每对实体的实体特征和统计关系向量输入关系预测层,获得实体对的关系概率分布,包括以下步骤:

39、把第i个实体和第j个实体的特征和统计关系向量输入关系预测层,得到第i个实体和第j个实体的关系概率分布,表达式为:

40、

41、其中,表示第i个实体和第j个实体的关系概率分布,,和是可学习参数,是激活函数,表示第i个实体的实体特征,表示第j个实体的实体特征,表示第i个实体的统计关系向量,表示第j个实体的统计关系向量;

42、把所有实体对的实体特征和统计关系向量输入关系预测层,计算所有实体对的关系概率分布。

43、所述的计算关系分类损失函数,优化关系分类损失函数,训练关系抽取模型,具体做法如下:

44、计算关系分类损失函数:

45、

46、其中,是关系分类损失函数,是实体的数量,c表示数据集预定义的关系类别数,是第i个实体和第j个实体是否具有第类关系的标签,是所述的第i个实体和第j个实体的关系概率分布的第k个元素;

47、使用优化算法对关系分类损失函数进行优化,训练关系抽取模型。

48、与现有方法相比,本专利技术方法的优点在于:本技术提供了基于实体关系统计关联的文档关系抽取方法。对于文档关系抽取,其天然存在着很强的统计先验知识,本专利技术创新性地对每个实体与每种关系的统计关联进行计算,并作为先验知识引入深度学习模型中,实现了高精度的文档关系抽取。

本文档来自技高网...

【技术保护点】

1.基于实体关系统计关联的文档关系抽取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于实体关系统计关联的文档关系抽取方法,其特征在于,所述的对每个实体计算统计关系向量,具体做法如下:

3.根据权利要求1所述的基于实体关系统计关联的文档关系抽取方法,其特征在于,所述的使用预训练语言模型编码文档,获得文档特征以及实体特征,包括以下步骤:

4.根据权利要求2和3任一所述的基于实体关系统计关联的文档关系抽取方法,其特征在于,所述的把每对实体的实体特征和统计关系向量输入关系预测层,获得实体对的关系概率分布,包括以下步骤:

5.根据权利要求4所述的基于实体关系统计关联的文档关系抽取方法,其特征在于,所述的计算关系分类损失函数,优化关系分类损失函数,训练关系抽取模型,具体做法如下:

6.根据权利要求1所述的基于实体关系统计关联的文档关系抽取方法,其特征在于,所述的预训练语言模型采用Roberta-large模型。

【技术特征摘要】

1.基于实体关系统计关联的文档关系抽取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于实体关系统计关联的文档关系抽取方法,其特征在于,所述的对每个实体计算统计关系向量,具体做法如下:

3.根据权利要求1所述的基于实体关系统计关联的文档关系抽取方法,其特征在于,所述的使用预训练语言模型编码文档,获得文档特征以及实体特征,包括以下步骤:

4.根据权利要求2和3任一所述的基于实体关系统计关联的文...

【专利技术属性】
技术研发人员:黄森黄双萍
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1