一种针对于不平衡样本的实体关系提取方法及系统技术方案

技术编号：40962240 阅读：2 留言：0更新日期：2024-04-18 20:41

本发明专利技术公开了一种针对于不平衡样本的实体关系提取方法及系统，该方法包括：构建实体关系提取框架；所述实体关系提取框架包括编码层、实体边界预测模块、实体分类模块和关系分类模块；基于带标记的句子对所述实体关系提取框架进行训练，得到训练完成的实体关系提取框架；将训练完成的实体关系提取框架应用于待测数据。该系统包括：框架构建单元、训练单元和应用单元。通过使用本发明专利技术，能够处理数据不平衡和硬负样本的问题，进而提高实体关系提取的准确度。本发明专利技术可广泛应用于数据分析领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据分析领域，尤其涉及一种针对于不平衡样本的实体关系提取方法及系统。

技术介绍

1、知识提取包含两项任务，一项为命名实体识别，即识别实体和对其类型进行分类；另一项则为关系提取，即对任意两个实体之间的关系进行分类。为探究命名实体识别和关系提取之间的关系，在大部分基于序列标记的联合实体和关系提取方法中都会将两者一起训练。不过，这些方法都存在实体识别的重叠，破坏了模型的标签方案，同时，削弱了他们提取正确知识的能力。所以，为解决以上问题，近年有关重叠实体中的各种不同的领域特定知识主要通过基于跨度的联合方法来提取。

2、基于跨度的提取方法采用了大量的非实体跨度来加快实体分类的训练进程，其中将实体跨度作为正样本，非实体跨度作为负样本。然而，现存的基于跨度的联合提取方法主要聚焦于在实体分类中获取更加全面的跨度嵌入，并没有很好的解决数据不平衡以及硬负样本的问题，进而导致了知识提取中错误的实体和关系分类。

技术实现思路

1、有鉴于此，为了解决现有实体关系提取方法中没有针对数据不平衡进行设置，进而导致了知识提取中错误的实体和关系分类的技术问题，本专利技术提出一种针对于不平衡样本的实体关系提取方法，所述方法包括以下步骤：

2、构建实体关系提取框架；

3、所述实体关系提取框架包括编码层、实体边界预测模块、实体分类模块和关系分类模块；

4、基于带标记的句子对所述实体关系提取框架进行训练，得到训练完成的实体关系提取框架；

5、将训练完成

6、其中，该框架不仅提供了二元边界预测器学习正样本边界，并提供了自步学习和跨级对比学习的学习策略，以平衡数据分布和区分硬负样本。

7、在一些实施例中，所述基于带标记的句子对所述实体关系提取框架进行训练这一步骤，其具体包括：

8、将带标记的句子输入至所述实体关系提取框架；

9、基于所述编码层学习标记嵌入；

10、基于所述实体边界预测模块学习实体边界；

11、基于所述实体分类模块对实体识别和类别识别进行学习；

12、基于所述关系分类模块对关系提取和关系分类进行学习；

13、构建所述编码层、所述实体边界预测模块、所述实体分类模块和所述关系分类模块的损失总和用于训练。

14、在一些实施例中，所述编码层包括第一编码器和第二编码器，所述基于所述编码层学习标记嵌入，其具体包括：

15、基于第一编码器对句子上下文中的语义信息进行编码，得到第一标记序列；

16、基于第二编码器对句子上下文中的句法信息进行编码，得到第二标记序列；

17、对第一标记序列和第二标记序列进行拼接，得到最终的嵌入序列。

18、本实施例中，编码层主要用于收集双编码器的语义信息和句法信息。

19、在一些实施例中，所述基于所述实体边界预测模块学习实体边界这一步骤，其具体包括：

20、对于最终的嵌入序列，所述实体边界预测模块通过双边界预测器学习实体边界；

21、所述双边界预测器通过前馈神经网络和softmax激活函数计算标记级概率，并预测标记是实体边界的可能性。

22、本实施例中，实体边界预测模块可以通过双边界预测器独立地学习实体的边界，从而帮助实体分类模块的跨度分类器区分正负样本。计算的标记级概率表示是否属于某种实体的概率，帮助实体分类模块的跨度分类器区分正负样本。

23、在一些实施例中，所述实体分类模块设有跨度分类器，所述基于所述实体分类模块对实体识别和类别识别进行学习这一步骤，其具体包括：

24、基于句子上下文嵌入、跨度上下文嵌入和跨度宽度嵌入构建跨度嵌入；

25、跨度分类器利用跨度嵌入识别实体并分类实体；

26、在训练过程的前半部分，跨度分类器自步学习负样本；

27、在整个训练过程，应用跨度级对比文学习训练跨度分类器。

28、其中，对于一个可能的跨度s，跨度嵌入由三个部分(句子上下文嵌入，跨度上下文嵌入和跨度宽度嵌入)。

29、在一些实施例中，所述跨度分类器自步学习负样本的过程，具体如下：

30、在自步学习的训练阶段，负样本数量随着速度参数的增加而逐渐增加，正样本数保持不变；

31、计算负样本的jaccard相似系数并依据jaccard相似系数进行排序，得到排序结果；

32、根据所述排序结果学习负样本。

33、本实施例中，为减少句子中的不平衡问题，跨度分类器会一直保持对所有正样本的学习，而从易到难的自步学习负样本。

34、在一些实施例中，所述应用跨度级对比文学习训练跨度分类器的过程，具体如下：

35、将所有负样本的跨度嵌入一并存放，并与正样本的跨度嵌入分离，计算负样本的损失；

36、将正样本的跨度嵌入按照类别进行调整，计算正样本的损失；

37、结合所述负样本的损失和所述正样本的损失训练跨度分类器。

38、本实施例中，为了更好地区分一个句子中的正样本和硬负样本，在整个训练周期用跨度级对比学习训练跨度分类器。在整个训练周期的前半部分，自步学习被整合到跨度级对比学习中，并被整合到对正样本和负样本的自步学习鉴别跨度嵌入中。

39、在一些实施例中，述基于所述关系分类模块对关系提取和关系分类进行学习这一步骤，其具体包括：

40、对于两个已识别的实体，捕获共享上下文特征，形成上下文嵌入；

41、基于上下文嵌入，所述关系分类模块通过具有sigmoid函数的前馈神经网络计算实体对应的两个关系概率；

42、基于二进制交叉熵优化的损失函数训练所述关系分类模块。

43、本关系分类模块中，对于一个句子，当关系分类器提取任意两个已识别的实体跨度(sei→ej∈se和sej→ei∈se)之间的关系时，对实体分类器中分类的非实体跨度进行过滤。se是包含实体分类器中所有已识别的实体跨度对的集合。

44、本专利技术还提出了一种针对于不平衡样本的实体关系提取系统，所述系统包括：

45、框架构建单元，用于构建实体关系提取框架；所述实体关系提取框架包括编码层、实体边界预测模块、实体分类模块和关系分类模块；

46、训练单元，基于带标记的句子对所述实体关系提取框架进行训练，得到训练完成的实体关系提取框架；

47、应用单元，将训练完成的实体关系提取框架应用于待测数据。

48、基于上述方案，本专利技术提供了一种针对于不平衡样本的实体关系提取方法及系统，提出了一种新的联合实体和关系提取框架(jeref)，在整个训练阶段的前半段自定节奏学习负样本，旨在处理数据不平衡问题；在整个训练阶段，将跨度级对比学习整合到jeref中，以处理硬负样本问题；同时，为了帮助区分命名实体识别(ner)中的正样本和负样本，为学本文档来自技高网...

【技术保护点】

1.一种针对于不平衡样本的实体关系提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种针对于不平衡样本的实体关系提取方法，其特征在于，所述基于带标记的句子对所述实体关系提取框架进行训练这一步骤，其具体包括：

3.根据权利要求2所述一种针对于不平衡样本的实体关系提取方法，其特征在于，所述编码层包括第一编码器和第二编码器，所述基于所述编码层学习标记嵌入，其具体包括：

4.根据权利要求3所述一种针对于不平衡样本的实体关系提取方法，其特征在于，所述基于所述实体边界预测模块学习实体边界这一步骤，其具体包括：

5.根据权利要求4所述一种针对于不平衡样本的实体关系提取方法，其特征在于，所述实体分类模块设有跨度分类器，所述基于所述实体分类模块对实体识别和类别识别进行学习这一步骤，其具体包括：

6.根据权利要求5所述一种针对于不平衡样本的实体关系提取方法，其特征在于，所述跨度分类器自步学习负样本的过程，具体如下：

7.根据权利要求6所述一种针对于不平衡样本的实体关系提取方法，其特征在于，所述应用跨度级对比文学习训练

8.根据权利要求7所述一种针对于不平衡样本的实体关系提取方法，其特征在于，所述基于所述关系分类模块对关系提取和关系分类进行学习这一步骤，其具体包括：

9.一种针对于不平衡样本的实体关系提取系统，其特征在于，包括：

...

【技术特征摘要】

1.一种针对于不平衡样本的实体关系提取方法，其特征在于，包括以下步骤：

4.根据权利要求3所述一种针对于不平衡样本的实体关系提取方法，其特征在于，所述基于所述实体边界预测模块学习实体边界这一步骤，其具体包括：

5.根据权利要求4所述一种针对于不平衡样本的实体关系提取方法，其特...

【专利技术属性】
技术研发人员：阳爱民，曾美谕，林楠铠，张鸿彬，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人