一种基于相关系数熵的单示例单标签远程监督实体关系标注方法技术

技术编号：27491326 阅读：19 留言：0更新日期：2021-03-02 18:10

本发明专利技术公开了一种基于相关系数熵的单示例单标签远程监督实体关系标注方法，具体步骤包括：(1)基于标准数据集构造实体关系库和示例库；(2)利用BERT构造关系向量库和示例向量库；(3)计算示例的词与关系的相关系数，构造相关系数库；(4)计算基于相关系数的示例与关系的熵，构造相关系数熵库；(5)基于相关系数库和示例向量库构造相关系数向量库；(6)基于相关系数熵库和相关系数向量库构造相关系数熵向量库；(7)计算相关系数熵向量和关系向量的余弦相似度得到相似分数值；(8)遍历相似分数值，选取最高分数作标注决策。本发明专利技术所述方法通过相关系数熵进行单示例单标签实体关系标注，能够提高标注准确性并减少噪音数据。够提高标注准确性并减少噪音数据。够提高标注准确性并减少噪音数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于相关系数熵的单示例单标签远程监督实体关系标注方法

[0001]本专利技术涉及一种自然语言处理技术中的实体关系标注方法，具体涉及一种基于相关系数熵的单示例单标签远程监督实体关系标注方法。

技术介绍

[0002]当面对大量无标签数据时，有监督的方法需要消耗大量的人力，无法满足需求，因此，基于远程监督的数据标注方法应运而生。2009年，Mintz首次提出将远程监督方法应用到关系抽取任务中，即通过数据自动对齐远程知识库来实现开放域中大量无标签数据的自动标注。但用远程监督进行数据标注时，仍存在两个非常严峻的问题：由于远程监督的强假设条件，导致大量关系数据被错误标记，从而导致训练数据存在大量噪声问题；以及利用NLP工具进行特征提取所带来的特征提取误差传播问题。其中，针对噪声问题，2010年Surdeanu提出了多示例多标签学习方法以及2016年Lin提出了Attention机制等，都有效减弱了远程监督错误标签对关系抽取的影响。但基于多示例多标签学习方法所标注的数据，后续模型仍需要花费大量精力处理训练数据的噪音，Attention机制则在多示例多标签标注的数据基础之上，通过权重来减少训练数据噪声的影响，但需要花费大量的时间进行训练，从而得到一个相对最优的权重状态。

技术实现思路

[0003]为了解决对传统的远程监督由于强假设条件导致训练数据存在大量噪声的问题，本专利技术的目的在于克服已有技术存在的不足，提供一种基于相关系数熵的单示例单标签远程监督实体关系标注方法，通过相关系数熵进行单示例单标签实体关系标注，...

【技术保护点】

【技术特征摘要】
1.一种基于相关系数熵的单示例单标签远程监督实体关系标注方法，其特征在于，包括以下步骤：(1)基于标准数据集，构造实体关系库L(labels)和示例库S(Sentences)；(2)利用BERT构造关系向量库Er和示例向量库Esw；(3)计算示例的词与关系的相关系数，构造相关系数库RWCC(Relations and Words Correlation Coefficient base)；(4)计算基于相关系数的示例与关系的熵，构造相关系数熵库CCE(Correlation Coefficient Entropy base)；(5)基于相关系数库和示例向量库，构造相关系数向量库CCV(Correlation Coefficient Vectors base)，作为局部关联表示；(6)基于相关系数熵库和相关系数向量库，构造相关系数熵向量库CCEV(Correlation Coefficient Entropy Vectors)，作为全局关联表示；(7)计算相关系数熵向量和关系向量的余弦相似度得到相似分数值；(8)遍历相似分数值，选取最高分数作标注决策。2.按权利要求1所述基于相关系数熵的单示例单标签远程监督实体关系标注方法，其特征在于，所述步骤(2)中，BERT构造关系向量库Er和示例向量库Esw，构建方法为：通过BERT词向量对实体关系库L中的关系进行词嵌入编码并平均，得到关系向量库Er(Embedding of relations)，Er＝{e
r1
，e
r2
，......，e
rk
}，其中，e
rk
表示实体关系库中第k种关系的词嵌入表示，维度为300维；通过BERT词向量对示例库S中的所有示例句子按词进行词嵌入编码得到示例向量库Esw(Embedding of sentence s words)，其中，表示示例库s中第n条示例s
n
的第j个词wj的嵌入表示，维度为300维。3.按权利要求1所述基于相关系数熵的单示例单标签远程监督实体关系标注方法，其特征在于，所述步骤(3)中，计算示例的词与关系的相关系数，构造相关系数库RWCC(Relations and Words Correlation Coefficient base)，构建方法为：以示例向量库中第n条示例s
n
的第j个词wj的嵌入表示与实体关系库中第k种关系的词嵌入表示e
rk
的相关系数计算如下：计算相关系数公式：其中：Y＝e
rk
，E(X)为X的数学期望，D(X)是X的方差，a
XY
为X和Y之间的相关系数；相关系数是衡量随机变量X与Y相关程度的一种方法，相关系数的取值范围是[-1，1]；相关系数的绝对值越大，则表明X与Y相关度越高；同理依次计算示例向量库Esw中的句子的词与关系向量库Er中的关系之间的相关系数，得到相关系数库RWCC：
其中，表示示例库中的第n个示例句子s
...

【专利技术属性】
技术研发人员：骆祥峰，顾河建，陈雪，斯龙军，
申请(专利权)人：上海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人