当前位置: 首页 > 专利查询>上海大学专利>正文

一种基于相关系数熵的单示例单标签远程监督实体关系标注方法技术

技术编号:27491326 阅读:19 留言:0更新日期:2021-03-02 18:10
本发明专利技术公开了一种基于相关系数熵的单示例单标签远程监督实体关系标注方法,具体步骤包括:(1)基于标准数据集构造实体关系库和示例库;(2)利用BERT构造关系向量库和示例向量库;(3)计算示例的词与关系的相关系数,构造相关系数库;(4)计算基于相关系数的示例与关系的熵,构造相关系数熵库;(5)基于相关系数库和示例向量库构造相关系数向量库;(6)基于相关系数熵库和相关系数向量库构造相关系数熵向量库;(7)计算相关系数熵向量和关系向量的余弦相似度得到相似分数值;(8)遍历相似分数值,选取最高分数作标注决策。本发明专利技术所述方法通过相关系数熵进行单示例单标签实体关系标注,能够提高标注准确性并减少噪音数据。够提高标注准确性并减少噪音数据。够提高标注准确性并减少噪音数据。

【技术实现步骤摘要】
一种基于相关系数熵的单示例单标签远程监督实体关系标注方法


[0001]本专利技术涉及一种自然语言处理技术中的实体关系标注方法,具体涉及一种基于相关系数熵的单示例单标签远程监督实体关系标注方法。

技术介绍

[0002]当面对大量无标签数据时,有监督的方法需要消耗大量的人力,无法满足需求,因此,基于远程监督的数据标注方法应运而生。2009年,Mintz首次提出将远程监督方法应用到关系抽取任务中,即通过数据自动对齐远程知识库来实现开放域中大量无标签数据的自动标注。但用远程监督进行数据标注时,仍存在两个非常严峻的问题:由于远程监督的强假设条件,导致大量关系数据被错误标记,从而导致训练数据存在大量噪声问题;以及利用NLP工具进行特征提取所带来的特征提取误差传播问题。其中,针对噪声问题,2010年Surdeanu提出了多示例多标签学习方法以及2016年Lin提出了Attention机制等,都有效减弱了远程监督错误标签对关系抽取的影响。但基于多示例多标签学习方法所标注的数据,后续模型仍需要花费大量精力处理训练数据的噪音,Attention机制则在多示例多标签标注的数据基础之上,通过权重来减少训练数据噪声的影响,但需要花费大量的时间进行训练,从而得到一个相对最优的权重状态。

技术实现思路

[0003]为了解决对传统的远程监督由于强假设条件导致训练数据存在大量噪声的问题,本专利技术的目的在于克服已有技术存在的不足,提供一种基于相关系数熵的单示例单标签远程监督实体关系标注方法,通过相关系数熵进行单示例单标签实体关系标注,能够提高标注准确性并减少噪音数据。
[0004]为达到上述专利技术创造目的,本专利技术采用如下技术方案:
[0005]一种基于相关系数熵的单示例单标签远程监督实体关系标注方法,包括以下步骤:
[0006](1)基于标准数据集,构造实体关系库L(labels)和示例库S(Sentences);
[0007](2)利用BERT构造关系向量库Er和示例向量库Esw;
[0008](3)计算示例的词与关系的相关系数,构造相关系数库
[0009]RWCC(Relations and Words Correlation Coefficientbase);
[0010](4)计算基于相关系数的示例与关系的熵,构造相关系数熵库
[0011]CCE(Correlation Coefficient Entropy base);
[0012](5)基于相关系数库和示例向量库,构造相关系数向量库
[0013]CCV(Correlation Coefficient Vectors base),作为局部关联表示;
[0014](6)基于相关系数熵库和相关系数向量库,构造相关系数熵向量库
[0015]CCEV(Correlation Coefficient Entropy Vectors),作为全局关联表示;
[0016](7)计算相关系数熵向量和关系向量的余弦相似度得到相似分数值;
[0017](8)遍历相似分数值,选取最高分数作标注决策。
[0018]优选地,在所述步骤(1)中,获取公开数据库Freebase和NYT,根据Freebase中的数据,构造实体对关系库ERB(Entity Relation Base),ERB中每条数据的结构为r
k
(e
i
,e
j
),其中r
k
为ERB中的第k种关系,(e
i
,e
j
)为具有关系r
k
的第i个实体和第j个实体所构成的实体对;
[0019]每个实体对都可以对应多种关系,而本专利技术目的是为包含某个实体对的示例句子,标注出实体对在示例中所具有的关系,即给单个示例标注上单个关系标签;
[0020]由于每个实体对所对应的实体关系标注方法相同,后续为了方法描述方便,本专利技术以ERB中包含实体对(e1,e2)的所有数据构成的实体关系库为例;
[0021]记实体对关系库ERB中包含(e1,e2)的所有数据构成的实体关系库为L,L={r1(e1,e2),r2(e1,e2),......,r
k
(e1,e2)},其中r
k
为第k种关系,(e1,e2)为实体对,
[0022]在NYT中进行实体对(e1,e2)链接和对齐,获得NYT中包含实体对(e1,e2)的所有句子所构成的示例库,记为S,S={s1,s2,......,s
n
},其中s
n
为示例库S中第n条示例句子。
[0023]优选地,在所述步骤(2)中,BERT构造关系向量库Er和示例向量库Esw,构建方法为:
[0024]通过BERT词向量对实体关系库L中的关系进行词嵌入编码并平均,得到关系向量库Er(Embedding of relations),Er={e
r1
,e
r2
,......,e
rk
},其中,e
rk
表示实体关系库中第k种关系的词嵌入表示,维度为300维;
[0025]通过BERT词向量对示例库S中的所有示例句子按词进行词嵌入编码得到示例向量库Esw(Embedding of sentence

s words),
[0026]其中,表示示例库S中第n条示例s
n
的第j个词wj的嵌入表示,维度为300维。
[0027]优选地,在所述步骤(3)中,计算示例的词与关系的相关系数,构造相关系数库RWCC(Relations and Words Correlation Coefficient base),构建方法为:
[0028]以示例向量库中第n条示例s
n
的第j个词w
j
的嵌入表示与实体关系库中第k种关系的词嵌入表示e
rk
的相关系数计算如下:
[0029]计算相关系数公式:
[0030]其中:Y=e
rk
,E(X)为X的数学期望,D(X)是X的方差,a
XY
为X和Y之间的相关系数;相关系数是衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1];相关系数的绝对值越大,则表明X与Y相关度越高;
[0031]同理依次计算示例向量库Esw中的句子的词与关系向量库Er中的关系之间的相关系数,得到相关系数库RWCC:
[0032][0033]其中,表示示例库中的第n个示例句子s
n
的第j个词w
j
与关系向量库中的第k种关系r
k
之间的相关系数;捕获待标注示例和目标关系之间的局部关联信息。
[0034]优选地,在所述步骤(4)中,计算基于相关系数的示例与关系的熵,构造相关系数熵库CCE(Correlatio本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于相关系数熵的单示例单标签远程监督实体关系标注方法,其特征在于,包括以下步骤:(1)基于标准数据集,构造实体关系库L(labels)和示例库S(Sentences);(2)利用BERT构造关系向量库Er和示例向量库Esw;(3)计算示例的词与关系的相关系数,构造相关系数库RWCC(Relations and Words Correlation Coefficient base);(4)计算基于相关系数的示例与关系的熵,构造相关系数熵库CCE(Correlation Coefficient Entropy base);(5)基于相关系数库和示例向量库,构造相关系数向量库CCV(Correlation Coefficient Vectors base),作为局部关联表示;(6)基于相关系数熵库和相关系数向量库,构造相关系数熵向量库CCEV(Correlation Coefficient Entropy Vectors),作为全局关联表示;(7)计算相关系数熵向量和关系向量的余弦相似度得到相似分数值;(8)遍历相似分数值,选取最高分数作标注决策。2.按权利要求1所述基于相关系数熵的单示例单标签远程监督实体关系标注方法,其特征在于,所述步骤(2)中,BERT构造关系向量库Er和示例向量库Esw,构建方法为:通过BERT词向量对实体关系库L中的关系进行词嵌入编码并平均,得到关系向量库Er(Embedding of relations),Er={e
r1
,e
r2
,......,e
rk
},其中,e
rk
表示实体关系库中第k种关系的词嵌入表示,维度为300维;通过BERT词向量对示例库S中的所有示例句子按词进行词嵌入编码得到示例向量库Esw(Embedding of sentence s words),其中,表示示例库s中第n条示例s
n
的第j个词wj的嵌入表示,维度为300维。3.按权利要求1所述基于相关系数熵的单示例单标签远程监督实体关系标注方法,其特征在于,所述步骤(3)中,计算示例的词与关系的相关系数,构造相关系数库RWCC(Relations and Words Correlation Coefficient base),构建方法为:以示例向量库中第n条示例s
n
的第j个词wj的嵌入表示与实体关系库中第k种关系的词嵌入表示e
rk
的相关系数计算如下:计算相关系数公式:其中:Y=e
rk
,E(X)为X的数学期望,D(X)是X的方差,a
XY
为X和Y之间的相关系数;相关系数是衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1];相关系数的绝对值越大,则表明X与Y相关度越高;同理依次计算示例向量库Esw中的句子的词与关系向量库Er中的关系之间的相关系数,得到相关系数库RWCC:
其中,表示示例库中的第n个示例句子s
...

【专利技术属性】
技术研发人员:骆祥峰顾河建陈雪斯龙军
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1