当前位置: 首页 > 专利查询>武汉大学专利>正文

一种面向实体关系抽取的数据标注规则发现方法及装置制造方法及图纸

技术编号:36537100 阅读:53 留言:0更新日期:2023-02-01 16:24
本发明专利技术公开了一种面向实体关系抽取的数据标注规则发现方法及装置,其中的方法定义了数据标注规则(PN规则)来表示正规则和负规则及其重要性分数。PN规则可以用于联合过滤错误匹配的句子,提高规则匹配精确度;设计了基于词

【技术实现步骤摘要】
一种面向实体关系抽取的数据标注规则发现方法及装置


[0001]本专利技术涉及实体关系抽取
,尤其涉及一种面向实体关系抽取的数据标注规则发现方法及装置。

技术介绍

[0002]实体关系抽取任务是对文本中的实体对之间的关系进行语义识别。在实体关系抽取任务中,深度学习模型在标注数据较少的情况下容易出现过拟合问题。因此,数据标注在实体关系抽取任务中发挥着重要作用。
[0003]面向实体关系抽取的数据标注指,为待标注句子分配关系标签。现有的数据标注方法通常分为两种,一种是通过专家手动定义规则,进行语料标注,如Snorkel。由于专家掌握的领域知识有限,手动定义的规则容易出现重复和覆盖不全面的问题。另一种是专家标注语料,自动挖掘规则。然而,由于自然语言具有模糊性和多义性,由错误匹配引起的规则低质量问题尚未得到很好的解决。例如Q.Li等提出的TruePIE利用正负规则分别来匹配正例和负例,并通过迭代机制来扩充规则集,但是该方法缺乏正负规则冲突的解决机制,导致规则匹配的精确率下降。W.Zhou等提出的NERO利用词嵌入方法计算规则和句子的相似度实现规则软匹配,提高规则匹配的召回率。然而它忽略了规则、词语和句子之间的语义关联,进而导致引入额外的错误匹配句子。
[0004]由此可知,现有技术中的方法存在数据标注精确率和召回率较低的技术问题。

技术实现思路

[0005]本专利技术提供了一种面向实体关系抽取的数据标注规则发现方法及装置,用以解决或者至少部分解决现有技术中存在的数据标注效果不佳(即数据标注精确率和召回率较低)的技术问题。
[0006]为了解决上述技术问题,本专利技术第一方面提供了一种面向实体关系抽取的数据标注规则发现方法,包括:
[0007]S1:将预设种子数据集划分为训练集和测试集;
[0008]S2:定义PN规则,基于定义的PN规则,对划分出的训练集采用频繁模式挖掘算法进行规则挖掘,构建规则集,其中,PN规则为由body,tag和I
t
(r
i
)构成的映射:r
i
.body

(r
i
.tag,I
t
(r
i
)),规则体body为p=[w,@sub

type,w,@obj

type,w]的文本模式序列,sub

type和obj

type分别代表主语和宾语的实体类型,w表示主语实体和宾语实体所在句子中的上下文词序列,标签tag表示规则的正负性,重要性分数I
t
(r
i
)用以确定规则的正负性;
[0009]S3:将规则集中包含的规则转换为正则表达式,利用转换后的规则对预设语料库的中句子进行模式匹配,得到与规则模式匹配成功的句子;
[0010]S4:基于规则集,构建基于词

句子语义关联图G(V,E)和建转移概率矩阵M,并基于语义相似概率导向的随机游走算法将规则对预设语料库中的句子进行语义匹配,得到与规则语义匹配成功的句子,其中词

句子语义关联图G(V,E)为一个无向简单图,V表示节点的
集合,E表示边的集合,E是V
×
V的子集,节点集合V=W
*

*
,W
*
表示从规则和候选句子中生成的词集,S
*
表示主语和宾语实体类型一致的句子所构成的候选句子集,转移概率矩阵中的元素为从一个节点随机游走到另一个节点的概率:
[0011]S5:在得到的与规则模式匹配成功的句子、与规则语义匹配成功的句子的基础上,利用冲突解决机制进行冲突消解,构建目标匹配句子集;
[0012]S6:基于训练集采用协同训练方法对两个机器学习模型(PC,SC)进行协同训练,得到训练好的两个分类模型,并利用训练好的两个分类模型对目标匹配句子集中的句子进行预测,得到预测结果,将预测结果加入至训练集中,预测结果分别为机器学习模型PC学习到的模式特征和机器学习模型SC学习到的语义特征;
[0013]S7:重复执行步骤S2~S6,当采用频繁模式挖掘算法无法挖掘出新规则,停止迭代,输出规则集和目标匹配句子集,其中,目标匹配句子集中包含的句子与其对应的标签为数据标注结果,数据标注结果能够作为实体关系抽取模型的训练集。
[0014]在一种实施方式中,步骤S2中的PN规则的重要性分数的计算方法为:
[0015][0016]其中,σ是归一化参数,为规则的可靠度,为规则频率,为规则冗余度;
[0017]规则的可靠度的计算方式为:
[0018][0019]表示规则r
i
在第t轮迭代中匹配到的真实标签为正的句子,表示规则r
i
在第t轮迭代中匹配到的真实标签为负的句子;和表示规则r
i
通过模式匹配和语义匹配得到的句子集,当时,该规则为正规则;当时,该规则为负规则,当说明该规则在第t轮无效;
[0020]规则频率计算方式为:
[0021][0022]和表示第t轮迭代中r
i
模式匹配和语义匹配到的且真实标签与r
i
.tag一致的句子集,表示在第t轮迭代中PN
t
匹配到的且真实标签与r
i
.tag一致的句子集;
[0023]规则冗余度计算方式为:
[0024][0025]其中,表示在第t轮迭代中被规则r
i
和相同tag的规则重复匹配到的句
子集合,规则冗余度越高,该规则所含的有用信息越少;
[0026]标签的计算方式为:
[0027][0028]当r
i
.tag=1时,该规则被视为正规则,记作此时该规则匹配正例;当r
i
.tag=

1时,该规则被视为负规则,计作此时该规则匹配负例;当r
i
.tag=0时,该规则被视为无效规则。
[0029]在一种实施方式中,对划分出的训练集采用频繁模式挖掘算法进行规则挖掘,包括:
[0030]在训练集中利用实体遮盖方法,将主语实体e
sub
和宾语实体e
obj
替换为各自所对应的实体类型,利用频繁序列挖掘算法生成规则集PN
t
,基于训练集计算规则集中包含的规则的重要性分数。
[0031]在一种实施方式中,步骤S3中利用转换后的规则对预设语料库的中句子进行模式匹配,包括:
[0032]将预设语料库的中的每一个句子与规则集中的每一条规则进行匹配,判断句子的主语实体类型与规则的主语实体类型是否相同、句子的宾语的实体类型与规则的宾语实体类型是否相同以及规则的主语实体和宾语实体所在句子中的上下文词序列是否为句子的主语实体和宾语实体所在句子中的上下文词序列的子序列,如本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向实体关系抽取的数据标注规则发现方法,其特征在于,包括:S1:将预设种子数据集划分为训练集和测试集;S2:定义PN规则,基于定义的PN规则,对划分出的训练集采用频繁模式挖掘算法进行规则挖掘,构建规则集,其中,PN规则为由body,tag和I
t
(r
i
)构成的映射:r
i
.body

(r
i
.tag,I
t
(r
i
)),规则体body为p=[w,@sub

type,w,@obj

type,w]的文本模式序列,sub

type和obj

type分别代表主语和宾语的实体类型,w表示主语实体和宾语实体所在句子中的上下文词序列,标签tag表示规则的正负性,重要性分数I
t
(r
i
)用以确定规则的正负性;S3:将规则集中包含的规则转换为正则表达式,利用转换后的规则对预设语料库的中句子进行模式匹配,得到与规则模式匹配成功的句子;S4:基于规则集,构建基于词

句子语义关联图G(V,E)和建转移概率矩阵M,并基于语义相似概率导向的随机游走算法将规则对预设语料库中的句子进行语义匹配,得到与规则语义匹配成功的句子,其中词

句子语义关联图G(V,E)为一个无向简单图,V表示节点的集合,E表示边的集合,E是V
×
V的子集,节点集合V=W
*
∪S
*
,W
*
表示从规则和候选句子中生成的词集,S
*
表示主语和宾语实体类型一致的句子所构成的候选句子集,转移概率矩阵中的元素为从一个节点随机游走到另一个节点的概率:S5:在得到的与规则模式匹配成功的句子、与规则语义匹配成功的句子的基础上,利用冲突解决机制进行冲突消解,构建目标匹配句子集;S6:基于训练集采用协同训练方法对两个机器学习模型(PC,SC)进行协同训练,得到训练好的两个分类模型,并利用训练好的两个分类模型对目标匹配句子集中的句子进行预测,得到预测结果,将预测结果加入至训练集中,预测结果分别为机器学习模型PC学习到的模式特征和机器学习模型SC学习到的语义特征;S7:重复执行步骤S2~S6,当采用频繁模式挖掘算法无法挖掘出新规则,停止迭代,输出规则集和目标匹配句子集,其中,目标匹配句子集中包含的句子与其对应的标签为数据标注结果,数据标注结果能够作为实体关系抽取模型的训练集。2.如权利要求1所述的面向实体关系抽取的数据标注规则发现方法,其特征在于,步骤S2中的PN规则的重要性分数的计算方法为:其中,σ是归一化参数,为规则的可靠度,为规则频率,为规则冗余度;规则的可靠度的计算方式为:规则的可靠度的计算方式为:表示规则r
i
在第t轮迭代中匹配到的真实标签为正的句子,表示规则r
i
在第t轮迭代中匹配到的真实标签为负的句子;和表示规则r
i
通过模式匹配和语义匹配得到的句子集,当时,该规则为正规则;当时,该规则为负规则,当说明该规则在第t轮无效;规则频率计算方式为:
和表示第t轮迭代中r
i
模式匹配和语义匹配到的且真实标签与r
i
.tag一致的句子集,表示在第t轮迭代中PN
t
匹配到的且真实标签与r
i
.tag一致的句子集;规则冗余度计算方式为:其中,表示在第t轮迭代中被规则r
i
和相同tag的规则重复匹配到的句子集合,规则冗余度越高,该规则所含的有用信息越少;标签的计算方式为:当r
i
.tag=1时,该规则被视为正规则,记作此时该规则匹配正例;当r
i
.tag=

1时,该规则被视为负规则,计作此时该规则匹配负例;当r
i
.tag=0时,该规则被视为无效规则。3.如权利要求1所述的面向实体关系抽取的数据标注规则发现方法,其特征在于,对划分出的训练集采用频繁模式挖掘算法进行规则挖掘,包括:在训练集中利用实体遮盖方法,将主语实体e
sub
和宾语实体e
obj
替换为各自所对应的实体类型,利用频繁序列挖掘算法生成规则集PN
t
,基于训练集计算规则集中包含的规则的重要性分数。4.如权利要求1所述的面向实体关系抽取的数据标注规则发现方法,其特征在于,步骤S3中利用转换后的规则对预设语料库的中句子进行模式匹配,包括:将预设语料库的中的每一个句子与规则集中的每一条规则进行匹配,判断句子的主语实体类型与规则的主语实体类型是否相同、句子的宾语的实体类型与规则的宾语实体类型是否相同以及规则的主语实体和宾语实体所在句子中的上下文词序列是否为句子的主语实体和宾语实体所在句子中的上下文词序列的子序列,如果三者都满足,则表示句子与规则集中的规则模式匹配成功,判断条件的形式化表达为s
j
.sub

type=r
i
.sub

type&s
j
.obj

type=r
i
.obj

type&s
j
被r
i
模式匹配成功,s
j
为预设语料库中的第j条句子,r
i
为规则集中的第i条规则。5.如权利要求1所述的面向实体关系抽取的数据标注规则发现方法,其特征在于,S4中词

句子语义关联图G(V,E)是由语义关联矩阵A构成,表示为A∈R
|V|
×
|V|
,a
mn
表示节点v
m
和节点v
n
之间的语义关联,其中v
m
,v
n
∈V,a
ij
数值为两个节点间的包含关系或语义相似度,具体计算方式如下:
若v
m
,v
n
∈W
*
或v
m
,v
n
∈S
*
,使用sim(m,n)函数计算二者间的语义相似度;若v
m
∈W
*
且v
n
∈S
*
,使用contain(m,n)表示二者的包含关系,当v
n
包含v
m
时,contain(m,n)=1;否则,contain(m,n)=0;转移概率矩阵为M=(P
mn
)
m,n∈V
,其中P
mn
表示在下一步中,从节点v
m
随机游走到节点v
n
的概率:给定一个节点v
m
开始的随机游走器,随机游走规则为:P
m
...

【专利技术属性】
技术研发人员:洪亮侯雯君徐豪帅
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1