一种基于事后验证的证据句去噪方法技术

技术编号:37858059 阅读:11 留言:0更新日期:2023-06-15 20:48
本发明专利技术涉及一种基于事后验证的证据句去噪方法,属于自然语言处理中的机器阅读理解技术领域。首先采用静态词向量为训练集进行伪证据标注,为标注数据训练模型,包括答案分类与证据句跨度预测,保存最优模型。根据最优模型预测获取候选证据列表。根据最优模型,对预测证据进行去噪。根据候选证据分数对候选证据进行重排,按要求选择最大分数候选证据作为最终证据句,重新评价后得到新证据准确率和总准确率,将它们与原准确率进行比较,衡量方法的有效性。本发明专利技术能够以小成本为模型进行证据去噪,在得到很好的效果的同时,还可应用于各种包含证据抽取任务的工作中。包含证据抽取任务的工作中。包含证据抽取任务的工作中。

【技术实现步骤摘要】
一种基于事后验证的证据句去噪方法


[0001]本专利技术涉及一种为证据句预测去除噪声的方法,属于自然语言处理中的机器阅读理解


技术介绍

[0002]近年来,随着深度神经网络模型的提出,机器阅读理解技术取得了明显的进步,被广泛应用于文本问答、信息抽取和机器翻译等多个方面,并且在某些任务上取得了超过人类的表现。
[0003]与此同时,深度模型的不透明性随着它们的参数与层数增加而增长,这促使人们努力解释这些“黑匣子”模型是如何工作的。因此,为了解释“这些模型是怎么选出正确答案的”和“正确答案是否是根据正确的依据选出的”等问题,一些工作采用手动标注文章中的证据句,以便让模型在预测正确答案的同时,也对其对应的证据句做出预测。
[0004]在机器阅读理解中,达成此目标的通用方法是使用同一模型同时进行答案预测与证据预测。但是,因为训练集与测试集的固有数据差异性会导致根据训练集训练的模型不能为测试集提供完全正确的证据预测,会出现答案预测准确但是证据预测错误的情况。此外,由于人工标注数据代价昂贵,特别是多选阅读理解中使用大部分伪证据标注数据进行训练,同一模型在答案预测和证据预测两个任务中会出现相当的差异。
[0005]这对模型预测的证据句根据答案预测进行去噪为目前进一步改善模型性能提供了可能。

技术实现思路

[0006]本专利技术的目的是针对多选阅读理解中训练集与测试集固有数据差异和使用伪标注数据,导致证据预测出现噪声的技术问题,为实现对预测的证据去噪,进一步提升性能,创造性地提出了一种基于事后验证的证据句去噪方法。
[0007]本专利技术的创新点在于:使用事后验证方法对预测证据句进行去噪,充分利用模型的语义理解能力,根据句子对答案的支持程度实现对证据句的重排,并能够根据提升效果的幅度来评估证据句的选择。
[0008]本专利技术采用以下技术方案实现。
[0009]首先,对有关概念进行说明:
[0010]文章序列d,d={w1,w2,

,w
N
},表示阅读理解中的文章,该文章中有N个单词w1,w2,...,w
N
,下标N为序列长度,w代表单词。
[0011]句子序列s,表示文章内的第i个句子,该句中有K
i
个单词下标K
i
为序列长度,w代表单词。
[0012]问题序列q,q={w1,w2,

,w
M
},表示文章对应的问题,该问题有M个单词w1,w2,...,w
M
,下标M为序列长度,w代表单词。
[0013]答案序列a,表示问题对应的候选答案序列,a
j
表示第j个候选答案,共L
j
个单词下标为L
j
序列长度,w代表单词。
[0014]事后验证,是在自然语言处理的答案修正领域的一种方法,对模型得到的答案进行改正。首先训练一个模型得到所需答案预测,然后根据再训练等方法进行答案的改进。
[0015]证据句,用来解释文章从何处支持答案的描述,表示答案在文章里的依据。通常是文章中一句或多句话,证明答案的准确性,用来研究模型的可解释性。
[0016]一种基于事后验证的证据句去噪方法,包括以下步骤:
[0017]步骤1:采用静态词向量(Chinese Word Vectors)为训练集进行伪证据标注。
[0018]具体地,将文章序列d中每个句子序列s
i
使用静态词向量表示平均后,得到句子一维向量s
i,vec
;对问题序列q和正确答案a
*
拼接后的新序列进行向量表示和平均后,得到一维向量qa
vec
。将s
i,vec
与qa
vec
进行余弦相似度计算,得到当前句子分数v
si
,选择具有最大分数句子作为证据句。
[0019]步骤2:为标注数据训练模型,包括答案分类与证据句跨度预测,保存最优模型M0。
[0020]具体地,将文章序列d、问题序列q和每个候选答案a
j
进行拼接得到j个新序列t,输入至预训练模型(如chinese

macbert

base模型)中,得到U={u1,u2,

,u
j
},u
j
表示每个字符/标记的向量表示,使用一个线性层作为顶层分类器进行答案分类,损失函数为交叉熵损失,其中,分类器预测方式如下:
[0021]p
j
=softmax(W
T
×
U0)
[0022]其中,p
j
表示对问题的描述候选答案正确的概率,上标j表示多分类;U表示新序列t输入到模型后得到的融合上下文信息的向量表示,下标0表示每个序列预训练模型cls标签对应的一维向量表示;W表示计算多分类概率值的权重矩阵,T表示矩阵转置。
[0023]然后,对U进行平均得到u
avg
,使用两个线性层进行证据句跨度预测,损失函数为交叉熵损失,分类器预测方式如下:
[0024][0025][0026]其中,p
s
、p
e
分别表示序列t每个单词作为证据句开始、结束的概率,分别表示序列t每个单词作为证据句开始、结束的概率,表示计算概率值的权重矩阵。
[0027]根据以上损失函数训练模型。根据计算每句话的分数,其中分别表示句子i开始、结束位置的概率值(未经过softmax),所有样本以最大分数的证据进行评价,得到测试集答案准确率ANS_F10、证据准确率EVI_F10、总准确率ALL_F1
0。
[0028]总准确率为答案准确率与证据准确率的乘积,保存得到总准确率最高的模型M0。
[0029]步骤3:根据最优模型M0预测获取候选证据列表。
[0030]具体地,根据最优模型M0计算所有句子分数,对分数进行归一化后,将分数大于最大分数的k倍的句子保存为候选证据列表E={e1,e2,

,e
x
},x表示有多少句候选证据句。
[0031]步骤4:根据最优模型,对预测证据进行去噪。
[0032]具体地,对于候选证据列表E中每句证据e,将其当做文章序列,重新与问题序列q和每个候选答案a
j
进行拼接得到序列t
e
,输入至M0中进行预测,得到答案预测p
j,e
,根据M0预测的答案在所有候选答案中位置,保存p
j,e
在相应位置预测概率值v
e
,然后得到所有候选证据分数表示候选证据ex为正确证据的置信分数。。
[0033]步骤5:根据候选证据分数对候选证据进行重排,按要求选择最大分数候选证据作为最终证据句,重新评价后得到新证据准确率E本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于事后验证的证据句去噪方法,其特征在于,包括以下步骤:步骤1:采用静态词向量为训练集进行伪证据标注;步骤2:为标注数据训练模型,包括答案分类与证据句跨度预测,保存最优模型M0;步骤3:根据最优模型M0预测获取候选证据列表;步骤4:根据最优模型,对预测证据进行去噪;步骤5:根据候选证据分数对候选证据进行重排,按要求选择最大分数候选证据作为最终证据句,重新评价后得到新证据准确率和总准确率,将它们与原准确率进行比较,衡量方法的有效性。2.如权利要求1所述的一种基于事后验证的证据句去噪方法,其特征在于,步骤1中,将文章序列d中每个句子序列s
i
使用静态词向量表示平均后,得到句子一维向量s
i,vec
;对问题序列q和正确答案a
*
拼接后的新序列进行向量表示和平均后,得到一维向量qa
vec
;将s
i,vec
与qa
vec
进行余弦相似度计算,得到当前句子分数v
si
,选择具有最大分数句子作为证据句。3.如权利要求1所述的一种基于事后验证的证据句去噪方法,其特征在于,步骤2中,将文章序列d、问题序列q和每个候选答案a
j
进行拼接得到j个新序列t,输入至预训练模型中,得到U={u1,u2,

,u
j
},u
j
表示每个字符/标记的向量表示,使用一个线性层作为顶层分类器进行答案分类,损失函数为交叉熵损失,其中,分类器预测方式如下:p
j
=softmax(W
T
×
U0)其中,p
j
表示对问题的描述候选答案正确的概率,上标...

【专利技术属性】
技术研发人员:史树敏何苏哲
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1