当前位置: 首页 > 专利查询>武汉大学专利>正文

一种面向问句匹配任务的数据增强方法技术

技术编号:36077468 阅读:19 留言:0更新日期:2022-12-24 10:49
本发明专利技术公开了一种面向问句匹配任务的数据增强方法,本发明专利技术从字词、句两种角度实现数据增强,具体而言,为了应对问句文本中常出现的同义词混淆、实体混淆问题,从字词粒度出发,实现了基于命名实体识别的实体替换增强算法与利用预训练模型强大的语义表达能力实现的基于掩码语言模型的同义词替换及随机插入算法,扩充了样本空间;提出了字词粒度噪声增强算法,通过添加噪声,提高了模型的学习能力;从句子粒度,实现了基于回译方法的数据增强,利用文本生成的思想,提高了样本的多样性。通过在BUSTM数据集上进行对比实验与消融实验,验证了本文提出数据增强方法的有效性与先进性。证了本文提出数据增强方法的有效性与先进性。证了本文提出数据增强方法的有效性与先进性。

【技术实现步骤摘要】
一种面向问句匹配任务的数据增强方法


[0001]本专利技术属于自然语言处理
,涉及一种数据增强方法,具体涉及一种面向问句匹配任务的数据增强方法。

技术介绍

[0002]随着互联网的飞速发展,网民数量不断增加,越来越多的人通过搜索引擎、知乎、小红书等内容服务获取感兴趣的信息。当前基于深度学习的语义匹配模型虽然在标准文本匹配数据集上取得了优秀的成绩,但在真实场景下,无法正确预测一些主观上易于分辨的文本。例如用户搜索“济南大学怎么样”,关联问句中出现了“如何评价暨南大学”,对用户体验及产品形象都造成了损害。
[0003]这种现象是深度学习模型对数据集的过拟合(Overfitting)造成的,具体表现是在训练数据中的拟合效果非常好,但在真实场景中却无法达到预期的效果。数据增强是解决过拟合问题非常有效的手段。其它正则化方法如Batch Normalization、Dropout等直接在网络模型中施加干预,而数据增强更加直观,它是在原始数据集上,对数据应用变换策略,从而提高数据集的多样性。计算机视觉领域通过图片变换、风格转换等数据增强方式取得了非常好的效果,但在自然语言处理领域,数据增强目前仍处于探索阶段。简单数据增强方法(Easy Data Augmentation,EDA)通过插入、随机交换等方式实现数据集扩充,但容易带来大量噪声,无法针对性地提高问句匹配效果。Hou等采用序列到序列模型多样化对话文本,提高了对话文本语义理解效果。Shleifer等、Sennrich等采用回译的方式进行数据增强,提高了文本分类与机器翻译模型效果,但数据增强手段较单一。
[0004]通过对BUSTM数据集进行分析,将模型的鲁棒性问题归为五个类别,包括词汇理解、句法结构、错别字、口语化文本、对话文本。当前的数据增强方法无法很好地解决上述问题。

技术实现思路

[0005]为了解决上述技术问题,本专利技术融合基于命名实体识别的实体替换算法、基于掩码预测语言模型的同义词替换及随机插入算法、字词级别噪声增强算法以及回译方法,提出了一种面向问句匹配任务的数据增强方法、系统及设备。
[0006]本专利技术所采用的技术方案是:一种面向问句匹配任务的数据增强方法,采用BERT+BiLSTM

CRF的命名实体识别方法对文本词性以及专有名词进行识别及标注处理;采用文本替换与插入方法及字词粒度的噪声增强方法,从字词粒度下对待匹配的两段文本进行数据增强处理;采用回译算法,从句子粒度对待匹配的两段文本进行数据增强处理;
[0007]所述采用BERT+BiLSTM

CRF的命名实体识别方法对文本词性以及专有名词进行识别及标注处理;具体实现包括以下步骤:
[0008](1)首先利用BERT作为编码器,得到对输入文本的词嵌入表示;
[0009](2)使用BiLSTM计算字符输出为各待选标签的概率,通过CRF层得到最终的序列标
注结果。
[0010]本专利技术融合基于命名实体识别的实体替换算法、基于掩码预测语言模型的同义词替换及随机插入算法、字词级别噪声增强算法以及回译方法,提出了面向问句匹配任务的数据增强方法。面向问句匹配的数据增强算法能够有效提高模型在问句匹配任务上的鲁棒性以及匹配效果。
附图说明
[0011]图1为本专利技术实施例的方法原理框图;
[0012]图2为本专利技术实施例的文本命名实体识别模型结构图;
[0013]图3为本专利技术实施例的实体替换示例图;
[0014]图4为本专利技术实施例的回译算法示例图。
具体实施方式
[0015]为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图及实施例对本专利技术作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。
[0016]请见图1,本专利技术提供的一种面向问句匹配任务的数据增强方法,采用BERT+BiLSTM

CRF的命名实体识别方法对文本词性以及专有名词进行识别及标注处理;采用文本替换与插入方法及字词粒度的噪声增强方法,从字词粒度下对待匹配的文本进行数据增强处理;采用回译算法,从句子粒度对待匹配的文本进行数据增强处理;
[0017]本实施例采用BERT+BiLSTM

CRF的命名实体识别方法对文本词性以及专有名词进行识别及标注处理;具体实现包括以下步骤:
[0018](1)首先利用BERT作为编码器,得到对输入文本的词嵌入表示;
[0019](2)使用BiLSTM计算字符输出为各待选标签的概率,通过CRF层得到最终的序列标注结果。
[0020]本实施例中,采用基于掩码预测语言模型Bert

MLM的文本替换与插入方法及字词粒度的噪声增强方法,从字词粒度下对待匹配的两段文本进行数据增强处理;
[0021]基于掩码预测语言模型的文本替换与插入方法,具体实现包括以下步骤:
[0022](1)句子预处理;
[0023]首先对给定文本进行分词处理,得到其分词结果,采用结巴(jieba)中文分词工具实现;并删除其中的停用词,采用哈工大停用词表作为筛选依据。
[0024](2)随机插入以及同义词替换;
[0025]对句子中词语按照语义重要性排序,然后进行遍历,选择重要性大于阈值的词组进行替换,将词语替换为“[MASK]”(一个标注),并随机在其左边或右边同样插入“[MASK]”,将替换的“[MASK]”送入由Bert经过掩码预测任务进行微调后得到的Bert

MLM中,训练过程中对句子随机遮蔽,采用MASK将一些词语进行替换。之后根据上下文信息对“[MASK]”位置的词进行预测,从而学习到该单词前后的上下文信息;之后根据上下文信息得到同义词候选集,从同义词中选择前K个再替换,得到新样本的集合,与输入样本形成新的增强数据集;
[0026]本实施例中语义重要性计算公式为:
[0027][0028]其中,表示w
i
在x1中的重要性,表示在x1中去掉w
i
后的文本,G
y
(x1,x2)是当输入为(x1,x2)时,掩码预测语言模型的置信度得分,G
y

(x1,x2)表示两种分类结果(特指(x1,x2)与不一致时采用第二种方式进行计算)。
[0029]本实施例中由Bert经过掩码预测任务进行微调后得到的Bert

MLM,是根据预测分数EmissionScore
ij
进行微调;O
i
=θ(y
i
W
p
+d);其中,θ()、W
p
、d为线层的可学习参数,y
i
为最终的隐藏层输出向量
[0030]本实施例的字词粒度的噪声增强方法,包括字级别增强和词级别增强;字级别增强,是随机进行噪声增强操作,包括冗余字本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向问句匹配任务的数据增强方法,其特征在于:采用BERT+BiLSTM

CRF的命名实体识别方法对文本词性以及专有名词进行识别及标注处理;采用文本替换与插入方法及字词粒度的噪声增强方法,从字词粒度下对待匹配的文本进行数据增强处理;采用回译算法,从句子粒度对待匹配的文本进行数据增强处理;所述采用BERT+BiLSTM

CRF的命名实体识别方法对文本词性以及专有名词进行识别及标注处理;具体实现包括以下步骤:(1)首先利用BERT作为编码器,得到对输入文本的词嵌入表示;(2)使用BiLSTM计算字符输出为各待选标签的概率,通过CRF层得到最终的序列标注结果。2.根据权利要求1所述的面向问句匹配任务的数据增强方法,其特征在于:采用基于掩码预测语言模型Bert

MLM的文本替换与插入方法及字词粒度的噪声增强方法,具体实现包括以下步骤:(1)句子预处理;首先对给定文本进行分词处理,得到其分词结果,并删除其中的停用词;(2)随机插入以及同义词替换;对句子中词语按照语义重要性排序,然后进行遍历,选择重要性大于阈值的词组进行替换,将词语替换为“[MASK]”,并随机在其左边或右边同样插入“[MASK]”,将替换的“[MASK]”送入由Bert经过掩码预测任务进行微调后得到的Bert

MLM中,根据上下文信息对“[MASK]”位置的词进行预测,从而学习到该单词前后的上下文信息;之后根据上下文信息得到同义词候选集,从同义词中选择前K个再替换,得到新样本的集合,与输入样本形成新的增强数据集;所述字词粒度的噪声增强方法,包括字级别增强和词级别增强;所述字级别增强,是随机进行噪声增强操作,包括冗余字替换操作、字缺失替换操作、字序错误替换操作和选字错误替换操作,其中,生成文本与原文本编辑距离不超过3;所述冗余字替换操作,是对文本进行随机的字插入扩充;所述...

【专利技术属性】
技术研发人员:刘金硕张思奇邓娟詹岱依刘宁王晨阳黄朔唐浩洲柳凯
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1