一种面向问句匹配任务的数据增强方法技术

技术编号：36077468 阅读：19 留言：0更新日期：2022-12-24 10:49

本发明专利技术公开了一种面向问句匹配任务的数据增强方法，本发明专利技术从字词、句两种角度实现数据增强，具体而言，为了应对问句文本中常出现的同义词混淆、实体混淆问题，从字词粒度出发，实现了基于命名实体识别的实体替换增强算法与利用预训练模型强大的语义表达能力实现的基于掩码语言模型的同义词替换及随机插入算法，扩充了样本空间；提出了字词粒度噪声增强算法，通过添加噪声，提高了模型的学习能力；从句子粒度，实现了基于回译方法的数据增强，利用文本生成的思想，提高了样本的多样性。通过在BUSTM数据集上进行对比实验与消融实验，验证了本文提出数据增强方法的有效性与先进性。证了本文提出数据增强方法的有效性与先进性。证了本文提出数据增强方法的有效性与先进性。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向问句匹配任务的数据增强方法

[0001]本专利技术属于自然语言处理
，涉及一种数据增强方法，具体涉及一种面向问句匹配任务的数据增强方法。

技术介绍

[0002]随着互联网的飞速发展，网民数量不断增加，越来越多的人通过搜索引擎、知乎、小红书等内容服务获取感兴趣的信息。当前基于深度学习的语义匹配模型虽然在标准文本匹配数据集上取得了优秀的成绩，但在真实场景下，无法正确预测一些主观上易于分辨的文本。例如用户搜索“济南大学怎么样”，关联问句中出现了“如何评价暨南大学”，对用户体验及产品形象都造成了损害。
[0003]这种现象是深度学习模型对数据集的过拟合(Overfitting)造成的，具体表现是在训练数据中的拟合效果非常好，但在真实场景中却无法达到预期的效果。数据增强是解决过拟合问题非常有效的手段。其它正则化方法如Batch Normalization、Dropout等直接在网络模型中施加干预，而数据增强更加直观，它是在原始数据集上，对数据应用变换策略，从而提高数据集的多样性。计算机视觉领域通过图片变换、风格转换等数据增强方式取得了非常好的效果，但在自然语言处理领域，数据增强目前仍处于探索阶段。简单数据增强方法(Easy Data Augmentation，EDA)通过插入、随机交换等方式实现数据集扩充，但容易带来大量噪声，无法针对性地提高问句匹配效果。Hou等采用序列到序列模型多样化对话文本，提高了对话文本语义理解效果。Shleifer等、Sennrich等采用回译的方式进行数据增强，提高了文本分类与...

【技术保护点】

【技术特征摘要】
1.一种面向问句匹配任务的数据增强方法，其特征在于：采用BERT+BiLSTM
‑
CRF的命名实体识别方法对文本词性以及专有名词进行识别及标注处理；采用文本替换与插入方法及字词粒度的噪声增强方法，从字词粒度下对待匹配的文本进行数据增强处理；采用回译算法，从句子粒度对待匹配的文本进行数据增强处理；所述采用BERT+BiLSTM
‑
CRF的命名实体识别方法对文本词性以及专有名词进行识别及标注处理；具体实现包括以下步骤：(1)首先利用BERT作为编码器，得到对输入文本的词嵌入表示；(2)使用BiLSTM计算字符输出为各待选标签的概率，通过CRF层得到最终的序列标注结果。2.根据权利要求1所述的面向问句匹配任务的数据增强方法，其特征在于：采用基于掩码预测语言模型Bert
‑
MLM的文本替换与插入方法及字词粒度的噪声增强方法，具体实现包括以下步骤：(1)句子预处理；首先对给定文本进行分词处理，得到其分词结果，并删除其中的停用词；(2)随机插入以及同义词替换；对句子中词语按照语义重要性排序，然后进行遍历，选择重要性大于阈值的词组进行替换，将词语替换为“[MASK]”，并随机在其左边或右边同样插入“[MASK]”，将替换的“[MASK]”送入由Bert经过掩码预测任务进行微调后得到的Bert
‑
MLM中，根据上下文信息对“[MASK]”位置的词进行预测，从而学习到该单词前后的上下文信息；之后根据上下文信息得到同义词候选集，从同义词中选择前K个再替换，得到新样本的集合，与输入样本形成新的增强数据集；所述字词粒度的噪声增强方法，包括字级别增强和词级别增强；所述字级别增强，是随机进行噪声增强操作，包括冗余字替换操作、字缺失替换操作、字序错误替换操作和选字错误替换操作，其中，生成文本与原文本编辑距离不超过3；所述冗余字替换操作，是对文本进行随机的字插入扩充；所述...

【专利技术属性】
技术研发人员：刘金硕，张思奇，邓娟，詹岱依，刘宁，王晨阳，黄朔，唐浩洲，柳凯，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人