一种基于冗余信息过滤的无监督句子表征学习方法技术

技术编号:38393205 阅读:19 留言:0更新日期:2023-08-05 17:46
本发明专利技术公开了一种基于冗余信息过滤的无监督句子表征学习方法,其特点是基于信息最小化原则的重构操作,对预训练数据集当中的冗余信息进行过滤,训练使用BERT和RoBERTa为基础模型,将其在维基百科数据集上训练得到InforMin

【技术实现步骤摘要】
一种基于冗余信息过滤的无监督句子表征学习方法


[0001]本专利技术涉及基于对比学习的无监督句子表征学习
,尤其是一种基于冗余信息过滤的无监督句子表征学习方法。

技术介绍

[0002]近几年来,人工智能、机器学习等领域发展迅速,越来越多的领域、越来越多的任务都用到了机器学习、深度学习模型。由于训练数据缺乏,尤其是一些小众领域,很多任务难以直接在此领域收集数据集来完成模型训练。针对此问题,目前学术界和工业界普遍采取的方法是在已有的大规模数据集上训练出一个模型去学习一个通用的表示,然后将学习到的句子表示用于目标领域,从而完成相关任务。随着人工智能应用的不断深入,句子表征学习问题受到了学术界和工业界的广泛重视。
[0003]近些年来,很多句子表征学习的工作频繁运用对比学习方法来训练句子表征学习模型。例如,IS

BERT在BERT编码器的输出顶端添加一个特征抽取器并最大化局部特征与全局特征之间的互信息;CLEAR、DeCLUTER和ConSERT在其实验中尝试了多种数据增强手段来构造正负样本,并比较了各自的实验结果;Coco

LM提出使用一个额外的语言模型对已有的输入做变换,并在此基础之上构造单词级别和句子级别的两个任务来训练模型。相对于诸如skip

thought等传统的方法,这些方法取得了更优的效果。凭借着轻巧好用的暂退掩码数据增强手段,无监督SimCSE再次把无监督表征学习模型的效果提上了一个新的台阶。在此之后,有若干基于SimCSE的模型被先后提出,包括S

SimCSE、DiffCSE和DCLR等。
[0004]现有技术的这些模型应用在现实世界中还是受到了挑战。尤其,在实际应用场景中,用于模型训练的数据集,往往由于人为采集、环境干扰等因素,包含着许多冗余信息,这些冗余信息会对于下游任务产生不好的影响。然而,现有模型主要从数据增强手段、代理任务上做了各种改进,并未没有考虑到预训练数据集中的冗余信息。基于此,如何基于现有的无监督对比学习框架,设计高效、简单、通用的冗余信息过滤技术,以过滤实际预训练数据中的冗余信息,学习到更有效的句子表示,成为了十分重要的技术问题。

技术实现思路

[0005]本专利技术的目的是针对现有技术的不足而提供的一种基于冗余信息过滤的无监督句子表征学习方法,采用无监督对比学习框架,设计高效、简单、使用冗余信息过滤技术,以过滤实际预训练数据中的冗余信息,学习到更有效的句子表示,方法简便,使用效果好,有效解决了目前基于对比学习的句子表征学习模型中的预训练冗余信息过滤问题,对提升模型性能有极大的帮助,具有良好应用前景。
[0006]本专利技术的目的是这样实现的:一种基于冗余信息过滤的无监督句子表征学习方法,其特点是基于信息最小化原则的重构操作,对预训练数据集当中的冗余信息进行过滤,并基于此来进行句子表征学习。冗余信息的过滤部分分为两个模块:一是对比,通过将正样本与负样本进行对比,保留输入内容中有用的信息;二是重构,通过一个正样本去重构另外
一个正样本,以实现冗余信息的过滤。在模型训练部分,InforMin

CL使用BERT和RoBERTa作为基础模型,将基础模型在维基百科数据集上展开训练得到最终的模型,该模型输出端的隐藏向量被全连接网络进一步映射得到的向量,作为学习到的句子表示。
[0007]本专利技术将冗余信息概括归纳为两类:停用词(Stop Words)和句子的形式(Style of the Sentences)。停用词是指the,a,an,of等,这些词语几乎在每句话当中都出现,但是又不具有显式、明确的意义。句子的形式是指外在的不影响核心内容的信息,对于给定的一个句子,如果将句子以同样的意思复述一遍,或者将句子中的每个单词首字母大写,又或者将每个单词用连字符连接会得到新的句子,这些新的句子与原来的句子相比,所表达的核心内容并没有产生变化,因此也是一种冗余信息。本专利技术的目的则进一步明确为:移除训练数据和学习到的句子表示中的停用词和句子的形式这两种冗余信息。
[0008]本专利技术通过基于信息最小化原则的重构操作,对预训练数据集当中的冗余信息进行过滤,并基于此来进行句子表征学习。冗余信息的过滤部分分为两个模块:一是对比,通过将正样本与负样本进行对比,保留输入内容中有用的信息;二是重构,通过一个正样本去重构另外一个正样本,以实现冗余信息的过滤。在模型训练部分,InforMin

CL使用BERT和RoBERTa作为基础模型,将基础模型在英文维基百科数据集上展开训练得到最终的模型,该模型输出端的隐藏向量被全连接网络进一步映射得到的向量,作为学习到的句子表示。本专利技术的主要步骤如下:
[0009]步骤1:正、负样本的构造
[0010]样本的构造从数据增强方法和数据集选择这两个角度入手,在数据增强方法上,采用暂退掩码来获取正样本,即通过将一个句子重复输入BERT和RoBERTa两种编码器来获得正样本对,在数据集选择上,采用英文维基百科数据集作为训练数据集,来进行正、负样本构造。该数据集共包含10条句子。
[0011]步骤2:模型训练
[0012]在构造完正、负样本之后,使用对比操作使得正样本之间的距离减小,正、负样本之间的距离增大,对比操作旨在保留输入中有用的信息。接下来,使用重构操作去除输入中的冗余信息。本专利技术以InfoNCE损失函数或者预测损失函数以及这些函数的结合作为主要的训练目标,在InforMin

CL模型训练过程中,不断缩小嵌入空间中正样本之间的距离,增大正、负样本之间的距离。
[0013]步骤3:下游任务评测
[0014]训练完毕之后,使用基于无监督下游任务(语义相似度任务)和有监督下游任务(分类任务)两类任务评测InforMin

CL模型学习到的表示。
[0015]本专利技术与现有技术相比具有针对预训练数据中普遍存在的冗余信息,基于信息最小化原则设计了重构操作,以丢弃冗余信息,使用SentEval工具对提出的模型进行了无监督和有监督两种下游任务上的评测。本专利技术所提出的模型对基于对比学习的句子表征学习模型,进行了预训练数据冗余信息过滤,从而提升了模型性能。
附图说明
[0016]图1本专利技术架构的无监督句子表征学习模型结构示意图。
具体实施方式
[0017]本专利技术主要包括:正、负样本之间的对比和正样本之间的重构两个操作,其具体实现步骤如下:
[0018]步骤1:正、负样本对比
[0019]参阅图1,对比操作的主要功能是保留输入中的有用信息,图中左侧部分展示了对比操作的详细框架结构。
[0020]1‑
1:正负样本构造
[0021]使用暂退掩码数据增强技巧来构造正负样本。具体地说,同一个句子被重复传入编码器得到的两个句子表示被视作一对正样本,而同一个训练小批量中的其它句子表示则被视作为负样本。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于冗余信息过滤的无监督句子表征学习方法,其特征在于,采用正、负样本之间的对比,以及正样本之间的重构,实现冗余信息的过滤,具体步骤如下:步骤1:正、负样本对比1

1:正、负样本的构造使用暂退掩码数据增强构造正、负样本,即同一个句子被重复传入编码器得到的两个句子表示被视作一对正样本,而同一个训练小批量中的其它句子表示则被视作为负样本,所述训练采用维基百科数据集作为训练数据集进行正、负样本构造;1

2:InfoNCE损失函数使用下述(a)式所示的InfoNCE损失函数训练InforMin

CL模型:其中,在一个训练小批量中,对于给定的输入,h为输入的一个正样本;为输入的另一个正样本;为负样本;N为对应训练的批量大小;τ为温度系数;所述InforMin

CL模型以BERT和RoBERTa为基础模型,将其在维基百科数据集上训练得到的,该模型输出端的隐藏向量被全连接网络进一步映射得到的向量,作为学习到的句子表示;1

3:信息最小化令为下述(b)式所示的充分监督表示:则有下述(c)式所示的充分自监督表示
l
:令为下述(d)式所示的极小充分监督表示:则有下述(e)式所示的极小充分自监督表示则有下述(e)式所示的极小充分自监督表示其中,X、Z和S分别为正、负样本和自监督信号;T为下游任务所需的有用信息;I和H分别为互信息和信息熵;将输入X以重复不同的暂退掩码输入编码器得到两个正样本21和24,并将其中一个正样本24作为自监督信号,使用下述(f)式表示的损失函数L
c
作为对比操作的训练目标:其中,其中,是训练小批量中第i个
输入的正样本;N为对应训...

【专利技术属性】
技术研发人员:孙玉灵陈少斌
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1