一种基于冗余信息过滤的无监督句子表征学习方法技术

技术编号：38393205 阅读：19 留言：0更新日期：2023-08-05 17:46

本发明专利技术公开了一种基于冗余信息过滤的无监督句子表征学习方法，其特点是基于信息最小化原则的重构操作，对预训练数据集当中的冗余信息进行过滤，训练使用BERT和RoBERTa为基础模型，将其在维基百科数据集上训练得到InforMin

全部详细技术资料下载

【技术实现步骤摘要】
一种基于冗余信息过滤的无监督句子表征学习方法

[0001]本专利技术涉及基于对比学习的无监督句子表征学习
，尤其是一种基于冗余信息过滤的无监督句子表征学习方法。

技术介绍

[0002]近几年来，人工智能、机器学习等领域发展迅速，越来越多的领域、越来越多的任务都用到了机器学习、深度学习模型。由于训练数据缺乏，尤其是一些小众领域，很多任务难以直接在此领域收集数据集来完成模型训练。针对此问题，目前学术界和工业界普遍采取的方法是在已有的大规模数据集上训练出一个模型去学习一个通用的表示，然后将学习到的句子表示用于目标领域，从而完成相关任务。随着人工智能应用的不断深入，句子表征学习问题受到了学术界和工业界的广泛重视。
[0003]近些年来，很多句子表征学习的工作频繁运用对比学习方法来训练句子表征学习模型。例如，IS
‑
BERT在BERT编码器的输出顶端添加一个特征抽取器并最大化局部特征与全局特征之间的互信息；CLEAR、DeCLUTER和ConSERT在其实验中尝试了多种数据增强手段来构造正负样本，并比较了各自的实验结果；Coco
‑
LM提出使用一个额外的语言模型对已有的输入做变换，并在此基础之上构造单词级别和句子级别的两个任务来训练模型。相对于诸如skip
‑
thought等传统的方法，这些方法取得了更优的效果。凭借着轻巧好用的暂退掩码数据增强手段，无监督SimCSE再次把无监督表征学习模型的效果提上了一个新的台阶。在此之后，有若干基于SimCSE的模型被先后...

【技术保护点】

【技术特征摘要】
1.一种基于冗余信息过滤的无监督句子表征学习方法，其特征在于，采用正、负样本之间的对比，以及正样本之间的重构，实现冗余信息的过滤，具体步骤如下：步骤1：正、负样本对比1
‑
1：正、负样本的构造使用暂退掩码数据增强构造正、负样本，即同一个句子被重复传入编码器得到的两个句子表示被视作一对正样本，而同一个训练小批量中的其它句子表示则被视作为负样本，所述训练采用维基百科数据集作为训练数据集进行正、负样本构造；1
‑
2：InfoNCE损失函数使用下述(a)式所示的InfoNCE损失函数训练InforMin
‑
CL模型：其中，在一个训练小批量中，对于给定的输入，h为输入的一个正样本；为输入的另一个正样本；为负样本；N为对应训练的批量大小；τ为温度系数；所述InforMin
‑
CL模型以BERT和RoBERTa为基础模型，将其在维基百科数据集上训练得到的，该模型输出端的隐藏向量被全连接网络进一步映射得到的向量，作为学习到的句子表示；1
‑
3：信息最小化令为下述(b)式所示的充分监督表示：则有下述(c)式所示的充分自监督表示
l
：令为下述(d)式所示的极小充分监督表示：则有下述(e)式所示的极小充分自监督表示则有下述(e)式所示的极小充分自监督表示其中，X、Z和S分别为正、负样本和自监督信号；T为下游任务所需的有用信息；I和H分别为互信息和信息熵；将输入X以重复不同的暂退掩码输入编码器得到两个正样本21和24，并将其中一个正样本24作为自监督信号，使用下述(f)式表示的损失函数L
c
作为对比操作的训练目标：其中，其中，是训练小批量中第i个
输入的正样本；N为对应训...

【专利技术属性】
技术研发人员：孙玉灵，陈少斌，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人