【技术实现步骤摘要】
一种面向对比学习的动态课程的句子表示方法
[0001]本专利技术涉及自然语言处理领域,具体来说是一种面向对比学习的动态课程的句子表示方法。
技术介绍
[0002]随着互联网技术的飞速发展,语言作为人类基本的能力,让机器处理自然语言是生产力发展的必然要求,因此从事研究自然语言处理研究具有重要价值和意义。句子表示作为自然语言处理领域中的主要研究方向之一,通过预训练微调的方式被应用到具体的下游任务的应用中。
[0003]早期的句子表示的方法通过one
‑
hot,TF
‑
IDF等基于词袋模型的方法导致数据稀疏。后面利用Word2Vec用滑动窗口指定固定大小的上下文,利用当前词语预测上下文或者利用上下文文来预测当前词。由于词和向量是一对一的关系,因此无法解决一词多义的问题。BERT预训练致力于学习通用的句子表示,并迁移到多个下游应用场景。由于直接利用BERT得到的句子表示的效果不是很好,因为直接由语言模型生成的语义向量分布中存在非线性和各向异性的问题,导致任意两个句子的相似度很高,在语义空间 ...
【技术保护点】
【技术特征摘要】
1.一种面向对比学习的动态课程的句子表示方法,其特征在于,是按如下步骤进行:步骤1、文本数据的预处理:步骤1.1、获取n个句子S={s1,
…
,s
i
,
…
,s
n
}并进行数据增强后,得到增强后的句子数据集,记为其中,s
i
表示第i个锚点句子,n表示句子总数;表示第i个锚点句子s
i
增强后的句子集合,并作为第i个正样本集合,且增强后的句子集合,并作为第i个正样本集合,且表示第i个锚点句子s
i
增强后的第j个句子并作为一个正样本,m表示每个句子增强后的句子总数;令S
′
表示预处理后的句子对集合,且步骤2、构建对比学习模型,包括:编码模块、投影模块;其中,所述投影模块是由一层MLP线性层组成;步骤2.1、所述编码模块对句子集合S
′
中的每个句子进行编码,获得表征其中,h
i
表示第i个锚点句子s
i
的表征向量,表示增强后的第j个正样本句子的表征向量;步骤2.2、所述投影模块将句子向量表示h
i
和映射到低维语义向量空间中,从而得到句子向量表示为其中,z
i
表示第i个锚点句子s
i
的表征向量h
i
的低维句子表征向量;表示第j个句子的表征向量的低维句子表征向量;步骤3、计算与h
i
在语义空间中的余弦相似度距离并作为第i个正样本集合中第j个句子的难度d
i,j
,从而得到n
×
m个正样本的难度集合D={d
1,1
,
…
,d
i,j
,
…
d
n,m
},并对难度集合D进行降序排序后得到排序后的难度集合,从而根据排序后的难度集合再对n
×
m个正样本进行排序,得到排序后的正样本句子对集合,将排序后的正样本句子对集合与其对应的锚点句子配对,从而得到排序后的句子对集合其中,S
i
表示排序后的第i个锚点句子,表示排序后的第i个锚点句子S
i
对应的正样本句子集合中的第j个正样本句子;步骤4、正样本难度选取,令对比学习模型的总的训练...
【专利技术属性】
技术研发人员:张琨,刘畅,吴乐,张大操,汪萌,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。