基于对比学习的语言表征方法、装置及计算机存储介质制造方法及图纸

技术编号:35294251 阅读:22 留言:0更新日期:2022-10-22 12:41
本发明专利技术提供了一种基于对比学习的文本表征方法、装置及存储介质,该方法包括:S1,获得原始语料,原始语料包括原始语句;S2,利用预训练语言模型对原始语句进行数据增强处理,获得原始语句的正例对;S3,利用正例对对对比学习模型进行训练;其中,步骤S2包括:对原始语句进行分词处理;S22,在词语列表中选定的词语前面添加[MASK]标记并利用预训练语言模型来预测[MASK]标记的字符和字符出现的概率;S23,用出现的概率超过预定概率阈值的字符替代[MASK]标记加入到原始语句中,获得原始语句的一个增强语句,原始语句与增强语句构成原始语句的一个正例对。上述方案通过使用对比学习的思想提高了文本表征的效果。高了文本表征的效果。高了文本表征的效果。

【技术实现步骤摘要】
基于对比学习的语言表征方法、装置及计算机存储介质


[0001]本专利技术涉及自然语言处理领域,特别涉及一种基于对比学习的语言表征方法、装置及计算机存储介质。

技术介绍

[0002]用自然语言与计算机进行通信,这是人们长期以来所追求的。随着深度学习技术的飞速发展,越来越多的深度学习技术被应用到自然语言处理的各个领域,多种基于深度学习的自然语言模型也被提出,模型如何更好地表示自然语言,成为了很重要的议题。
[0003]对比学习是一种自监督学习方法,不需要依赖人工标注的类别标签信息,直接利用数据本身作为监督信息。对比学习是一种为深度学习模型描述相似和不同事物的任务的方法。
[0004]目前,基于对比学习的语言表征方法存在如下问题:
[0005]1、只是使用预训练语言模型的参数进行扰动,从而生成正例,却很少使用语言模型本身自带的语言特征;
[0006]2、将一句话进行人为的增删改,这种方案过于机械,生成的句子修改太小,甚至已经不像是人类的语言了。

技术实现思路

[0007]基于现有技术的上述问题,本专利技术的实施例提供了一种简单高效的基于对比学习的语言表征方法、装置及计算机存储介质。
[0008]为了实现上述目的,一方面,提供了一种基于对比学习的文本表征方法,包括:
[0009]S1,获得原始语料,所述原始语料包括多个原始语句;
[0010]S2,利用预先选定的预训练语言模型对所述多个原始语句中每一个原始语句进行数据增强处理,获得每一个原始语句的正例对;
[0011]S3,利用所述正例对对预先选定的对比学习模型进行训练;
[0012]其中,所述步骤S2中,对所述多个原始语句中每一个原始语句进行数据增强处理包括:
[0013]S21,对原始语句进行分词处理,按照词语在所述原始语句中的位置获得所述原始语句对应的词语列表;
[0014]S22,在所述词语列表中选定的词语前面添加[MASK]标记并利用预先选定的预训练语言模型来预测所述[MASK]标记的字符和字符出现的概率;
[0015]S23,用出现的概率超过预定概率阈值的字符替代所述[MASK]标记加入到所述原始语句中,获得所述原始语句的一个增强语句,所述原始语句与所述增强语句构成所述原始语句的一个正例对。
[0016]优选地,所述的方法,其中,步骤S22包括:
[0017]S221,按照所添加的[MASK]标记的位置,将所添加的[MASK]标记作为一个词语加
入到所述词语列表中,并将包含所述[MASK]标记的词语列表进行拼接,得到一个句子;
[0018]S222,将得到的所述句子输入所述预先选定的预训练语言模型,所述预先选定的预训练语言模型预测所述句子中所述[MASK]标记的字符和所述字符出现的概率,获得出现的概率超过所述预定概率阈值的字符;
[0019]所述步骤S23包括:
[0020]所述预先选定的预训练语言模型输出所述原始语句的所述增强语句。
[0021]优选地,所述的方法,其中,还包括遍历所述原始语句对应的词语列表中的每一个词的步骤,从第一个词开始针对所述每一个词执行所述步骤S22和所述步骤S23。
[0022]优选地,所述的方法,其中,所述步骤S22中,当所述出现的概率超过预定概率阈值的字符超过一个时,选择其中的一个字符执行所述步骤S23。
[0023]优选地,所述的方法,其中,所述步骤S22中,当没有所述出现的概率超过预定概率阈值的字符时,所述预先选定的预训练语言模型输出的仍为所述步骤S222中、输入所述预先选定的预训练语言模型的句子。
[0024]优选地,所述的方法,其中,所述预先选定的预训练语言模型为一个或多个。
[0025]优选地,所述的方法,其中,所述对比学习模型为所述预先选定的预训练语言模型中的一个或与所述预先选定的预训练语言模型不同的预训练语言模型。
[0026]优选地,所述的方法,其中,在获得所述原始语句的一个增强语句之后,继续针对选定的下一个词语执行所述步骤S22和所述步骤S23;
[0027]其中,所述选定的下一个词语为所述原始语句对应的词语列表中的下一个词语或替代所述[MASK]标记加入到所述原始语句的所述字符。
[0028]优选地,所述的方法,其中,所述选定的词语为多个,通过将所述原始语句设置为键及将针对每一个选定的词语执行所述步骤S22和所述步骤S23获得的所述原始语句的增强语句设置为值来构建键值对,将键值对存入字典;其中,一个键值对中的所有句子互为正例且与其它键值对的所有句子互为负例。
[0029]优选地,所述的方法,其中,所述步骤S3中,从所述字典中无放回地抽取m个键值对,m为大于2的整数,从每个键值对包含的句子中抽取两句话作为正例对,这两句话与其余的2(m

1)句话中的任一句互为负例对,将所述正例对和负例对输入所述对比学习模型进行训练。
[0030]另一方面,提供了一种基于对比学习的文本表征装置,包括存储器和处理器,所述存储器存储有至少一段程序,所述至少一段程序由所述处理器执行以实现如上文所述的文本表征方法。
[0031]又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一段程序,所述至少一段程序由处理器执行以实现如上文所述的文本表征方法。
[0032]上述技术方案具有如下技术效果:
[0033]本专利技术实施例的技术方案通过对非结构化的自然语料进行分词,并利用[MASK]标记方法使用预训练语言模型对经过分词处理的自然语料进行数据增强,再用由增强后的数据构成的训练数据来继续训练预训练语言模型,使用了对比学习的思想,提高了文本表征如句子表征的效果。
附图说明
[0034]图1为本专利技术一实施例的基于对比学习的文本表征方法的流程示意图;
[0035]图2为本专利技术一实施例的基于对比学习的文本表征装置的结构示意图。
具体实施方式
[0036]为进一步说明各实施例,本专利技术提供有附图。这些附图为本专利技术揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
[0037]现结合附图和具体实施方式对本专利技术进一步说明。
[0038]实施例一:
[0039]图1为本专利技术一实施例的基于对比学习的文本表征方法的流程示意图。如图1,该实施例的基于对比学习的文本表征方法包括如下步骤:
[0040]S1,获得原始语料,该原始语料包括多个原始语句;
[0041]具体实现中,原始语料可以通过收集公开语料来获得。公开语料是较容易获取的。示例性地,可以使用github上用于预训练模型训练的公开数据,也可以使用爬虫对百度百科或贴吧等网站进行爬取来获得。这个过程可以获得大量的公本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习的文本表征方法,其特征在于,包括:S1,获得原始语料,所述原始语料包括多个原始语句;S2,利用预先选定的预训练语言模型对所述多个原始语句中每一个原始语句进行数据增强处理,获得每一个原始语句的正例对;S3,利用所述正例对对预先选定的对比学习模型进行训练;其中,所述步骤S2中,对所述多个原始语句中每一个原始语句进行数据增强处理包括:S21,对原始语句进行分词处理,按照词语在所述原始语句中的位置获得所述原始语句对应的词语列表;S22,在所述词语列表中选定的词语前面添加[MASK]标记并利用预先选定的预训练语言模型来预测所述[MASK]标记的字符和字符出现的概率;S23,用出现的概率超过预定概率阈值的字符替代所述[MASK]标记加入到所述原始语句中,获得所述原始语句的一个增强语句,所述原始语句与所述增强语句构成所述原始语句的一个正例对。2.根据权利要求1所述的方法,其特征在于,所述步骤S22包括:S221,按照所添加的[MASK]标记的位置,将所添加的[MASK]标记作为一个词语加入到所述词语列表中,并将包含所述[MASK]标记的词语列表进行拼接,得到一个句子;S222,将得到的所述句子输入所述预先选定的预训练语言模型,所述预先选定的预训练语言模型预测所述句子中所述[MASK]标记的字符和所述字符出现的概率,获得出现的概率超过所述预定概率阈值的字符;所述步骤S23包括:所述预先选定的预训练语言模型输出所述原始语句的所述增强语句。3.根据权利要求1所述的方法,其特征在于,还包括遍历所述原始语句对应的词语列表中的每一个词的步骤,从第一个词开始针对所述每一个词执行所述步骤S22和所述步骤S23。4.根据权利要求2所述的方法,其特征在于,所述步骤S22中,当所述出现的概率超过预定概率阈值的字符超过一个时,选择其中的一个字符执行所述步骤S23。5.根据权利要求2所述的方法,其特...

【专利技术属性】
技术研发人员:江豪肖龙源李海洲李稀敏李威
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1