一种基于语言模型进行运算的训练方法及装置制造方法及图纸

技术编号:28375302 阅读:26 留言:0更新日期:2021-05-08 00:02
本发明专利技术公开了一种基于语言模型进行算术运算的训练方法及装置,该方法包括在算式文本中每个字符前添加空格字符,生成准算式文本;对所述准算式文本进行分词处理,得到与所述准算式文本对应的列表,所述列表中包括多个词;将与所述准算式文本对应的列表作为训练样本,得到训练样本数据;利用语言模型对所述训练样本数据进行运算训练,生成算术模型。由此,通过添加空格字符和分词处理的方式对算式文本进行预处理,从而使得算式文本中每一个字符作为单独的词输入语言模型,语言模型能够对算式文本的每个字符和每个字符的数位信息进行学习,进而实现了在对语言模型采用少量训练样本训练后便可以有效提高训练后算术模型计算的准确率。

【技术实现步骤摘要】
一种基于语言模型进行运算的训练方法及装置
本专利技术涉及人工智能
,尤其涉及一种基于语言模型进行运算的训练方法及装置。
技术介绍
在最新研究中,由于巨型语言模型GPT-3通过小样本学习的方式可以不经训练直接进行算术运算,因此在算术运算任务中发挥不俗。但是对于较小型的语言模型,如Bert、GPT-2等,使用小样本学习后进行算术运算时准确率几乎为0,基本没有任何实际利用价值。目前,对于较小型的语言模型来说,大部分采用了“预训练+微调”的方式进行模型训练。在这种训练方法下以GPT-2为例,模型训练后生成的算术模型虽然能算对一些算术运算,但是需要大量的训练数据,如两位数加两位数的算术运算,GPT-2就需要超过3200个算式的训练集才能勉强达到10%的准确率,而对于更复杂的三位数加法计算,则需要更加庞大的训练数据集。由此可知,传统的训练方法对于较小型的语言模型的训练是不适宜的。
技术实现思路
为了解决上述现有技术存在的问题,本专利技术实施例提供一种基于语言模型进行运算的训练方法及装置,能够实现在对语言模型采用少量训练样本训练后就可以有效提高训练后生成的算术模型计算的准确率。为实现上述目的,根据本专利技术实施例第一方面,提供一种基于语言模型进行算术运算的训练方法,该方法包括:在算式文本中每个字符前添加空格字符,生成准算式文本;对所述准算式文本进行分词处理,得到与所述准算式文本对应的列表,所述列表中包括多个词;将与所述准算式文本对应的列表作为训练样本,得到训练样本数据;利用语言模型对所述训练样本数据进行运算训练,生成算术模型。可选的,所述在算式文本中的每个字符前添加空格字符,生成准算式文本,包括:获取算式文本,其中,所述算式文本包括多个数字和运算字符,所述数字包括一个或多个数字字符;在算式文本中每个字符前添加空格字符,生成预算式文本;针对所述预算式文本中的任一所述数字:获取所述数字中所有数字字符的数位顺序,对所述数字的数位顺序进行转置处理,生成准算式文本。可选的,所述训练样本数据包括:一位数的算式文本对应的第一训练样本数据和大于一位数的算式文本对应的第二训练样本数据。可选的,所述语言模型为自回归模型或者自编码模型。可选的,所述的方法还包括:获取待计算算式文本,其中,所述待计算算式文本包括算式;利用所述算术模型对所述待计算算式文本进行运算处理,得到运算结果;若所述运算结果满足预设条件,则确定所述待计算算式文本通过了测试。为实现上述目的,根据本专利技术实施例第二方面,提供一种基于语言模型进行算术运算的训练装置,该装置包括:添加模块,用于在算式文本中的每个字符前添加空格字符,生成准算式文本;分词处理模块,用于对所述准算式文本进行分词处理,得到与所述准算式文本对应的列表,所述列表中包括多个词;样本模块,用于将与所述准算式文本对应的列表作为训练样本,得到训练样本数据;训练模块,用于利用语言模型对所述训练样本数据进行运算训练,生成算术模型。可选的,所述添加模块包括:获取单元,用于获取算式文本,其中,所述算式文本包括多个数字和运算字符,所述数字包括一个或多个数字字符;添加单元,用于在算式文本中每个字符前添加空格字符,生成预算式文本;转置单元,用于针对所述预算式文本中的任一所述数字,获取所述数字中所有数字字符的数位顺序,对所述数字的数位顺序进行转置处理,生成准算式文本。可选的,所述训练样本数据包括:一位数的算式文本对应的第一训练样本数据和大于一位数的算式文本对应的第二训练样本数据。可选的,所述的装置还包括:获取模块,用于获取待计算算式文本;运算处理模块,用于利用算术模型对所述待计算算式文本进行运算处理,得到运算结果;确定模块,用于若所述运算结果满足预设条件,则确定所述待计算算式文本通过了测试。为实现上述目的,根据本专利技术实施例第三方面,还提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面所述的训练方法。与现有技术相比,本专利技术实施例提供的一种基于语言模型进行算术运算的训练方法及装置,该方法包括在算式文本中每个字符前添加空格字符,生成准算式文本;并对所述准算式文本进行分词处理,得到与所述准算式文本对应的列表;之后将与所述准算式文本对应的列表作为训练样本,得到训练样本数据;利用语言模型对所述训练样本数据进行运算训练,生成算术模型。由此,通过添加空格字符的方式和分词处理对算式文本进行预处理,从而使得算式文本中每一个字符作为单独的词输入语言模型,语言模型能够对算式文本的每个字符和每个字符的数位信息进行学习,进而实现了在对语言模型采用少量训练样本训练后便可以有效提高训练后算术模型计算的准确率。需要理解的是,本专利技术的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本专利技术的其他实施方式还能够实现上面未提到的有益效果。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中在附图中,相同或对应的标号表示相同或对应的部分。图1为本专利技术一实施例基于语言模型进行算术运算的训练方法的示意性流程图;图2为本专利技术另一实施例基于语音模型进行算术运算的训练方法的示意性流程图;图3为本专利技术再一实施例基于语言模型进行算术运算的训练方法的示意性流程图;图4为本专利技术一实施例基于语言模型进行算术运算的训练装置的示意性框图。具体实施方式以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。如图1所示,本专利技术一实施例基于语言模型进行算术运算的训练方法的示意性流程图。一种基于语言模型进行算术运算的训练方法,该方法至少包括如下操作流程:S101,在算式文本中每个字符前添加空格字符,生成准算式文本;S102,对准算式文本进行分词处理,得到与准算式文本对应的列表,列表中包括多个词;S103,将与准算式文本对应的列表作为训练样本,得到训练样本数据;S104,利用语言模型对训练样本数据进行运算训练,生成算术模型。在S101中,例如,算式文本为“10+20=30”,在算式文本中每个字符前添加空格字符后生成的准算式文本为“@1@0@+@2@0@=@3@0”,也就是说每个字符前具有一个空格字符。在S102中,利用分词器对准算式文本进行分词处理,例如对于算式文本“10+20=30”,经由分词器分词处理后将返回[“10”,“+”,“20”,“=”,“30”]的词列表;而对于准算式文本“@1@0@+@2@0@=@3@0”,经由分词器分词处理后将返回[“1”,“0”,“+”,“2”,“0”,“=”,“3”,“0”]的列表。由此可知,通过对算式文本中每个字符前添加空格字符,并进行分词处理,能够将准算式文本中的每一个字符作为一个单独的词本文档来自技高网...

【技术保护点】
1.一种基于语言模型进行算术运算的训练方法,其特征在于,包括:/n在算式文本中每个字符前添加空格字符,生成准算式文本;/n对所述准算式文本进行分词处理,得到与所述准算式文本对应的列表,所述列表中包括多个词;/n将与所述准算式文本对应的列表作为训练样本,得到训练样本数据;/n利用语言模型对所述训练样本数据进行运算训练,生成算术模型。/n

【技术特征摘要】
1.一种基于语言模型进行算术运算的训练方法,其特征在于,包括:
在算式文本中每个字符前添加空格字符,生成准算式文本;
对所述准算式文本进行分词处理,得到与所述准算式文本对应的列表,所述列表中包括多个词;
将与所述准算式文本对应的列表作为训练样本,得到训练样本数据;
利用语言模型对所述训练样本数据进行运算训练,生成算术模型。


2.根据权利要求1所述的方法,其特征在于,所述在算式文本中的每个字符前添加空格字符,生成准算式文本,包括:
获取算式文本,其中,所述算式文本包括多个数字和运算字符,所述数字包括一个或多个数字字符;
在算式文本中每个字符前添加空格字符,生成预算式文本;
针对所述预算式文本中的任一所述数字:获取所述数字中所有数字字符的数位顺序,对所述数字的数位顺序进行转置处理,生成准算式文本。


3.根据权利要求1或2所述的方法,其特征在于,所述训练样本数据包括:一位数的算式文本对应的第一训练样本数据和大于一位数的算式文本对应的第二训练样本数据。


4.根据权利要求1所述的方法,其特征在于,所述语言模型为自回归模型或者自编码模型。


5.根据权利要求1所述的方法,其特征在于,还包括:
获取待计算算式文本;
利用所述算术模型对所述待计算算式文本进行运算处理,得到运算结果;
若所述运算结果满足预设条件,则确定所述待计算算式文本通过了测试。


6.一种基于语言模型进行算术运算的训练装置,其特征在于...

【专利技术属性】
技术研发人员:张旭雷欣李志飞
申请(专利权)人:出门问问武汉信息科技有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1