一种基于语言模型进行运算的训练方法及装置制造方法及图纸

技术编号：28375302 阅读：26 留言：0更新日期：2021-05-08 00:02

本发明专利技术公开了一种基于语言模型进行算术运算的训练方法及装置，该方法包括在算式文本中每个字符前添加空格字符，生成准算式文本；对所述准算式文本进行分词处理，得到与所述准算式文本对应的列表，所述列表中包括多个词；将与所述准算式文本对应的列表作为训练样本，得到训练样本数据；利用语言模型对所述训练样本数据进行运算训练，生成算术模型。由此，通过添加空格字符和分词处理的方式对算式文本进行预处理，从而使得算式文本中每一个字符作为单独的词输入语言模型，语言模型能够对算式文本的每个字符和每个字符的数位信息进行学习，进而实现了在对语言模型采用少量训练样本训练后便可以有效提高训练后算术模型计算的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语言模型进行运算的训练方法及装置
本专利技术涉及人工智能
，尤其涉及一种基于语言模型进行运算的训练方法及装置。
技术介绍
在最新研究中，由于巨型语言模型GPT-3通过小样本学习的方式可以不经训练直接进行算术运算，因此在算术运算任务中发挥不俗。但是对于较小型的语言模型，如Bert、GPT-2等，使用小样本学习后进行算术运算时准确率几乎为0，基本没有任何实际利用价值。目前，对于较小型的语言模型来说，大部分采用了“预训练+微调”的方式进行模型训练。在这种训练方法下以GPT-2为例，模型训练后生成的算术模型虽然能算对一些算术运算，但是需要大量的训练数据，如两位数加两位数的算术运算，GPT-2就需要超过3200个算式的训练集才能勉强达到10％的准确率，而对于更复杂的三位数加法计算，则需要更加庞大的训练数据集。由此可知，传统的训练方法对于较小型的语言模型的训练是不适宜的。
技术实现思路
为了解决上述现有技术存在的问题，本专利技术实施例提供一种基于语言模型进行运算的训练方法及装置，能够实现在对语言模型采用少量训练样本训练后就可以有效提高训练后生成的算术模型计算的准确率。为实现上述目的，根据本专利技术实施例第一方面，提供一种基于语言模型进行算术运算的训练方法，该方法包括：在算式文本中每个字符前添加空格字符，生成准算式文本；对所述准算式文本进行分词处理，得到与所述准算式文本对应的列表，所述列表中包括多个词；将与所述准算式文本对应的列表作为训练样本，得到训练样本数据；利用语言模型对所述训...

【技术保护点】
1.一种基于语言模型进行算术运算的训练方法，其特征在于，包括：/n在算式文本中每个字符前添加空格字符，生成准算式文本；/n对所述准算式文本进行分词处理，得到与所述准算式文本对应的列表，所述列表中包括多个词；/n将与所述准算式文本对应的列表作为训练样本，得到训练样本数据；/n利用语言模型对所述训练样本数据进行运算训练，生成算术模型。/n

【技术特征摘要】
1.一种基于语言模型进行算术运算的训练方法，其特征在于，包括：
在算式文本中每个字符前添加空格字符，生成准算式文本；
对所述准算式文本进行分词处理，得到与所述准算式文本对应的列表，所述列表中包括多个词；
将与所述准算式文本对应的列表作为训练样本，得到训练样本数据；
利用语言模型对所述训练样本数据进行运算训练，生成算术模型。

2.根据权利要求1所述的方法，其特征在于，所述在算式文本中的每个字符前添加空格字符，生成准算式文本，包括：
获取算式文本，其中，所述算式文本包括多个数字和运算字符，所述数字包括一个或多个数字字符；
在算式文本中每个字符前添加空格字符，生成预算式文本；
针对所述预算式文本中的任一所述数字：获取所述数字中所有数字字符的数位顺序，对所述数字的数位顺序进行转置处理，生成准算式文本。

3.根据权利要求1或2所述的方法，其特征在于，所述训练样本数据包括：一位数的算式文本对应的第一训练样本数据和大于一位数的算式文本对应的第二训练样本数据。

4.根据权利要求1所述的方法，其特征在于，所述语言模型为自回归模型或者自编码模型。

5.根据权利要求1所述的方法，其特征在于，还包括：
获取待计算算式文本；
利用所述算术模型对所述待计算算式文本进行运算处理，得到运算结果；
若所述运算结果满足预设条件，则确定所述待计算算式文本通过了测试。

6.一种基于语言模型进行算术运算的训练装置，其特征在于...

【专利技术属性】
技术研发人员：张旭，雷欣，李志飞，
申请(专利权)人：出门问问武汉信息科技有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人