语言模型的训练方法和文本生成方法技术

技术编号：41066032 阅读：37 留言：0更新日期：2024-04-24 11:20

本申请公开了一种语言模型的训练方法和文本生成方法，属于人工智能技术领域。方法包括：获取样本文本数据和第一语言模型，第一语言模型包括多个第一解码网络，第一解码网络包括第一线性层和第一标准化层；对任一个第一解码网络中的第一线性层进行压缩，得到第二线性层；基于任一个第一解码网络对应的第二解码网络，对第一输入特征进行解码处理得到第一输出特征，第二解码网络包括第二线性层和第一标准化层；基于第一输出特征对第一标准化层进行训练得到第二标准化层；基于各个第一解码网络对应的第三解码网络，确定第二语言模型，第三解码网络包括第二线性层和第二标准化层。本申请降低了模型的参数量，且提高了训练后的语言模型的精度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及人工智能，特别涉及一种语言模型的训练方法和文本生成方法。

技术介绍

1、针对诸如翻译、情感分析、文本分类、问答等多个文本处理任务，可以训练得到语言模型，并通过语言模型执行文本处理任务。然而，由于语言模型的模型参数较多，导致训练耗时较长，资源占用较多。

技术实现思路

1、本申请提供了一种语言模型的训练方法和文本生成方法，可用于解决相关技术中的问题，所述技术方案包括如下内容。

2、一方面，提供了一种语言模型的训练方法，所述方法包括：

3、获取样本文本数据和待训练的第一语言模型，所述第一语言模型包括多个串联的第一解码网络，所述第一解码网络包括第一线性层和第一标准化层；

4、对于任一个第一解码网络，对所述任一个第一解码网络中的第一线性层进行压缩，得到压缩后的第二线性层；

5、基于所述任一个第一解码网络对应的第二解码网络，对第一输入特征进行解码处理，得到第一输出特征，所述第二解码网络包括所述第二线性层和所述第一标准化层，所述第一输入特征...

【技术保护点】

1.一种语言模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述样本文本数据包括多个文本段，所述获取样本文本数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述随机确定所述首个文本段，包括：

4.根据权利要求2所述的方法，其特征在于，所述非首个文本段是所述样本文本数据中的指定文本段或者位于所述指定文本段之前的文本段；所述通过所述第一语言模型基于所述非首个文本段之前的至少一个文本段，生成与所述至少一个文本段语义相关的所述非首个文本段，包括：

5.根据权利要求2所述的方法，其特征在于，所述非首个文本...

【技术特征摘要】

1.一种语言模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述样本文本数据包括多个文本段，所述获取样本文本数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述随机确定所述首个文本段，包括：

5.根据权利要求2所述的方法，其特征在于，所述非首个文本段是所述样本文本数据中位于所述指定文本段之后的文本段；所述通过所述第一语言模型基于所述非首个文本段之前的至少一个文本段，生成与所述至少一...

【专利技术属性】
技术研发人员：李庆源，李亮，张勃，初祥祥，孙业锐，
申请(专利权)人：北京三快在线科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人