当前位置: 首页 > 专利查询>科大讯飞华南人工智能研究院广州有限公司专利>正文

语言模型的训练方法、文本生成方法及相关装置制造方法及图纸

技术编号：38645416 阅读：13 留言：0更新日期：2023-08-31 18:36

本申请提出一种语言模型的训练方法、文本生成方法及相关装置，能够将原始语句输入到语言模型中，以使语言模型对原始语句中各词汇的权重进行预测，得到原始语句中各词汇的权重值，各词汇的权重表示原始语句中各词汇所表达的语义的重要程度。然后将训练语句输入到语言模型中，以使语言模型基于训练语句进行文本生成，得到文本生成结果。根据原始语句遮罩部分的权重值和文本生成结果，确定语言模型的损失，根据语言模型的损失调整语言模型的参数。如此设置，使模型能够区分不同词汇，并自适应地调整每个词汇所表达的语义的重要程度，而不是无差别地计算错误字数，使得语言模型能够真正地理解语义，实现提高预测结果的准确性的目的。的。的。

全部详细技术资料下载

【技术实现步骤摘要】
语言模型的训练方法、文本生成方法及相关装置

[0001]本申请涉及文本生成
，尤其涉及一种语言模型的训练方法、文本生成方法及相关装置。

技术介绍

[0002]语言模型在进行文本生成训练后，能够根据提供的语料补充生成完整的语句。该类型的语言模型在训练时，一般是通过比较模型的预测结果跟真实标签的差异文本数量，根据差异文本数量对模型的参数进行调整。但是，这种方式使得语言模型预测错误受到的惩罚只与预测数量有关，而跟真实语义无关，导致语言模型无法真正地进行语义理解，影响预测结果的准确性。

技术实现思路

[0003]有鉴于此，本申请提出一种语言模型的训练方法、文本生成方法及相关装置，以解决现有技术中语言模型无法真正地进行语义理解，影响预测结果的准确性的问题。本申请提出的技术方案具体如下：
[0004]第一方面，本申请提供了一种语言模型的训练方法，包括：
[0005]将原始语句输入到语言模型中，以使所述语言模型对所述原始语句中各词汇的权重进行预测，得到所述原始语句中各词汇的权重值；所述各词汇的权重表示所述原始语句中各词汇所表达的语义的重要程度；
[0006]将训练语句输入到所述语言模型中，以使所述语言模型基于所述训练语句进行文本生成，得到文本生成结果；其中，所述训练语句是对所述原始语句进行遮罩处理后得到的，所述文本生成结果包括对所述训练语句中的遮罩部分的预测结果；
[0007]根据所述原始语句遮罩部分的权重值和所述文本生成结果，确定所述语言模型的损失，根据所述语言模型的损失调整...

【技术保护点】

【技术特征摘要】
1.一种语言模型的训练方法，其特征在于，包括：将原始语句输入到语言模型中，以使所述语言模型对所述原始语句中各词汇的权重进行预测，得到所述原始语句中各词汇的权重值；所述各词汇的权重表示所述原始语句中各词汇所表达的语义的重要程度；将训练语句输入到所述语言模型中，以使所述语言模型基于所述训练语句进行文本生成，得到文本生成结果；其中，所述训练语句是对所述原始语句进行遮罩处理后得到的，所述文本生成结果包括对所述训练语句中的遮罩部分的预测结果；根据所述原始语句遮罩部分的权重值和所述文本生成结果，确定所述语言模型的损失，根据所述语言模型的损失调整所述语言模型的参数。2.根据权利要求1所述的方法，其特征在于，所述将原始语句输入到语言模型中，以使所述语言模型对所述原始语句中各词汇的权重进行预测，得到所述原始语句中各词汇的权重值之前，还包括：将所述原始语句作为训练样本，所述原始语句中各词汇的权重值作为训练标签，对所述语言模型进行权重预测训练。3.根据权利要求1所述的方法，其特征在于，所述根据所述原始语句遮罩部分的权重值和所述文本生成结果，确定所述语言模型的损失，包括：根据所述文本生成结果和所述原始语句遮罩部分的差异，确定所述语言模型的文本生成损失；根据所述文本生成损失和所述原始语句遮罩部分的权重值，确定所述语言模型的损失。4.根据权利要求3所述的方法，其特征在于，所述根据所述文本生成损失和所述原始语句遮罩部分的权重值，确定所述语言模型的损失，包括：计算所述文本生成结果中每个词汇对应的文本生成损失的加权和；所述文本生成结果中每个词汇对应的文本生成损失的权重，与所述遮罩部分相同位置的词汇的权重相同；根据所述加权和，确定所述语言模型的损失。5.根据权利要求4所述的方法，其特征在于，所述根据所述加权和，确定所述语言模型的损失，包括：对所述加权和进行归一化处理，得到所述语言模型的损失。6.根据权利要求5所述的方法，其特征在于，所述对所述加权和进行归一化处理，得到所述语言模型的损失，包括：计算所述加权和与所述文本生成结果中每个词汇对应的文本生成损失的权重和之间的比值，确定所述比值为所述语言模型的损失。7.根据权利要求1所述的方法，其特征在于，还包括：将测试语句输入到所述语言模型中，以使所述语言模型基于所述测试语句进行文本生成，得到文本测试结果；根据所述文本测试结果，确定所述语言模型的训练结果。8.一种语言模型的训练装置，其特征在于，包括：第一输入模块，用于将原始语句输入到语言模型中，以使所述语言模型对所述原始语句中各词汇的权重进行预测，得到所述原始语句中各词汇的权重值；所述各词汇的权重表
示所...

【专利技术属性】
技术研发人员：许光辉，杜倩云，沙晶，胡加学，
申请(专利权)人：科大讯飞华南人工智能研究院广州有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人