System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于字典树的生成式神经网络模型的预训练方法技术_技高网
当前位置: 首页 > 专利查询>刘凡平专利>正文

一种基于字典树的生成式神经网络模型的预训练方法技术

技术编号:41089501 阅读:3 留言:0更新日期:2024-04-25 13:50
本发明专利技术提供了一种基于字典树的生成式神经网络模型的预训练方法,包括如下方法步骤:S1、获取原始数据,建立字典树,其中,字典树包括N层结构,N≥2;S2、抽取字典树的第K层的数据,输入生成式神经网络模型的输入层对生成式神经网络模型进行预训练,K=1、2、…、N‑1;其中,生成式神经网络模型预训练过程中采用二元交叉熵损失函数更新参数;S3、抽取字典树的第K+1层的数据,输入预训练好的生成式神经网络模型,对字典树的第K+1层的数据进行预测。本发明专利技术采用层次化的训练,提升数据采样的效率,提升生成式神经网络模型的收敛速度、降低不同词语对下一个词语预测的干扰。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其是涉及一种基于字典树的生成式神经网络模型的预训练方法


技术介绍

1、现有技术中通常采用给定未标注的语料库u={u1,u2,u3,u4,…,un},对生成式神经网络模型进行预训练,通过最大似然估计函数在预训练过程中更新参数。

2、例如,最大似然估计函数l1(u)=∑ilogp(ui|u1,…,uk-1;θ),其中,k为上下文的窗口大小(预测词前面的文章或段落的字数),p为条件概率,θ为条件概率的参数。

3、设输入的n个词语的词嵌入(embedding)为we,位置编码矩阵为wp,将n个词语的词嵌入(embedding)we和位置编码矩阵为wp输入到transformer模型中,通过n个输出词语来预测第n+1个词语。

4、transformer模型的输入层的输入为h0=we+wp,将其输入至transformer模型的解码器(decoder)中,得到transformer模型的输出结果hm,即:

5、其中,m为transformer模型的层数。

6、最后基于transformer模型的输出结果hm预测下一个词语的概率:

7、现有技术中给定未标注的语料库u={u1,u2,u3,u4,…,un}对生成式神经网络模型进行预训练,预训练数据的量级特别大,训练周期太长,不利于收敛,而且词语之间存在波动性特征,导致一个词语与后续的词语相互干扰,导致收敛周期变长。


技术实现思路

1、本专利技术提供了一种基于字典树的生成式神经网络模型的预训练方法,以解决现有技术中预训练数据的量级大,训练周期长的技术问题。

2、本专利技术的一个方面在于提供一种基于字典树的生成式神经网络模型的预训练方法,所述预训练方法包括如下方法步骤:

3、s1、获取原始数据,建立字典树,其中,所述字典树包括n层结构,n≥2;

4、s2、抽取所述字典树的第k层的数据,输入生成式神经网络模型的输入层对生成式神经网络模型进行预训练,k=1、2、…、n-1;

5、其中,生成式神经网络模型预训练过程中采用二元交叉熵损失函数更新参数;

6、s3、抽取所述字典树的第k+1层的数据,输入预训练好的生成式神经网络模型,对所述字典树的第k+1层的数据进行预测。

7、在一个优选的实施例中,在步骤s2中,所述二元交叉熵损失函数通过如下方法更新参数:

8、

9、其中,loss是二元交叉熵损失函数;y是二元标签,值为0或者1;p(y)是输出属于二元标签y的概率;i=1、2、…、n。

10、本专利技术的另一个方面在于提供一种基于字典树的生成式神经网络模型的预训练系统,所述预训练系统包括:

11、字典树建立模块,用于获取原始数据,建立字典树,其中,所述字典树包括n层结构,n≥2;

12、生成式神经网络模型训练模块,用于抽取所述字典树的第k层的数据,输入生成式神经网络模型的输入层对生成式神经网络模型进行预训练,k=1、2、…、n-1;

13、其中,生成式神经网络模型预训练过程中采用二元交叉熵损失函数更新参数;

14、生成式神经网络模型预测模块,用于抽取所述字典树的第k+1层的数据,输入预训练好的生成式神经网络模型,对所述字典树的第k+1层的数据进行预测。

15、在一个优选的实施例中,所述二元交叉熵损失函数通过如下方法更新参数:

16、

17、其中,loss是二元交叉熵损失函数;y是二元标签,值为0或者1;p(y)是输出属于二元标签y的概率;i=1、2、…、n。

18、本专利技术的又一个方面在于提供一种计算机存储介质,所述计算机存储介质用于存储计算机执行指令,所述计算机执行指令,用于执行本专利技术一种基于字典树的生成式神经网络模型的预训练方法。

19、与现有技术相比,本专利技术具有以下有益效果:

20、本专利技术提供的一种基于字典树的生成式神经网络模型的预训练方法,对生成式神经网络模型的预训练过程中,以建立的字典树的层级结构替代上下文的窗口大小(预测词前面的文章或段落的字数),作为输入数据,提升模型的适应能力和训练效率。

21、本专利技术提供的一种基于字典树的生成式神经网络模型的预训练方法,生成式神经网络模型的预训练过程中,采用二元交叉熵损失函数更新参数替代最大似然估计函数更新参数,输出的结果多种的单一可能性,变成了只是排除不可能,展示全部可能性的数据结果,输出的结果不再局限于一个结果,从单分类问题转换为多分类问题。

22、本专利技术提供的一种基于字典树的生成式神经网络模型的预训练方法,采用层次化的训练,可以提升数据采样的效率。按层次化训练,可以提升模型的收敛速度、降低不同词语对下一个词语预测的干扰。

本文档来自技高网...

【技术保护点】

1.一种基于字典树的生成式神经网络模型的预训练方法,其特征在于,所述预训练方法包括如下方法步骤:

2.根据权利要求1所述的预训练方法,其特征在于,在步骤S2中,所述二元交叉熵损失函数通过如下方法更新参数:

3.一种基于字典树的生成式神经网络模型的预训练系统,其特征在于,所述预训练系统包括:

4.根据权利要求3所述的预训练系统,其特征在于,所述二元交叉熵损失函数通过如下方法更新参数:

5.一种计算机存储介质,其特征在于,所述计算机存储介质用于存储计算机执行指令,所述计算机执行指令,用于执行权利要求1或2任一权利要求所述的预训练方法。

【技术特征摘要】

1.一种基于字典树的生成式神经网络模型的预训练方法,其特征在于,所述预训练方法包括如下方法步骤:

2.根据权利要求1所述的预训练方法,其特征在于,在步骤s2中,所述二元交叉熵损失函数通过如下方法更新参数:

3.一种基于字典树的生成式神经网络模型的预训练系统,其特征在于...

【专利技术属性】
技术研发人员:刘凡平
申请(专利权)人:刘凡平
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1