大规模语言模型的开放域问答实现方法、装置及设备制造方法及图纸

技术编号:38681107 阅读:9 留言:0更新日期:2023-09-02 22:53
本发明专利技术涉及深度学习技术领域,公开了一种大规模语言模型的开放域问答实现方法、装置及设备。该方法包括:获取多个切分算子,各切分算子对应的多个切分策略,以及各切分策略对应的通信算子;根据各切分算子、各切分算子对应的多个切分策略和各切分策略对应的通信算子,获取多个候选并行策略;通过预设策略搜索算法在多个候选并行策略中获取目标并行策略;根据目标并行策略进行大规模语言模型的分布式并行训练,以获取训练完成的目标语言模型,并采用目标语言模型实现开放域问答。本实施例的技术方案,通过自动生成候选并行策略和选择最优的并行策略,可以提升大规模语言模型的训练效率,可以提升智能问答的实现效率。可以提升智能问答的实现效率。可以提升智能问答的实现效率。

【技术实现步骤摘要】
大规模语言模型的开放域问答实现方法、装置及设备


[0001]本专利技术涉及深度学习
,尤其涉及一种大规模语言模型的开放域问答实现方法、装置及设备。

技术介绍

[0002]随着大规模语言模型的逐渐复杂化,单机单卡已经无法满足大规模模型的训练需求,故多机多卡并行训练成为了当前深度学习领域的研究热点。在多机多卡并行训练中,对如何有效地利用异构众核设备和自动化并行策略的研究受到了广泛关注。
[0003]目前,现有的并行训练方法,通常是利用现有的并行训练框架,例如,TensorFlow、PyTorch等,以实现对大规模模型的并行训练。然而,针对现有的并行训练框架,它们大多侧重于单一硬件平台的优化,无法有效地利用异构众核设备的优势。另外,当前的并行训练框架需要用户手动调整并行训练策略和参数,而且需要针对不同的硬件平台重新优化,对于非专业用户而言较为困难,在实际使用中存在一定的困难和局限性。

技术实现思路

[0004]本专利技术提供了一种大规模语言模型的开放域问答实现方法、装置及设备,可以提升大规模语言模型的训练效率,可以提升智能问答的实现效率。
[0005]根据本专利技术的一方面,提供了一种大规模语言模型的开放域问答实现方法,包括:
[0006]获取多个切分算子,并获取各所述切分算子对应的多个切分策略,以及各所述切分策略对应的通信算子;
[0007]根据各所述切分算子、各所述切分算子对应的多个切分策略和各所述切分策略对应的通信算子,获取多个候选并行策略;
[0008]通过预设策略搜索算法在所述多个候选并行策略中获取目标并行策略;
[0009]根据所述目标并行策略进行大规模语言模型的分布式并行训练,以获取训练完成的目标语言模型,并采用所述目标语言模型实现开放域问答。
[0010]根据本专利技术的另一方面,提供了一种大规模语言模型的开放域问答实现装置,包括:
[0011]切分算子获取模块,用于获取多个切分算子,并获取各所述切分算子对应的多个切分策略,以及各所述切分策略对应的通信算子;
[0012]候选并行策略获取模块,用于根据各所述切分算子、各所述切分算子对应的多个切分策略和各所述切分策略对应的通信算子,获取多个候选并行策略;
[0013]目标并行策略获取模块,用于通过预设策略搜索算法在所述多个候选并行策略中获取目标并行策略;
[0014]模型训练模块,用于根据所述目标并行策略进行大规模语言模型的分布式并行训练,以获取训练完成的目标语言模型,并采用所述目标语言模型实现开放域问答。
[0015]根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:
[0016]至少一个处理器;以及
[0017]与所述至少一个处理器通信连接的存储器;其中,
[0018]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的大规模语言模型的开放域问答实现方法。
[0019]根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的大规模语言模型的开放域问答实现方法。
[0020]本专利技术实施例的技术方案,通过获取多个切分算子,各切分算子对应的多个切分策略,以及各切分策略对应的通信算子;然后,根据各切分算子、各切分算子对应的多个切分策略和各切分策略对应的通信算子,获取多个候选并行策略,并通过预设策略搜索算法在多个候选并行策略中获取目标并行策略;最后,根据目标并行策略进行大规模语言模型的分布式并行训练,以获取训练完成的目标语言模型,并采用目标语言模型实现开放域问答,通过自动生成候选并行策略和选择最优的并行策略,可以提升大规模语言模型的训练效率,可以提升智能问答的实现效率。
[0021]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0022]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1A是根据本专利技术实施例一提供的一种大规模语言模型的开放域问答实现方法的流程图;
[0024]图1B是根据本专利技术实施例一提供的一种异构众核设备的结构示意图;
[0025]图1C是根据本专利技术实施例一提供的一种策略搜索流程示意图;
[0026]图1D是根据本专利技术实施例一提供的一种算子插入示意图;
[0027]图2是根据本专利技术实施例二提供的一种大规模语言模型的开放域问答实现装置的结构示意图;
[0028]图3是实现本专利技术实施例的大规模语言模型的开放域问答实现方法的电子设备的结构示意图。
具体实施方式
[0029]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0030]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“目标”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0031]实施例一:
[0032]图1A为本专利技术实施例一提供了一种大规模语言模型的开放域问答实现方法的流程图,本实施例可适用于利用基于异构众核设备并行训练得到的大规模语言模型实现开放域问答的情况,该方法可以由大规模语言模型的开放域问答实现装置来执行,该大规模语言模型的开放域问答实现装置可以采用硬件和/或软件的形式实现,该大规模语言模型的开放域问答实现装置可配置于电子设备中,典型的,电子设备可以是计算机设备或者服务器。如图1A所示,该方法包括:
[0033]S110、获取多个切分算子,并获取各所述切分算子对应的多个切分策略,以及各所述切分策略对应的通信算子。
[0034]其中,算子,可以是深度学习模型的组成单元,用于实现特定的数据处理功能,例如,可以是卷积层算子、池化层算子等。切分算子,可以是具有特征或者数据切分处理能本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大规模语言模型的开放域问答实现方法,其特征在于,包括:获取多个切分算子,并获取各所述切分算子对应的多个切分策略,以及各所述切分策略对应的通信算子;根据各所述切分算子、各所述切分算子对应的多个切分策略和各所述切分策略对应的通信算子,获取多个候选并行策略;通过预设策略搜索算法在所述多个候选并行策略中获取目标并行策略;根据所述目标并行策略进行大规模语言模型的分布式并行训练,以获取训练完成的目标语言模型,并采用所述目标语言模型实现开放域问答。2.根据权利要求1所述的方法,其特征在于,通过预设策略搜索算法在所述多个候选并行策略中获取目标并行策略,包括:根据计算开销、通信开销和内存开销,获取损失函数;通过预设策略搜索算法,根据所述损失函数,在所述多个候选并行策略中获取目标并行策略。3.根据权利要求2所述的方法,其特征在于,通过预设策略搜索算法,根据所述损失函数,在所述多个候选并行策略中获取目标并行策略,包括:通过预设策略搜索算法,根据所述损失函数,获取各所述候选并行策略对应的损失值;若检测到当前候选并行策略对应最小损失值,则将所述当前候选并行策略作为目标并行策略。4.根据权利要求1所述的方法,其特征在于,根据所述目标并行策略进行大规模语言模型的分布式并行训练,以获取训练完成的目标语言模型,包括:根据所述目标并行策略,获取目标切分算子、目标切分策略和目标通信算子;根据所述目标切分策略将所述目标切分算子的输入特征进行切分处理,以获取各切分特征,并将各所述切分特征发送到各训练参与设备;通过所述目标通信算子对各所述训练参与设备反馈的计算结果进行通信汇总,以获取所述输入特征对应的总计算结果。5.根据权利要求1

3中任一项所述的方法,其特征在于,所述预设策略搜索算法包括贪心算法...

【专利技术属性】
技术研发人员:吴志华孙瑞鑫
申请(专利权)人:太初无锡电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1