大规模语言模型的开放域问答实现方法、装置及设备制造方法及图纸

技术编号：38681107 阅读：9 留言：0更新日期：2023-09-02 22:53

本发明专利技术涉及深度学习技术领域，公开了一种大规模语言模型的开放域问答实现方法、装置及设备。该方法包括：获取多个切分算子，各切分算子对应的多个切分策略，以及各切分策略对应的通信算子；根据各切分算子、各切分算子对应的多个切分策略和各切分策略对应的通信算子，获取多个候选并行策略；通过预设策略搜索算法在多个候选并行策略中获取目标并行策略；根据目标并行策略进行大规模语言模型的分布式并行训练，以获取训练完成的目标语言模型，并采用目标语言模型实现开放域问答。本实施例的技术方案，通过自动生成候选并行策略和选择最优的并行策略，可以提升大规模语言模型的训练效率，可以提升智能问答的实现效率。可以提升智能问答的实现效率。可以提升智能问答的实现效率。

全部详细技术资料下载

【技术实现步骤摘要】
大规模语言模型的开放域问答实现方法、装置及设备

[0001]本专利技术涉及深度学习
，尤其涉及一种大规模语言模型的开放域问答实现方法、装置及设备。

技术介绍

[0002]随着大规模语言模型的逐渐复杂化，单机单卡已经无法满足大规模模型的训练需求，故多机多卡并行训练成为了当前深度学习领域的研究热点。在多机多卡并行训练中，对如何有效地利用异构众核设备和自动化并行策略的研究受到了广泛关注。
[0003]目前，现有的并行训练方法，通常是利用现有的并行训练框架，例如，TensorFlow、PyTorch等，以实现对大规模模型的并行训练。然而，针对现有的并行训练框架，它们大多侧重于单一硬件平台的优化，无法有效地利用异构众核设备的优势。另外，当前的并行训练框架需要用户手动调整并行训练策略和参数，而且需要针对不同的硬件平台重新优化，对于非专业用户而言较为困难，在实际使用中存在一定的困难和局限性。

技术实现思路

[0004]本专利技术提供了一种大规模语言模型的开放域问答实现方法、装置及设备，可以提升大规模语言模型的训练效率，可以提升智能问答的实现效率。
[0005]根据本专利技术的一方面，提供了一种大规模语言模型的开放域问答实现方法，包括：
[0006]获取多个切分算子，并获取各所述切分算子对应的多个切分策略，以及各所述切分策略对应的通信算子；
[0007]根据各所述切分算子、各所述切分算子对应的多个切分策略和各所述切分策略对应的通信算子，获取多个候选并行策略；
[0008]...

【技术保护点】

【技术特征摘要】
1.一种大规模语言模型的开放域问答实现方法，其特征在于，包括：获取多个切分算子，并获取各所述切分算子对应的多个切分策略，以及各所述切分策略对应的通信算子；根据各所述切分算子、各所述切分算子对应的多个切分策略和各所述切分策略对应的通信算子，获取多个候选并行策略；通过预设策略搜索算法在所述多个候选并行策略中获取目标并行策略；根据所述目标并行策略进行大规模语言模型的分布式并行训练，以获取训练完成的目标语言模型，并采用所述目标语言模型实现开放域问答。2.根据权利要求1所述的方法，其特征在于，通过预设策略搜索算法在所述多个候选并行策略中获取目标并行策略，包括：根据计算开销、通信开销和内存开销，获取损失函数；通过预设策略搜索算法，根据所述损失函数，在所述多个候选并行策略中获取目标并行策略。3.根据权利要求2所述的方法，其特征在于，通过预设策略搜索算法，根据所述损失函数，在所述多个候选并行策略中获取目标并行策略，包括：通过预设策略搜索算法，根据所述损失函数，获取各所述候选并行策略对应的损失值；若检测到当前候选并行策略对应最小损失值，则将所述当前候选并行策略作为目标并行策略。4.根据权利要求1所述的方法，其特征在于，根据所述目标并行策略进行大规模语言模型的分布式并行训练，以获取训练完成的目标语言模型，包括：根据所述目标并行策略，获取目标切分算子、目标切分策略和目标通信算子；根据所述目标切分策略将所述目标切分算子的输入特征进行切分处理，以获取各切分特征，并将各所述切分特征发送到各训练参与设备；通过所述目标通信算子对各所述训练参与设备反馈的计算结果进行通信汇总，以获取所述输入特征对应的总计算结果。5.根据权利要求1
‑
3中任一项所述的方法，其特征在于，所述预设策略搜索算法包括贪心算法...

【专利技术属性】
技术研发人员：吴志华，孙瑞鑫，
申请(专利权)人：太初无锡电子科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人