System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 面向档案的可信大语言模型训练、推理方法和装置制造方法及图纸_技高网

面向档案的可信大语言模型训练、推理方法和装置制造方法及图纸

技术编号:40289507 阅读:5 留言:0更新日期:2024-02-07 20:40
本发明专利技术提供一种面向档案的可信大语言模型训练、推理方法和装置,该训练方法包括:将多个文本形式的档案数据转化为张量形式数据,以得到第一可信训练集;基于多个文本形式的档案数据,采用有效模型架构来构建预训练语言模型;使用第一可信训练集对预训练语言模型进行无监督学习,并对结果进行有监督微调训练,得到第二可信大语言模型;根据相同用户查询内容与不同候选输出之间的用户偏好排序以及预设模板集合,得到第二可信训练集;使用第二可信训练集对第二可信大语言模型进行无监督学习,并对结果进行有监督训练,得到可信奖励模型;基于可信奖励模型,得到可信大语言模型。本发明专利技术可以更准确、更专业的适配档案推理任务场景。

【技术实现步骤摘要】

本专利技术涉及语言处理,具体地涉及一种面向档案的可信大语言模型训练、推理方法和装置


技术介绍

1、大语言模型(large language model,llm)是一种基于深度学习的自然语言处理技术,它可以通过学习大量语言数据,生成类似人类的流畅响应。这种技术被广泛应用于机器翻译、文本生成、问答系统等领域,成为自然语言处理领域的重要研究方向之一。虽然大语言模型应用非常广泛,但在处理档案学等专业领域或任务时,它们的生成能力仍然受到限制。


技术实现思路

1、本专利技术实施例的目的是提供一种面向档案的可信大语言模型训练、推理方法和装置,可以更准确、更专业的适配档案推理任务场景。

2、为了实现上述目的,本专利技术实施例提供一种面向档案的可信大语言模型训练方法,所述方法包括:将不同类型的档案数据进行预处理,得到多个文本形式的档案数据;将所述多个文本形式的档案数据转化为张量形式数据,以得到第一可信训练集;基于所述多个文本形式的档案数据,采用有效模型架构来构建预训练语言模型;使用所述第一可信训练集对所述预训练语言模型进行无监督学习,得到第一可信大语言模型;使用所述第一可信训练集对所述第一可信大语言模型进行有监督微调训练,得到第二可信大语言模型;根据相同用户查询内容与不同候选输出之间的用户偏好排序以及预设模板集合,得到第二可信训练集;使用所述第二可信训练集对所述第二可信大语言模型进行无监督学习,得到第三可信大语言模型;使用所述第二可信训练集对所述第三可信大语言模型进行有监督训练,得到可信奖励模型;基于所述可信奖励模型,将所述第二可信大语言模型在基于人工反馈的强化学习的训练下,得到可信大语言模型。

3、优选地,所述将所述多个文本形式的档案数据转化为张量形式数据,以得到第一可信训练集包括:针对每个文本形式的档案数据执行以下操作:将文本形式的档案数据切分成子单元;添加特殊子单元,包括开始子单元和结束子单元;构建词汇表,将每个子单元映射唯一整数id;将所述文本形式的档案数据转换为对应的整数id形式的数据;创建输入和输出,其中所述输入为不包括结束子单元的整数id形式的数据,所述输出为不包括开始子单元的整数id形式的数据;将所述输入和所述输出转化为张量形式;将每个文本形式的档案数据的输入和输出组成所述第一可信训练集。

4、优选地,所述基于所述可信奖励模型,将所述第二可信大语言模型在基于人工反馈的强化学习的训练下,得到可信大语言模型包括:确定所述可信奖励模型针对用户查询及各备选输出返回的得分;基于所述可信奖励模型返回的得分,将所述第二可信大语言模型在基于人工反馈的强化学习的训练下,得到所述可信大语言模型。

5、本专利技术实施例还提供一种面向档案的可信大语言模型推理方法,该方法使用上文所述训练的面向档案的可信大语言模型,所述方法包括:根据用户提供的输入任务,构建第一可信推理数据集;将所述第一可信提示数据集分解成多个子单元;将所述多个子单元进行编码,以将每个子单元转化成向量形式;将编码后的数据调整为所述可信大语言模型的输入格式,以输入所述可信大语言模型进行推理;使用对应编码的解码方法对推理结果进行解码,以得到推理结果。

6、优选地,该方法还包括对所述推理结果采用bleu指标进行自动评测。

7、本专利技术实施例还提供一种面向档案的可信大语言模型训练装置,所述装置包括:数据文本化单元、第一可信训练集构建单元、预训练语言模型构建单元、第一可信大语言模型构建单元、第二可信大语言模型构建单元、第二可信训练集构建单元、第三可信大语言模型构建单元、可信奖励模型构建单元以及强化学习单元,其中,所述数据文本化单元用于将不同类型的档案数据进行预处理,得到多个文本形式的档案数据;所述第一可信训练集构建单元用于将所述多个文本形式的档案数据转化为张量形式数据,以得到第一可信训练集;所述预训练语言模型构建单元用于基于所述多个文本形式的档案数据,采用有效模型架构来构建预训练语言模型;所述第一可信大语言模型构建单元用于使用所述第一可信训练集对所述预训练语言模型进行无监督学习,得到第一可信大语言模型;所述第二可信大语言模型构建单元用于使用所述第一可信训练集对所述第一可信大语言模型进行有监督微调训练,得到第二可信大语言模型;所述第二可信训练集构建单元用于根据相同用户查询内容与不同候选输出之间的用户偏好排序以及预设模板集合,得到第二可信训练集;所述第三可信大语言模型构建单元用于使用所述第二可信训练集对所述第二可信大语言模型进行无监督学习,得到第三可信大语言模型;所述可信奖励模型构建单元用于使用所述第二可信训练集对所述第三可信大语言模型进行有监督训练,得到可信奖励模型;所述强化学习单元用于基于所述可信奖励模型,将所述第二可信大语言模型在基于人工反馈的强化学习的训练下,得到可信大语言模型。

8、优选地,所述第一可信训练集构建单元用于:针对每个文本形式的档案数据执行以下操作:将文本形式的档案数据切分成子单元;添加特殊子单元,包括开始子单元和结束子单元;构建词汇表,将每个子单元映射唯一整数id;将所述文本形式的档案数据转换为对应的整数id形式的数据;创建输入和输出,其中所述输入为不包括结束子单元的整数id形式的数据,所述输出为不包括开始子单元的整数id形式的数据;将所述输入和所述输出转化为张量形式;将每个文本形式的档案数据的输入和输出组成所述第一可信训练集。

9、优选地,所述强化学习单元用于:确定所述可信奖励模型针对用户查询及各备选输出返回的得分;基于所述可信奖励模型返回的得分,将所述第二可信大语言模型在基于人工反馈的强化学习的训练下,得到所述可信大语言模型。

10、本专利技术实施例还提供一种面向档案的可信大语言模型推理装置,该装置使用上文所述的面向档案的可信大语言模型,所述装置包括:第一可信推理数据集构建单元、子单元分解单元、子单元编码单元、推理单元以及解码单元,其中,所述第一可信推理数据集构建单元用于根据用户提供的输入任务,构建第一可信推理数据集;所述子单元分解单元用于将所述第一可信提示数据集分解成多个子单元;所述子单元编码单元用于将所述多个子单元进行编码,以将每个子单元转化成向量形式;所述推理单元用于将编码后的数据调整为所述可信大语言模型的输入格式,以输入所述可信大语言模型进行推理;所述解码单元用于使用对应编码的解码方法对推理结果进行解码,以得到推理结果。

11、优选地,该装置还包括自动评测单元,用于对所述推理结果采用bleu指标进行自动评测。

12、通过上述技术方案,采用本专利技术实施例提供的一种面向档案的可信大语言模型训练、推理方法和装置,将大大提升档案馆或档案部门的工作效率,助力档案事业的数据化、智能化,可以面向档案资源的特性形成一站式的档案资源训练和推理服务,更准确、更专业的适配档案推理任务场景。

13、本专利技术实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

本文档来自技高网...

【技术保护点】

1.一种面向档案的可信大语言模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的面向档案的可信大语言模型训练方法,其特征在于,所述将所述多个文本形式的档案数据转化为张量形式数据,以得到第一可信训练集包括:

3.根据权利要求1所述的面向档案的可信大语言模型训练方法,其特征在于,所述基于所述可信奖励模型,将所述第二可信大语言模型在基于人工反馈的强化学习的训练下,得到可信大语言模型包括:

4.一种面向档案的可信大语言模型推理方法,其特征在于,该方法使用权利要求1-3训练的面向档案的可信大语言模型,所述方法包括:

5.根据权利要求4所述的面向档案的可信大语言模型推理方法,其特征在于,该方法还包括:

6.一种面向档案的可信大语言模型训练装置,其特征在于,所述装置包括:

7.根据权利要求6所述的面向档案的可信大语言模型训练装置,其特征在于,所述第一可信训练集构建单元用于:

8.根据权利要求6所述的面向档案的可信大语言模型训练装置,其特征在于,所述强化学习单元用于:

9.一种面向档案的可信大语言模型推理装置,其特征在于,该装置使用权利要求6-8训练的面向档案的可信大语言模型,所述装置包括:

10.根据权利要求9所述的面向档案的可信大语言模型推理装置,其特征在于,该装置还包括:

...

【技术特征摘要】

1.一种面向档案的可信大语言模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的面向档案的可信大语言模型训练方法,其特征在于,所述将所述多个文本形式的档案数据转化为张量形式数据,以得到第一可信训练集包括:

3.根据权利要求1所述的面向档案的可信大语言模型训练方法,其特征在于,所述基于所述可信奖励模型,将所述第二可信大语言模型在基于人工反馈的强化学习的训练下,得到可信大语言模型包括:

4.一种面向档案的可信大语言模型推理方法,其特征在于,该方法使用权利要求1-3训练的面向档案的可信大语言模型,所述方法包括:

5.根据权利要求4所述的面...

【专利技术属性】
技术研发人员:杨建梁钱明辉李胡蓉鞠翔潘菲匡扶王驰赵梦纯郭佳璐苟佳洁孙可
申请(专利权)人:北京微点科学技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1