System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大语言模型的地址分词方法及装置制造方法及图纸_技高网

一种基于大语言模型的地址分词方法及装置制造方法及图纸

技术编号:40832129 阅读:3 留言:0更新日期:2024-04-01 14:55
本发明专利技术公开了一种基于大语言模型的地址分词方法及装置,分为基于标准地址分词模型的指令数据生成,地址分词指令数据的有监督微调训练,基于通用大模型监督的强化学习过程三部分;利用传统地址分词模型来生成训练数据数据集,进行SFT微调训练,RM奖励模型训练,PPO强化学习训练,本发明专利技术方法把地址分词技术迁移到了大模型上,与传统的分词技术相比,在提供基本的地址分词能力的同时,还能够提供交互能力,让用户通过对话的形式使用地址分词技术。通过本发明专利技术训练的地址分词模型同时具备较高的地址分词准确率和较高的通用性。

【技术实现步骤摘要】

本专利技术涉及计算机软件,尤其涉及一种基于大语言模型的地址分词方法及装置


技术介绍

1、本专利技术的主要技术背景为地址分词技术。地址分词技术是一种将地址信息按照省、市、区等规划逐级划分的自然语言处理技术,它作为一种支撑技术被广泛应用于物流、金融等应用场景中。现有的地址分词技术(cn105159949b)流程如下:

2、1.生成标签地址元素词典。获取地址词典表,将地址词典表中所包括的地址元素采用词典标签进行标识得到标签地址元素词典,每个地址元素所包括的字符为地址字符,对每个地址字符采用一个词典标签分别标识。

3、2.生成地址分词标签。获取包括至少一个字的待分词地址,待分词地址中的每个字为待匹配字符,将所述标签地址元素词典中与一个或连续多个待匹配字符相同的地址元素作为与待匹配字符对应的待匹配地址元素,执行预设的规则将待匹配字符采用地址分词标签分别进行标识,地址分词标签包括待匹配字符对应的待匹配地址元素中包括的地址字符的词典标签。

4、3.标签分词。对待分词地址中的待匹配字符,执行预设的规则根据所标识的地址分词标签所包括的词典标签进行分词。

5、现有地址分词方法虽然能够提供地址分词的能力,但是由于现有方法只实现了对于地址进行模式化分词的功能,没有扩展其自然语言交互能力,无法通过自然语言形式与用户进行地址分词任务交互。


技术实现思路

1、本专利技术目的在于针对现有技术的不足,提出一种基于大语言模型的地址分词方法及装置,将小模型的地址分词能力迁移到大模型上,这种方法既提供了地址分词的能力,同时又提供了用户交互的能力。

2、本专利技术的目的是通过以下技术方案来实现的:第一方面,本专利技术提供了一种基于大语言模型的地址分词方法,该方法包括以下步骤:

3、(1)基于标准地址分词模型的指令数据生成:获取原始地址文本,基于标准地址分词模型获取标签数据;建立若干地址问题模板并进行基于通用大模型的模版扩充;基于扩充后的地址问题模版,和标签数据拼接组合成为指令数据集,将地址问题与通用问答数据合并后,然后基于通用大模型的zero-shot生成能力进行泛化,得到能够参与训练的指令数据集,并划分为为sft训练用指令数据集,rm训练用指令数据集,ppo训练用指令数据集;

4、(2)地址分词指令数据的有监督微调训练:使用sft训练用指令数据集进行sft有监督微调训练,每训练一定步数,对当前模型进行基于通用大模型的通用能力测评和地址能力测评,如果评分连续多次下降或达到训练次数,则停止训练,选择评分最高的sft模型作为最终的结果;

5、(3)基于大模型监督的强化学习:基于sft模型与rm训练用指令训练集,按照地址能力或通用能力的排序关系构造<问题,优质答案,次优答案>的三元组,生成供rm训练的rm训练集,进行rm模型训练;使用sft模型作为a,rm模型作为c,然后基于ppo训练用指令数据集进行ppo-ptx强化学习训练,训练结束的a模型即为最终地址分词模型,用于实现地址分词任务,得到地址分词结果。

6、进一步地,所述标准地址分词模型是一个具有对地址字符串进行省市区区划分词能力的模型,通过标准地址分词模型将原地址文本转变为结构化的地址分词文本,得到带有区划等级的结构性地址标签数据。

7、进一步地,模板扩充的过程为:首先通过人工手写一定数量的地址问题模板,再进行基于通用大模型的模板扩充,将模板转写为更多具有多样性的子模版,子模版与原模版同为解决特定地址问题的不同泛化版本;地址问题模板需要有多个相关的槽位,通过对槽位的填充得到不同的地址相关问答对。

8、进一步地,地址问题模板和标签数据拼接过程为:首先获取每类地址问题模板的槽位,然后针对每个地址问题模板类型的槽位要求对分词后的地址数据进行处理,最后对于每一条分好词的地址文本信息,选取一个地址问题模板进行标签数据拼接,得到一个关于地址能力的问答对作为指令数据集,包含指令与响应,分别对应一个问答对中的问题与答案。

9、进一步地,地址能力测评指的是用当前轮模型,对指令数据集中的地址能力问答对进行批量预测,选取正确率为总体得分;通用能力测评指的是利用通用大模型的理解能力,对模型预测的通用问题答案进行打分,总体分数为所有请求的平均值,作为最终的通用能力评分;综合能力评分指的是将通用能力与地址能力评分进行加权得到的总分数。

10、进一步地,生成的rm训练集以及ppo数据的构建过程均需要添加去毒数据。

11、进一步地,ppo-ptx的训练过程中还包含了对于预训练数据的还原过程,选用sft训练指令集中的地址能力部分作为ptx还原数据集。

12、第二方面,本专利技术还提供了一种基于大语言模型的地址分词装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的一种基于大语言模型的地址分词方法。

13、第三方面,本专利技术还提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时,实现所述的一种基于大语言模型的地址分词方法。

14、本专利技术的有益效果:

15、1.本专利技术方法把地址分词技术迁移到了大模型上,与传统的分词技术相比,在提供基本的地址分词能力的同时,还能够提供交互能力,让用户通过对话的形式使用地址分词技术。

16、2.本专利技术方法利用传统地址分词模型来生成训练数据数据集,进行sft微调训练,rm奖励模型训练,ppo强化学习训练,与传统的大模型技术相比,本专利技术方法人工干预少,语料生成效率高、利用率高。

17、3.通过本专利技术训练的地址分词模型同时具备较高的地址分词准确率和较高的通用性。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的地址分词方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种基于大语言模型的地址分词方法,其特征在于,所述标准地址分词模型是一个具有对地址字符串进行省市区区划分词能力的模型,通过标准地址分词模型将原地址文本转变为结构化的地址分词文本,得到带有区划等级的结构性地址标签数据。

3.根据权利要求1所述的一种基于大语言模型的地址分词方法,其特征在于,模板扩充的过程为:首先通过人工手写一定数量的地址问题模板,再进行基于通用大模型的模板扩充,将模板转写为更多具有多样性的子模版,子模版与原模版同为解决特定地址问题的不同泛化版本;地址问题模板需要有多个相关的槽位,通过对槽位的填充得到不同的地址相关问答对。

4.根据权利要求1所述的一种基于大语言模型的地址分词方法,其特征在于,地址问题模板和标签数据拼接过程为:首先获取每类地址问题模板的槽位,然后针对每个地址问题模板类型的槽位要求对分词后的地址数据进行处理,最后对于每一条分好词的地址文本信息,选取一个地址问题模板进行标签数据拼接,得到一个关于地址能力的问答对作为指令数据集,包含指令与响应,分别对应一个问答对中的问题与答案。

5.根据权利要求1所述的一种基于大语言模型的地址分词方法,其特征在于,地址能力测评指的是用当前轮模型,对指令数据集中的地址能力问答对进行批量预测,选取正确率为总体得分;通用能力测评指的是利用通用大模型的理解能力,对模型预测的通用问题答案进行打分,总体分数为所有请求的平均值,作为最终的通用能力评分;综合能力评分指的是将通用能力与地址能力评分进行加权得到的总分数。

6.根据权利要求1所述的一种基于大语言模型的地址分词方法,其特征在于,生成的RM训练集以及PPO数据的构建过程均需要添加去毒数据。

7.根据权利要求1所述的一种基于大语言模型的地址分词方法,其特征在于,PPO-ptx的训练过程中还包含了对于预训练数据的还原过程,选用SFT训练指令集中的地址能力部分作为ptx还原数据集。

8.一种基于大语言模型的地址分词装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,实现如权利要求1-7中任一项所述的一种基于大语言模型的地址分词方法。

9.一种计算机可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时,实现如权利要求1-7中任一项所述的一种基于大语言模型的地址分词方法。

...

【技术特征摘要】

1.一种基于大语言模型的地址分词方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种基于大语言模型的地址分词方法,其特征在于,所述标准地址分词模型是一个具有对地址字符串进行省市区区划分词能力的模型,通过标准地址分词模型将原地址文本转变为结构化的地址分词文本,得到带有区划等级的结构性地址标签数据。

3.根据权利要求1所述的一种基于大语言模型的地址分词方法,其特征在于,模板扩充的过程为:首先通过人工手写一定数量的地址问题模板,再进行基于通用大模型的模板扩充,将模板转写为更多具有多样性的子模版,子模版与原模版同为解决特定地址问题的不同泛化版本;地址问题模板需要有多个相关的槽位,通过对槽位的填充得到不同的地址相关问答对。

4.根据权利要求1所述的一种基于大语言模型的地址分词方法,其特征在于,地址问题模板和标签数据拼接过程为:首先获取每类地址问题模板的槽位,然后针对每个地址问题模板类型的槽位要求对分词后的地址数据进行处理,最后对于每一条分好词的地址文本信息,选取一个地址问题模板进行标签数据拼接,得到一个关于地址能力的问答对作为指令数据集,包含指令与响应,分别对应一个问答对中的问题与答案。

5.根据权利要求1...

【专利技术属性】
技术研发人员:王新根王新宇隋世天高杨陈伟
申请(专利权)人:浙江邦盛科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1