OTA场景的大语言模型的训练方法、文本推理方法和系统技术方案

技术编号：40825726 阅读：2 留言：0更新日期：2024-04-01 14:46

本发明专利技术公开了一种OTA场景的大语言模型的训练方法、文本推理方法和系统，该训练方法包括：获取预训练样本集和多任务指令数据集；对领域数据和通用数据进行筛选处理和去重处理，得到第一样本集，并根据第一样本集对初始大模型进行预训练，生成垂直领域大模型；将设定指令数据和任务输入文本数据作为输入，任务输出文本数据作为输出微调训练垂直领域大模型，以获取微调大语言模型。本发明专利技术基于预处理后的OTA领域专业数据训练生成垂直领域大模型，加强对领域专业词汇文本推理的准确度和泛化理解力，基于多任务指令数据集训练垂直领域大模型生成微调大语言模型，实现同时处理多项文本任务，解决部署多个小模型造成部署成本高的问题，提高预测准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习，尤其涉及一种ota场景的大语言模型的训练方法、文本推理方法和系统。

技术介绍

1、在ota(online travel agency，在线旅游)场景主要采用多个小模型处理各种相关类型的线上任务。针对每种类型的线上任务均需部署单独小模型进行服务，当同时进行多个不同种类的线上任务时，则需部署多个不同的小模型，部署成本高；小模型通常没有经过ota领域预训练，对ota领域的专业知识缺乏了解，但ota领域的相关任务常常具备较强的业务逻辑，需要强专业知识，小模型由于自然语言理解和推理能力差，而ota领域的分类、打分任务需要强的推理能力，造成文本预测效果的准确度低。例如，客服对话显示客户表明“已经到了但不让住”，小语言模型应该推理“到店无房”的情况，但是小模型仅擅长对关键词进行识别，在泛化和推理能力上较弱。

技术实现思路

1、本专利技术要解决的技术问题是为了克服现有技术中利用小模型进行ota领域的文本预测部署成本高且预测准确度低的缺陷，提供一种ota场景的大语言模型的训练方法、文本推理方法和系统。

2、本专利技术是通过下述技术方案来解决上述技术问题：

3、第一方面，本专利技术提供一种ota场景的大语言模型的训练方法，所述训练方法包括：

4、获取预训练样本集和多任务指令数据集；所述预训练样本集包括ota领域的领域数据和通用数据，所述多任务指令数据集包括ota领域的多个不同且相关任务对应的设定指令数据、任务输入文本数据和任务输出文本数据；</p>

5、对所述领域数据和所述通用数据进行筛选处理和去重处理，得到第一样本集，并根据所述第一样本集对初始大模型进行预训练，生成垂直领域大模型；

6、将所述设定指令数据和所述任务输入文本数据作为输入，所述任务输出文本数据作为输出微调训练所述垂直领域大模型，以获取微调大语言模型；所述微调大语言模型用于根据多个设定指令数据同时服务多个文本推理的请求任务。

7、较佳地，所述筛选处理包括文本有效性处理和启发式规则处理，所述去重处理包括精确去重处理、质量去重处理和模糊去重处理中的至少一种；

8、所述文本有效性处理用于表征对所述预训练样本集中符号总字数大于第一预设阈值的无效文本数据进行筛除；

9、所述启发式式规则处理用于表征对所述预训练样本集中设定第一数量的连续非中文字片段的无效文本数据进行筛除；

10、所述精确去重处理用于表征对所述预训练样本集中重复长度大于设定第二数量的无效文本数据进行筛除；

11、所述质量去重处理用于表征对所述预训练样本集中不通顺低质量的无效文本数据进行筛除；

12、所述模糊去重处理用于表征对所述预训练样本集中相似度大于第二预设阈值的无效文本数据进行筛除。

13、较佳地，所述领域数据包括ota培训资料、旅游攻略资料、酒店与景点简介资料、酒店与景点点评资料和客服对话资料中至少一种；所述通用数据包括百科数据资料、书籍资料、网页博客资料和新闻资料中的至少一种；所述设定指令数据包括抽取指令、分类指令、摘要指令和情绪打分指令中至少一种。

14、第二方面，本专利技术提供一种文本推理方法，所述文本推理方法包括：

15、利用如第一方面所述的ota场景的大语言模型的训练方法训练出微调大语言模型；

16、获取若干个任务的目标指令数据和相对应的任务原始文本；

17、将所述目标指令数据和相对应的所述任务原始文本同时输入所述微调大语言模型，推理得到相应的任务目标文本。

18、第三方面，本专利技术提供一种ota场景的大语言模型的训练系统，所述训练系统包括：

19、文本获取模块，用于获取预训练样本集和多任务指令数据集；所述预训练样本集包括ota领域的领域数据和通用数据，所述多任务指令数据集包括ota领域的多个不同且相关任务对应的设定指令数据、任务输入文本数据和任务输出文本数据；

20、处理模块，用于对所述领域数据和所述通用数据进行筛选处理和去重处理，得到第一样本集，并根据所述第一样本集对初始大模型进行预训练，生成垂直领域大模型；

21、微调模块，用于将所述设定指令数据和所述任务输入文本数据作为输入，所述任务输出文本数据作为输出微调训练所述垂直领域大模型，以获取微调大语言模型；所述微调大语言模型用于根据多个设定指令数据同时服务多个文本推理的请求任务。

22、较佳地，所述筛选处理包括文本有效性处理和启发式规则处理，所述去重处理包括精确去重处理、质量去重处理和模糊去重处理中的至少一种；

23、所述文本有效性处理用于表征对所述预训练样本集中符号总字数大于第一预设阈值的无效文本数据进行筛除；

24、所述启发式式规则处理用于表征对所述预训练样本集中设定第一数量的连续非中文字片段的无效文本数据进行筛除；

25、所述精确去重处理用于表征对所述预训练样本集中重复长度大于设定第二数量的无效文本数据进行筛除；

26、所述质量去重处理用于表征对所述预训练样本集中不通顺低质量的无效文本数据进行筛除；

27、所述模糊去重处理用于表征对所述预训练样本集中相似度大于第二预设阈值的无效文本数据进行筛除。

28、较佳地，所述领域数据包括ota培训资料、旅游攻略资料、酒店与景点简介资料、酒店与景点点评资料和客服对话资料中至少一种；所述通用数据包括百科数据资料、书籍资料、网页博客资料和新闻资料中的至少一种；所述设定指令数据包括抽取任务数据、分类任务数据、摘要任务数据和打分任务数据中至少一种。

29、第四方面，本专利技术提供一种文本推理系统，所述文本推理系统包括：

30、如第三方面任一项所述的ota场景的大语言模型的训练系统，用于训练微调大语言模型；

31、文本获取模块，用于获取若干个任务的目标指令数据和相对应的任务原始文本；

32、输入模块，用于将所述目标指令数据和相对应的所述任务原始文本同时输入所述微调大语言模型，推理得到相应的任务目标文本。

33、第五方面，本专利技术还提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述任一项所述的ota场景的大语言模型的训练方法，或者执行如上述的所述的文本推理方法。

34、第六方面，本专利技术还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述的ota场景的大语言模型的训练方法，或者执行如上述的所述的文本推理方法。

35、本专利技术的积极进步效果在于：提供一种ota场景的大语言模型的训练方法、文本推理方法和系统，该训练方法基于预处理后的ota领域专业数据训练生成垂直领域大模型，加强对ota领域专业词汇文本推理的准确度和泛化理解力，基于多任务指令数据集训练垂直领域大模型生成微调大语言模型，实本文档来自技高网...

【技术保护点】

1.一种OTA场景的大语言模型的训练方法，其特征在于，所述训练方法包括：

2.如权利要求1所述的OTA场景的大语言模型的训练方法，其特征在于，所述筛选处理包括文本有效性处理和启发式规则处理，所述去重处理包括精确去重处理、质量去重处理和模糊去重处理中的至少一种；

3.如权利要求1所述的OTA场景的大语言模型的训练方法，其特征在于，所述领域数据包括OTA培训资料、旅游攻略资料、酒店与景点简介资料、酒店与景点点评资料和客服对话资料中至少一种；所述通用数据包括百科数据资料、书籍资料、网页博客资料和新闻资料中的至少一种；所述设定指令数据包括抽取指令、分类指令、摘要指令和情绪打分指令中至少一种。

4.一种文本推理方法，其特征在于，所述文本推理方法包括：

5.一种OTA场景的大语言模型的训练系统，其特征在于，所述训练系统包括：

6.如权利要求5所述的OTA场景的大语言模型的训练系统，其特征在于，所述筛选处理包括文本有效性处理和启发式规则处理，所述去重处理包括精确去重处理、质量去重处理和模糊去重处理中的至少一种；

7.如权利

8.一种文本推理系统，其特征在于，所述文本推理系统包括：

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-3中任一项所述的OTA场景的大语言模型的训练方法，或者执行如权利要求4所述的文本推理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-3中任一项所述的OTA场景的大语言模型的训练方法，或者执行如权利要求4所述的文本推理方法。

...

【技术特征摘要】

1.一种ota场景的大语言模型的训练方法，其特征在于，所述训练方法包括：

2.如权利要求1所述的ota场景的大语言模型的训练方法，其特征在于，所述筛选处理包括文本有效性处理和启发式规则处理，所述去重处理包括精确去重处理、质量去重处理和模糊去重处理中的至少一种；

3.如权利要求1所述的ota场景的大语言模型的训练方法，其特征在于，所述领域数据包括ota培训资料、旅游攻略资料、酒店与景点简介资料、酒店与景点点评资料和客服对话资料中至少一种；所述通用数据包括百科数据资料、书籍资料、网页博客资料和新闻资料中的至少一种；所述设定指令数据包括抽取指令、分类指令、摘要指令和情绪打分指令中至少一种。

4.一种文本推理方法，其特征在于，所述文本推理方法包括：

5.一种ota场景的大语言模型的训练系统，其特征在于，所述训练系统包括：

6.如权利要求5所述的ota场景的大语言模型的训练系统，其特征在于，所述筛选处理包括文本有效性处理和启发式规则处理，所述去重处理包括精确去重处理、质量去重处理...

【专利技术属性】
技术研发人员：屈垠岑，江小林，罗超，
申请(专利权)人：携程旅游网络技术上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人