一种模型持续预训练和信息推荐方法、装置、介质及设备制造方法及图纸

技术编号：46358511 阅读：5 留言：0更新日期：2025-09-15 12:37

本说明书提供了一种模型持续预训练和信息推荐方法、装置、介质及设备。在此方法中，获取目标领域的领域知识文件；将领域知识文件输入预设的对话生成模型，以使对话生成模型根据预设的提示信息，提取领域知识文件中包含的各项领域知识信息，并生成每项领域知识信息对应的查询文本，以及，基于各项领域知识信息及其对应的查询文本构建多轮对话样本；基于多轮对话样本对经过预训练的通用问答模型进行持续预训练。本方案提高了通用问答模型对目标领域下相关内容的语义理解能力，进一步保证了通用问答模型所生成信息的精准性。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书一个或多个实施例涉及计算机，尤其涉及一种模型持续预训练和信息推荐方法、装置、介质及设备。

技术介绍

1、随着人工智能的飞速发展，自然语言处理技术也得到了革命性突破，其中，基于深度神经网络架构的大型语言模型通过海量互联网文本数据的预训练，在通用语言理解与生成任务中展现出强大的泛化能力。此类模型通过捕捉语言统计规律，在开放域对话、文本创作及常识性问答等场景中实现了接近甚至超越人类水平的表现，成为人工智能技术产业化的重要基石。

2、然而，目前通常采用广域的互联网公开数据以及通识性知识来对大语言模型进行预训练，但是预训练后的模型在面对一些样本较为稀缺的专业性领域时，往往会存在错误率高、逻辑推理能力不足等问题，尤其是金融保险领域，其中特有的专业术语、复杂业务逻辑和高频更新的政策使得样本获取的难度较大，在此类样本稀缺的情况下所预训练出的模型对相关内容的语义理解能力较差，难以满足特定行业的精准性需求。

技术实现思路

1、有鉴于此，本说明书一个或多个实施例提供技术方案如下：

>2、根据本说明书一本文档来自技高网...

【技术保护点】

1.一种模型持续预训练方法，包括：

2.如权利要求1所述的方法，基于所述多轮对话样本对经过预训练的通用问答模型进行持续预训练，具体包括：

3.如权利要求1所述的方法，基于所述多轮对话样本对经过预训练的通用问答模型进行持续预训练，具体包括：

4.如权利要求1所述的方法，基于所述多轮对话样本对经过预训练的通用问答模型进行持续预训练，具体包括：

5.如权利要求4所述的方法，若该token所在的输入文本为查询文本，则基于双向注意力机制，确定该token对应的特征表示，具体包括：

6.如权利要求4述的方法，若该token所在的输入文本为领...

【技术特征摘要】

1.一种模型持续预训练方法，包括：

2.如权利要求1所述的方法，基于所述多轮对话样本对经过预训练的通用问答模型进行持续预训练，具体包括：

3.如权利要求1所述的方法，基于所述多轮对话样本对经过预训练的通用问答模型进行持续预训练，具体包括：

4.如权利要求1所述的方法，基于所述多轮对话样本对经过预训练的通用问答模型进行持续预训练，具体包括：

5.如权利要求4所述的方法，若该token所在的输入文本为查询文本，则基于双向注意力机制，确定该token对应的特征表示，具体包括：

6.如权利要求4述的方法，若该token所在的输入文本为领域知识信息，则基于单向注意力机制，确定该token对应的输出特征表示，具体包括：

7.如权利要求1...

【专利技术属性】
技术研发人员：李政，王峰，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人