保险领域大模型的训练数据确定方法、装置、设备及介质制造方法及图纸

技术编号：43923943 阅读：21 留言：0更新日期：2025-01-03 13:28

本发明专利技术提供一种保险领域大模型的训练数据确定方法、装置、设备及介质，涉及数据处理技术领域，该方法包括：获取至少一个保险领域文本数据和至少一个通用文本数据；通用文本数据是包含保险领域文本数据和除保险领域文本数据之外的其他领域的文本数据；对保险领域文本数据和通用文本数据进行过滤处理，得到第一训练数据；对第一训练数据进行聚类处理，得到第二训练数据；基于第二训练数据，确定目标训练数据；目标训练数据用于训练保险领域大模型。本发明专利技术通过获取广泛的数据，对数据进行一系列处理，缓解模大模型“记忆遗失”，提高大模型的泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，尤其涉及一种保险领域大模型的训练数据确定方法、装置、设备及介质。

技术介绍

1、在保险领域模型训练过程中，如果训练样本过于集中在某一个方向或场景，在垂直领域二次训练或微调中，模型可能会丧失一些原有的通用能力，变得只擅长处理当前训练场景的数据，而对其他场景的处理能力下降，出现大模型“记忆遗失”，从而降低大模型的泛化能力。

技术实现思路

1、本专利技术提供一种保险领域大模型的训练数据确定方法、装置、设备及介质，用以解决现有技术中由于训练样本过于集中导致模型出现“记忆遗失”的缺陷，实现通过获取广泛的数据，对数据进行一系列处理，缓解模大模型“记忆遗失”，提高大模型的泛化能力。

2、本专利技术提供一种保险领域大模型的训练数据确定方法，包括：

3、获取至少一个保险领域文本数据和至少一个通用文本数据；所述通用文本数据是包含所述保险领域文本数据和除所述保险领域文本数据之外的其他领域的文本数据；

4、对所述保险领域文本数据和所述通用文本数据进行过滤...

【技术保护点】

1.一种保险领域大模型的训练数据确定方法，其特征在于，包括：

2.根据权利要求1所述的保险领域大模型的训练数据确定方法，其特征在于，所述过滤处理包括去重和清洗，所述对所述保险领域文本数据和所述通用文本数据进行过滤处理，得到第一训练数据，包括：

3.根据权利要求1所述的保险领域大模型的训练数据确定方法，其特征在于，所述对所述第一训练数据进行聚类处理，得到第二训练数据，包括：

4.根据权利要求3所述的保险领域大模型的训练数据确定方法，其特征在于，所述基于所述K个第一聚类结果和所述初始聚类中心，确定所述第二训练数据，包括：

5.根据权利要求4所述...

【技术特征摘要】

1.一种保险领域大模型的训练数据确定方法，其特征在于，包括：

3.根据权利要求1所述的保险领域大模型的训练数据确定方法，其特征在于，所述对所述第一训练数据进行聚类处理，得到第二训练数据，包括：

4.根据权利要求3所述的保险领域大模型的训练数据确定方法，其特征在于，所述基于所述k个第一聚类结果和所述初始聚类中心，确定所述第二训练数据，包括：

5.根据权利要求4所述的保险领域大模型的训练数据确定方法，其特征在于，所述基于所述目标聚类结果，确定所述第二训练数据，包括：

6.根据权利要求1至5任...

【专利技术属性】
技术研发人员：陈维尧，范乙琛，金雯，王波，方锐，
申请(专利权)人：元保科创北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人