一种训练文本数据获取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:45078840 阅读:14 留言:0更新日期:2025-04-25 18:18
本发明专利技术实施例公开一种训练文本数据获取方法、装置、电子设备及存储介质,该方法包括:建立各个候选文档对应的文本向量,并绘制包括各个文本向量的超立方体;将超立方体平均划分为多个子立方体;确定进行聚类的簇数量并基于簇数量和各个子立方体内文本向量的数量确定初始质心;以及基于簇数量以及初始质心对各个文本向量进行聚类得到多个聚类结果簇,并基于多个聚类结果簇确定训练文本数据。本发明专利技术实施例能够生成专业性强且质量高的训练文本数据。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种训练文本数据获取方法、装置、电子设备及存储介质


技术介绍

1、随着互联网技术的不断发展,大数据、云计算等技术不断累积和精进,以互联网为首的公开数据资源获取渠道以及大量企业内部都积累海量的数据资源。这些数据对于各个领域,包括金融领域的人工智能模型的训练产生显著作用。利用公开渠道获得的大量通用数据结合企业内部积累的专业领域数据进行大模型的预训练和微调训练可以显著提升大模型在专业领域的应用效能。

2、然而,由于公开渠道获取的数据质量参差不齐,无法满足各个专业领域的人工智能训练对于质量和专业性的要求,因此亟需一种能够生成专业性强且质量高的训练文本数据的训练文本生成方案。


技术实现思路

1、本专利技术实施例提供一种训练文本数据获取方法、装置、电子设备及存储介质,能够生成专业性强且质量高的训练文本数据。

2、第一方面,本专利技术实施例提供一种训练文本数据获取方法,包括:

3、建立各个候选文档对应的文本向量,并绘制包括各个文本向量的超立方体;

本文档来自技高网...

【技术保护点】

1.一种训练文本数据获取方法,其特征在于,包括:

2.根据权利要求1所述的训练文本数据获取方法,其特征在于,所述建立各个候选文档对应的文本向量,并绘制包括各个文本向量的超立方体,包括:

3.根据权利要求1所述的训练文本数据获取方法,其特征在于,所述确定进行聚类的簇数量并基于所述簇数量和各个子立方体内所述文本向量的数量确定初始质心,包括:

4.根据权利要求3所述的训练文本数据获取方法,其特征在于,所述基于所述各个子立方体含初始质心的概率以及所述簇数量确定所述初始质心,包括:

5.根据权利要求1所述的训练文本数据获取方法,其特征在于,所述基于所...

【技术特征摘要】

1.一种训练文本数据获取方法,其特征在于,包括:

2.根据权利要求1所述的训练文本数据获取方法,其特征在于,所述建立各个候选文档对应的文本向量,并绘制包括各个文本向量的超立方体,包括:

3.根据权利要求1所述的训练文本数据获取方法,其特征在于,所述确定进行聚类的簇数量并基于所述簇数量和各个子立方体内所述文本向量的数量确定初始质心,包括:

4.根据权利要求3所述的训练文本数据获取方法,其特征在于,所述基于所述各个子立方体含初始质心的概率以及所述簇数量确定所述初始质心,包括:

5.根据权利要求1所述的训练文本数据获取方法,其特征在于,所述基于所述簇数量以及所述初始质心对所述各个文本向量进行聚类得到多个聚类结果簇,包括:

【专利技术属性】
技术研发人员:吴光绪刘华杰
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1