System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种训练文本数据获取方法、装置、电子设备及存储介质制造方法及图纸_技高网

一种训练文本数据获取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:45078840 阅读:3 留言:0更新日期:2025-04-25 18:18
本发明专利技术实施例公开一种训练文本数据获取方法、装置、电子设备及存储介质,该方法包括:建立各个候选文档对应的文本向量,并绘制包括各个文本向量的超立方体;将超立方体平均划分为多个子立方体;确定进行聚类的簇数量并基于簇数量和各个子立方体内文本向量的数量确定初始质心;以及基于簇数量以及初始质心对各个文本向量进行聚类得到多个聚类结果簇,并基于多个聚类结果簇确定训练文本数据。本发明专利技术实施例能够生成专业性强且质量高的训练文本数据。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种训练文本数据获取方法、装置、电子设备及存储介质


技术介绍

1、随着互联网技术的不断发展,大数据、云计算等技术不断累积和精进,以互联网为首的公开数据资源获取渠道以及大量企业内部都积累海量的数据资源。这些数据对于各个领域,包括金融领域的人工智能模型的训练产生显著作用。利用公开渠道获得的大量通用数据结合企业内部积累的专业领域数据进行大模型的预训练和微调训练可以显著提升大模型在专业领域的应用效能。

2、然而,由于公开渠道获取的数据质量参差不齐,无法满足各个专业领域的人工智能训练对于质量和专业性的要求,因此亟需一种能够生成专业性强且质量高的训练文本数据的训练文本生成方案。


技术实现思路

1、本专利技术实施例提供一种训练文本数据获取方法、装置、电子设备及存储介质,能够生成专业性强且质量高的训练文本数据。

2、第一方面,本专利技术实施例提供一种训练文本数据获取方法,包括:

3、建立各个候选文档对应的文本向量,并绘制包括各个文本向量的超立方体;

4、将所述超立方体平均划分为多个子立方体;

5、确定进行聚类的簇数量并基于所述簇数量和各个子立方体内所述文本向量的数量确定初始质心;以及

6、基于所述簇数量以及所述初始质心对所述各个文本向量进行聚类得到多个聚类结果簇,并基于所述多个聚类结果簇确定训练文本数据。

7、第二方面,本专利技术实施例提供一种训练文本数据获取装置,包括:

<p>8、超立方体获取模块,用于建立各个候选文档对应的文本向量,并绘制包括各个文本向量的超立方体;

9、子立方体获取模块,用于将所述超立方体平均划分为多个子立方体;

10、簇数量和质心获取模块,用于确定进行聚类的簇数量并基于所述簇数量和各个子立方体内所述文本向量的数量确定初始质心;以及

11、聚类结果和训练文本数据获取模块,用于基于所述簇数量以及所述初始质心对所述各个文本向量进行聚类得到多个聚类结果簇,并基于所述多个聚类结果簇确定训练文本数据。

12、第三方面,本专利技术实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本专利技术实施例中任一所述的训练文本数据获取方法。

13、第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术实施例中任一所述的训练文本数据获取方法。

14、本专利技术实施例提供的一种训练文本数据获取方法、装置、电子设备及存储介质,通过建立各个候选文档对应的文本向量,并绘制包括各个文本向量的超立方体,进而平均划分超立方体后基于划分得到的子立方体内文本向量的数量确定聚类的初始质心,可以有效提升初始质心的选取质量,减少了对初始质心选择的敏感性;通过基于初始质心对各个文本向量进行聚类,能够提高聚类的稳定性和一致性,并提升捕捉文本语义信息效率,优化文本聚类效果;进一步通过基于聚类结果簇确定训练文本数据,能够提高获取训练文本数据的效率并提高所获取的训练文本数据的质量和专业性。

本文档来自技高网
...

【技术保护点】

1.一种训练文本数据获取方法,其特征在于,包括:

2.根据权利要求1所述的训练文本数据获取方法,其特征在于,所述建立各个候选文档对应的文本向量,并绘制包括各个文本向量的超立方体,包括:

3.根据权利要求1所述的训练文本数据获取方法,其特征在于,所述确定进行聚类的簇数量并基于所述簇数量和各个子立方体内所述文本向量的数量确定初始质心,包括:

4.根据权利要求3所述的训练文本数据获取方法,其特征在于,所述基于所述各个子立方体含初始质心的概率以及所述簇数量确定所述初始质心,包括:

5.根据权利要求1所述的训练文本数据获取方法,其特征在于,所述基于所述簇数量以及所述初始质心对所述各个文本向量进行聚类得到多个聚类结果簇,包括:

6.根据权利要求5所述的训练文本数据获取方法,其特征在于,所述基于所述簇数量以及所述初始质心对所述各个文本向量进行本轮聚类得到多个本轮结果簇,包括:

7.根据权利要求1所述的训练文本数据获取方法,其特征在于,所述基于所述多个聚类结果簇确定训练文本数据,包括:

8.一种训练文本数据获取装置,其特征在于,包括:

9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一所述的训练文本数据获取方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一所述的训练文本数据获取方法。

...

【技术特征摘要】

1.一种训练文本数据获取方法,其特征在于,包括:

2.根据权利要求1所述的训练文本数据获取方法,其特征在于,所述建立各个候选文档对应的文本向量,并绘制包括各个文本向量的超立方体,包括:

3.根据权利要求1所述的训练文本数据获取方法,其特征在于,所述确定进行聚类的簇数量并基于所述簇数量和各个子立方体内所述文本向量的数量确定初始质心,包括:

4.根据权利要求3所述的训练文本数据获取方法,其特征在于,所述基于所述各个子立方体含初始质心的概率以及所述簇数量确定所述初始质心,包括:

5.根据权利要求1所述的训练文本数据获取方法,其特征在于,所述基于所述簇数量以及所述初始质心对所述各个文本向量进行聚类得到多个聚类结果簇,包括:

【专利技术属性】
技术研发人员:吴光绪刘华杰
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1