System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能,尤其涉及一种训练文本数据获取方法、装置、电子设备及存储介质。
技术介绍
1、随着互联网技术的不断发展,大数据、云计算等技术不断累积和精进,以互联网为首的公开数据资源获取渠道以及大量企业内部都积累海量的数据资源。这些数据对于各个领域,包括金融领域的人工智能模型的训练产生显著作用。利用公开渠道获得的大量通用数据结合企业内部积累的专业领域数据进行大模型的预训练和微调训练可以显著提升大模型在专业领域的应用效能。
2、然而,由于公开渠道获取的数据质量参差不齐,无法满足各个专业领域的人工智能训练对于质量和专业性的要求,因此亟需一种能够生成专业性强且质量高的训练文本数据的训练文本生成方案。
技术实现思路
1、本专利技术实施例提供一种训练文本数据获取方法、装置、电子设备及存储介质,能够生成专业性强且质量高的训练文本数据。
2、第一方面,本专利技术实施例提供一种训练文本数据获取方法,包括:
3、建立各个候选文档对应的文本向量,并绘制包括各个文本向量的超立方体;
4、将所述超立方体平均划分为多个子立方体;
5、确定进行聚类的簇数量并基于所述簇数量和各个子立方体内所述文本向量的数量确定初始质心;以及
6、基于所述簇数量以及所述初始质心对所述各个文本向量进行聚类得到多个聚类结果簇,并基于所述多个聚类结果簇确定训练文本数据。
7、第二方面,本专利技术实施例提供一种训练文本数据获取装置,包括:
< ...【技术保护点】
1.一种训练文本数据获取方法,其特征在于,包括:
2.根据权利要求1所述的训练文本数据获取方法,其特征在于,所述建立各个候选文档对应的文本向量,并绘制包括各个文本向量的超立方体,包括:
3.根据权利要求1所述的训练文本数据获取方法,其特征在于,所述确定进行聚类的簇数量并基于所述簇数量和各个子立方体内所述文本向量的数量确定初始质心,包括:
4.根据权利要求3所述的训练文本数据获取方法,其特征在于,所述基于所述各个子立方体含初始质心的概率以及所述簇数量确定所述初始质心,包括:
5.根据权利要求1所述的训练文本数据获取方法,其特征在于,所述基于所述簇数量以及所述初始质心对所述各个文本向量进行聚类得到多个聚类结果簇,包括:
6.根据权利要求5所述的训练文本数据获取方法,其特征在于,所述基于所述簇数量以及所述初始质心对所述各个文本向量进行本轮聚类得到多个本轮结果簇,包括:
7.根据权利要求1所述的训练文本数据获取方法,其特征在于,所述基于所述多个聚类结果簇确定训练文本数据,包括:
8.一种训练文本数据获取装
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一所述的训练文本数据获取方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一所述的训练文本数据获取方法。
...【技术特征摘要】
1.一种训练文本数据获取方法,其特征在于,包括:
2.根据权利要求1所述的训练文本数据获取方法,其特征在于,所述建立各个候选文档对应的文本向量,并绘制包括各个文本向量的超立方体,包括:
3.根据权利要求1所述的训练文本数据获取方法,其特征在于,所述确定进行聚类的簇数量并基于所述簇数量和各个子立方体内所述文本向量的数量确定初始质心,包括:
4.根据权利要求3所述的训练文本数据获取方法,其特征在于,所述基于所述各个子立方体含初始质心的概率以及所述簇数量确定所述初始质心,包括:
5.根据权利要求1所述的训练文本数据获取方法,其特征在于,所述基于所述簇数量以及所述初始质心对所述各个文本向量进行聚类得到多个聚类结果簇,包括:
【专利技术属性】
技术研发人员:吴光绪,刘华杰,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。