一种样本数据的生成方法及装置制造方法及图纸

技术编号:35739266 阅读:33 留言:0更新日期:2022-11-26 18:42
本说明书公开了一种样本数据的生成方法及装置,本方案在处理用于训练语言模型的各待处理文本数据时,可以通过第一处理单元先对个待处理文本数据进行预处理,以得到待处理文本数据的编码序列,然后通过第二处理单元,并行处理各待处理文本数据,以得到样本数据,从而可以提升待处理文本数据的处理效率,进而可以减少训练语言模型的所需的时间。减少训练语言模型的所需的时间。减少训练语言模型的所需的时间。

【技术实现步骤摘要】
一种样本数据的生成方法及装置


[0001]本说明书涉及文本处理领域,尤其涉及一种样本数据的生成方法及装置。

技术介绍

[0002]在语言模型的训练过程中,样本数据的生成和模型的训练是分开的,即需要提前对用于训练语言模型的文本数据进行处理,得到样本数据,然后再将样本数据输入到语言模型中,以对语言模型进行训练。
[0003]但是,目前常用的文本数据的处理方法是通过中央处理单元CPU执行循环操作,来逐个的对各文本数据进行处理,从而得到各样本数据,这种基于循环操作处理文本数据的方法效率较低,增加了训练语言模型所需的时间。
[0004]因此,如何能够提升处理用于训练语言模型的文本数据的效率,以减少语言模型的训练时间,则是一个亟待解决的问题。

技术实现思路

[0005]本说明书提供样本数据的生成方法及装置,以部分的解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案:
[0007]本说明书提供了一种样本数据的生成方法,包括:
[0008]获取各待处理文本数据;
>[0009]针对每本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种样本数据的生成方法,其特征在于,包括:获取各待处理文本数据;针对每个待处理文本数据,通过第一处理单元,生成该待处理文本数据对应的编码序列;将每个待处理文本数据对应的编码序列导入到第二处理单元,以通过所述第二处理单元,并行将每个待处理文本数据对应的编码序列中的至少部分字的编码替换为指定编码,生成各样本数据。2.如权利要求1所述的方法,其特征在于,所述第二处理单元中包含有各子处理单元;并行将每个待处理文本数据对应的编码序列中的至少部分字的编码替换为指定编码,具体包括:通过每个子处理单元并行处理每个待处理文本数据,得到每个待处理文本数据对应的样本数据;其中:针对每个子处理单元,通过该子处理单元,确定该子处理单元处理的待处理文本数据中包含的每个词在该待处理文本数据中所处的位置;根据该待处理文本数据中包含的每个词在该待处理文本数据中所处的位置,构建该待处理文本数据对应的特征矩阵;根据该待处理文本数据对应的特征矩阵,将该待处理文本数据对应的编码序列中的至少部分字的编码替换为指定编码,得到该待处理文本数据对应的样本数据。3.如权利要求2所述的方法,其特征在于,根据该待处理文本数据中包含的每个词在该待处理文本数据中所处的位置,构建该待处理文本数据对应的特征矩阵,具体包括:针对该待处理文本数据中包含的每个词,根据该词中包含的每个字在该待处理文本数据中的位置,确定该词对应的行向量;根据该待处理文本数据中包含的每个词在该待处理文本数据中的位置,对该待处理文本数据中包含的每个词对应的行向量进行排序,以构建出该待处理文本数据对应的特征矩阵。4.如权利要求2所述的方法,其特征在于,通过所述第二处理单元,并行将每个待处理文本数据对应的编码序列中的至少部分字的编码替换为指定编码之前,所述方法还包括:针对每个子处理单元,随机调整该子处理单元处理的待处理文本数据中包含的每个词在该待处理文本数据中的位置,得到该待处理文本数据对应的重排信息;通过所述第二处理单元,并行将每个待处理文本数据对应的编码序列中的至少部分字的编码替换为指定编码,具体包括:根据该待处理文本数据对应的重排信息,以及该待处理文本数据对应的特征矩阵,将该待处理文本数据对应的编码序列中的至少部分字...

【专利技术属性】
技术研发人员:李自然孙容一王金刚武威
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1