【技术实现步骤摘要】
一种预训练语料库的构建方法、装置、设备及可读介质
[0001]本专利技术涉及预训练语言模型
,尤其涉及一种预训练语料库的构建方法、装置、设备及可读介质。
技术介绍
[0002]预训练语言模型在近几年已经成为了一个非常流行的研究方向。所谓预训练语言模型,需要利用大量在人们生活中出现过的文本来训练,使语言模型在这些文本中学习到每一个词或字出现的概率分布,从而建模出符合这些文本分布的模型。语言模型的语料的标签就是它的上下文,相对于标注过的语料,无标签语料的获取要容易得多。这就使得人们几乎可以无限制地利用无标签语料来训练语言模型,大规模的语料令预训练语言模型得以获得强大的学习能力,从而使之进一步在下游任务上展现出色的效果。预训练模型提供了更好的模型初始化,这通常会带来更好的泛化性能,加速对目标任务的收敛,并且预训练也可以看作是一种正则化,以避免小数据的过拟合。
[0003]对于大规模预训练模型来说,对预训练语料的准备和清理是很重要的一步。一般来说,数据分为两类:一类为一些公开发布的自然语言处理数据集,另一类为爬虫数据。 ...
【技术保护点】
【技术特征摘要】
1.一种预训练语料库的构建方法,其特征在于,包括以下步骤:基于待构建预训练语料库的大小判断需要数据集规模是否为小规模数据集;若是需要数据集规模不为小规模数据集,则基于预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量;基于所述每个高质量数据集需要提供的token数量和单个高质量数据集的token数量分别计算所述单个高质量数据集的权重;以及基于所述爬虫数据的权重对所述爬虫数据进行采样,基于所述单个高质量数据集的权重分别对所述单个高质量数据集进行采样,以得到预训练语料库。2.根据权利要求1所述的预训练语料库的构建方法,其特征在于,还包括:若是需要数据集规模为小规模数据集,则从高质量数据集中随机采样以得到预训练语料库。3.根据权利要求1所述的预训练语料库的构建方法,其特征在于,若是需要数据集规模不为小规模数据集,则基于预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量包括:若是需要数据集规模为中规模数据集,则基于低预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量;若是需要数据集规模为大规模数据集,则基于高预设token数占比计算爬虫数据的权重和每个高质量数据集需要提供的token数量。4.根据权利要求1所述的预训练语料库的构建方法,其特征在于,基于所述每个高质量数据集需要提供的token数量和单个高质量数据集的token数量分别计算所述单个高质量数据集的权重包括:判断是否存在所述单个高质量数据集的权重超过预设权重;若是存在所述单个高质量数据集的权重超过预设权重,则将所述单个高质量数据集的权重设置为所述预设权重的数值,并重新计算其他所述单个高质量数据集的权重。5.根据权利要求1所述的预训练语料库的构建方法,其特征在于,还包括:基于语言模型的参数量确定待构建预训练语料库的大小。6.根据权利要求5所述的预训练语料库的构建方法,其特征在于,基于语言模型的参数量确定待构建预训练语料库的大小包括:若是语...
【专利技术属性】
技术研发人员:于彤,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。