当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于子词编码和逆文档频率遮蔽的中文预训练方法技术

技术编号:35404324 阅读:20 留言:0更新日期:2022-11-03 10:56
本发明专利技术提供了一种基于子词编码和逆文档频率遮蔽的中文预训练方法,用于中文语言模型的预训练,包括以下步骤:步骤1,收集中文语料,根据语料通过迭代算法学习一元语言模型,得到词典和出现概率;步骤2,基于一元语言模型对中文语言模型的输入文本进行子词编码,得到子词元素序列;步骤3,计算子词元素序列中每个子词元素的逆文档频率;步骤4,通过逆文档频率遮蔽预测任务来进行预训练,将逆文档频率最高的子词元素进行遮蔽,中文语言模型通过对被遮蔽的子词元素进行预测来进行预训练;步骤5,将语料输入中文语言模型,经过子词编码和计算逆文档频率后通过逆文档频率遮蔽预测任务进行预训练,在计算训练后得到训练好的中文语言模型。在计算训练后得到训练好的中文语言模型。在计算训练后得到训练好的中文语言模型。

【技术实现步骤摘要】
一种基于子词编码和逆文档频率遮蔽的中文预训练方法


[0001]本专利技术属于计算机信息处理
,具体涉及一种基于子词编码和逆文档频率遮蔽的中文预训练方法。

技术介绍

[0002]随着信息处理技术和人工智能的不断发展,预训练方法在不同的自然语言处理任务中得到广泛应用,起到了至关重要的作用。许多的大型企业和研究机构例如谷歌,Facebook和百度,阿里巴巴等针对预训练方法都进行了大规模深入地研究。
[0003]在训练中文预训练模型时,不能完全照搬英文预训练的方法。不同于英文,中文没有显式的词边界,并且有两种不同的编码方式,字级别和词级别。现如今的中文预训练方法多采用字级别编码,这样会导致句子序列过长,编码效率下降,并且需要额外的训练方法来融合词级别的信息。另外,直接使用词级别的编码会产生数据稀疏,未登录词,错误传播等问题,损害预训练的性能。

技术实现思路

[0004]本专利技术是为了解决上述问题而进行的,目的在于提供一种基于子词编码和逆文档频率遮蔽的中文预训练方法。
[0005]本专利技术提供了一种基于子词编码和逆文档频率遮蔽的中文预训练方法,用于中文语言模型的预训练,具有这样的特征,包括以下步骤:步骤1,收集大规模无监督的中文语料,根据大规模无监督的中文语料通过迭代算法学习一元语言模型,得到一元语言模型中用于子词编码的词典和出现概率;
[0006]步骤2,基于一元语言模型对中文语言模型的输入文本进行子词编码,得到子词元素序列;
[0007]步骤3,计算子词元素序列中每个子词元素的逆文档频率;
[0008]步骤4,通过逆文档频率遮蔽预测任务来进行预训练,该逆文档频率遮蔽预测任务为将逆文档频率最高的子词元素进行遮蔽,中文语言模型通过对被遮蔽的子词元素进行预测来进行预训练;
[0009]步骤5,将大规模无监督的中文语料输入中文语言模型,分别经过子词编码和计算逆文档频率后通过逆文档频率遮蔽预测任务来进行预训练,在经过大规模计算训练后得到训练好的中文语言模型,
[0010]其中,一元语言模型假设每个子词元素都独立出现,将一段文本作为一个子词元素序列,该段文本的出现概率为文本中所有子词元素出现概率的乘积:
[0011][0012][0013]公式(1)中,V为一个可学习的词典,x为输入的文本,x
i
为一个子词元素,通过计算大规模无监督的中文语料形成的整个数据集上中文语言模型的似然L来优化出现概率p(x),公式如下:
[0014][0015]在本专利技术提供的基于子词编码和逆文档频率遮蔽的中文预训练方法中,还可以具有这样的特征:其中,步骤1中,词典和出现概率通过迭代算法进行计算,具体如下:
[0016]步骤1

1,根据大规模无监督的中文语料,启发式地得到比较大的词典,作为迭代的种子词典;
[0017]步骤1

2,固定种子词典,利用EM算法优化出现概率p(x);
[0018]步骤1

3,对种子词典中每个子词元素x
i
计算loss,其中loss为当对应子词元素从种子词典删除后,整个数据集上的似然L的下降量;
[0019]步骤1

4,根据loss对种子词典中的子词元素进行排序,然后剔除loss最小的一定比例的子词元素;
[0020]步骤1

5,重复步骤1
‑2‑
步骤1

4,直至得到一个合理大小的词典V。
[0021]在本专利技术提供的基于子词编码和逆文档频率遮蔽的中文预训练方法中,还可以具有这样的特征:其中,在迭代得到词典V和出现概率p(x)后,对任意一段文本x,通过一元语言模型,得到概率最高的子词元素x*,公式如下:
[0022][0023]公式(3)中,S(x)为根据词典V得到的文本x中子词元素的候选集合,然后使用维特比算法找到最优解x*。
[0024]在本专利技术提供的基于子词编码和逆文档频率遮蔽的中文预训练方法中,还可以具有这样的特征:其中,逆文档频率IDF的计算方式为:
[0025][0026]公式(4)中,w为任意词,N为语料中总文档数,N
w
为语料中包含词w的文档数。
[0027]在本专利技术提供的基于子词编码和逆文档频率遮蔽的中文预训练方法中,还可以具有这样的特征:其中,中文语言模型为中文BERT模型。
[0028]专利技术的作用与效果
[0029]根据本专利技术所涉及的一种基于子词编码和逆文档频率遮蔽的中文预训练方法,因为基于一元语言模型进行子词编码,通过数据驱动的字词混合进行编码,能够缓解字级别编码带来的序列过程,效率下降的问题,也能排除词级别编码造成的未登录词等问题;并且通过计算子词编码后得到的子词元素序列中每个子词元素的逆文档频率,并将逆文档频率最高的子词元素进行遮蔽,再对被遮蔽的子词元素进行预测来进行预训练,能够使得预训练语言模型收敛更快,效果更好,充分融合词级别的信息。
附图说明
[0030]图1是本专利技术的实施例中一种基于子词编码和逆文档频率遮蔽的中文预训练方法的流程图;
[0031]图2是本专利技术的实施例中一种基于子词编码和逆文档频率遮蔽的中文预训练方法的方法示意图;
[0032]图3是本专利技术的实施例中模型使用逆文档频率遮蔽预测任务与随机遮蔽训练方法在不同预训练步数后的性能对比图;
[0033]图4是本专利技术的实施例中的子词编码在不同文本长度下与基于字编码的模型编码计算量对比。
具体实施方式
[0034]为了使本专利技术实现的技术手段与功效易于明白了解,以下结合实施例及附图对本专利技术作具体阐述。
[0035]<实施例>
[0036]图1是本专利技术的实施例中一种基于子词编码和逆文档频率遮蔽的中文预训练方法的流程图。
[0037]如图1所示,本实施例的一种基于子词编码和逆文档频率遮蔽的中文预训练方法,用于中文语言模型的预训练,中文语言模型可直接用于中文的自然语言处理中,如中文分词,情感识别,自动问答,阅读理解等任务。该中文语言模型为中文BERT模型,包括以下步骤:
[0038]步骤1,收集大规模无监督的中文语料,根据大规模无监督的中文语料通过迭代算法学习一元语言模型,得到一元语言模型中用于子词编码的词典和出现概率。
[0039]本实施例中,大规模无监督的中文语料为公共开源的中文语料,可以直接网上下载,本专利技术的大规模无监督的中文语料包括了维基百科、新闻语料、百科问答和社区问答四个部分,组成一个大的数据集,涵盖了正式和非正式,不同领域的文本,保证了数据规模和多样性。
[0040]一元语言模型假设每个子词元素都独立出现,将一段文本作为一个子词元素序列,该段文本的出现概率为文本中所有子词元素出现概率的乘积:
[0041][0042][0043]公式(1)中,V为一个可学习的词典,x为输入的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于子词编码和逆文档频率遮蔽的中文预训练方法,用于中文语言模型的预训练,其特征在于,包括以下步骤:步骤1,收集大规模无监督的中文语料,根据所述大规模无监督的中文语料通过迭代算法学习一元语言模型,得到所述一元语言模型中用于子词编码的词典和出现概率;步骤2,基于所述一元语言模型对所述中文语言模型的输入文本进行子词编码,得到子词元素序列;步骤3,计算所述子词元素序列中每个子词元素的逆文档频率;步骤4,通过逆文档频率遮蔽预测任务来进行预训练,该逆文档频率遮蔽预测任务为将所述逆文档频率最高的所述子词元素进行遮蔽,所述中文语言模型通过对被遮蔽的所述子词元素进行预测来进行预训练;步骤5,将所述大规模无监督的中文语料输入所述中文语言模型,分别经过所述子词编码和计算所述逆文档频率后通过所述逆文档频率遮蔽预测任务来进行预训练,在经过大规模计算训练后得到训练好的所述中文语言模型,其中,所述一元语言模型假设每个子词元素都独立出现,将一段文本作为一个子词元素序列,该段文本的出现概率为文本中所有子词元素出现概率的乘积:段文本的出现概率为文本中所有子词元素出现概率的乘积:公式(1)中,V为一个可学习的词典,x为输入的文本,x
i
为一个子词元素,通过计算所述大规模无监督的中文语料形成的整个数据集上所述中文语言模型的似然L来优化所述出现概率p(x),公式如下:2.根据权利要求1所述的基于子词编码和逆文档频率遮蔽的中文预训练方法,其特征在于:其中,所述步骤1中,所述词典和所述出现概率通过迭代算法进行计算,具体如下:步骤1

1,根据所述大规模无监督的中文语料,启发式地得到比较大的词...

【专利技术属性】
技术研发人员:邱锡鹏邵云帆
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1