一种基于子词编码和逆文档频率遮蔽的中文预训练方法技术

技术编号：35404324 阅读：20 留言：0更新日期：2022-11-03 10:56

本发明专利技术提供了一种基于子词编码和逆文档频率遮蔽的中文预训练方法，用于中文语言模型的预训练，包括以下步骤：步骤1，收集中文语料，根据语料通过迭代算法学习一元语言模型，得到词典和出现概率；步骤2，基于一元语言模型对中文语言模型的输入文本进行子词编码，得到子词元素序列；步骤3，计算子词元素序列中每个子词元素的逆文档频率；步骤4，通过逆文档频率遮蔽预测任务来进行预训练，将逆文档频率最高的子词元素进行遮蔽，中文语言模型通过对被遮蔽的子词元素进行预测来进行预训练；步骤5，将语料输入中文语言模型，经过子词编码和计算逆文档频率后通过逆文档频率遮蔽预测任务进行预训练，在计算训练后得到训练好的中文语言模型。在计算训练后得到训练好的中文语言模型。在计算训练后得到训练好的中文语言模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于子词编码和逆文档频率遮蔽的中文预训练方法

[0001]本专利技术属于计算机信息处理
，具体涉及一种基于子词编码和逆文档频率遮蔽的中文预训练方法。

技术介绍

[0002]随着信息处理技术和人工智能的不断发展，预训练方法在不同的自然语言处理任务中得到广泛应用，起到了至关重要的作用。许多的大型企业和研究机构例如谷歌，Facebook和百度，阿里巴巴等针对预训练方法都进行了大规模深入地研究。
[0003]在训练中文预训练模型时，不能完全照搬英文预训练的方法。不同于英文，中文没有显式的词边界，并且有两种不同的编码方式，字级别和词级别。现如今的中文预训练方法多采用字级别编码，这样会导致句子序列过长，编码效率下降，并且需要额外的训练方法来融合词级别的信息。另外，直接使用词级别的编码会产生数据稀疏，未登录词，错误传播等问题，损害预训练的性能。

技术实现思路

[0004]本专利技术是为了解决上述问题而进行的，目的在于提供一种基于子词编码和逆文档频率遮蔽的中文预训练方法。
[0005]本专利技术提供了一种基于子词编码和逆文档频率遮蔽的中文预训练方法，用于中文语言模型的预训练，具有这样的特征，包括以下步骤：步骤1，收集大规模无监督的中文语料，根据大规模无监督的中文语料通过迭代算法学习一元语言模型，得到一元语言模型中用于子词编码的词典和出现概率；
[0006]步骤2，基于一元语言模型对中文语言模型的输入文本进行子词编码，得到子词元素序列；
[0007]步骤3，计算子词元素序列中每...

【技术保护点】

【技术特征摘要】
1.一种基于子词编码和逆文档频率遮蔽的中文预训练方法，用于中文语言模型的预训练，其特征在于，包括以下步骤：步骤1，收集大规模无监督的中文语料，根据所述大规模无监督的中文语料通过迭代算法学习一元语言模型，得到所述一元语言模型中用于子词编码的词典和出现概率；步骤2，基于所述一元语言模型对所述中文语言模型的输入文本进行子词编码，得到子词元素序列；步骤3，计算所述子词元素序列中每个子词元素的逆文档频率；步骤4，通过逆文档频率遮蔽预测任务来进行预训练，该逆文档频率遮蔽预测任务为将所述逆文档频率最高的所述子词元素进行遮蔽，所述中文语言模型通过对被遮蔽的所述子词元素进行预测来进行预训练；步骤5，将所述大规模无监督的中文语料输入所述中文语言模型，分别经过所述子词编码和计算所述逆文档频率后通过所述逆文档频率遮蔽预测任务来进行预训练，在经过大规模计算训练后得到训练好的所述中文语言模型，其中，所述一元语言模型假设每个子词元素都独立出现，将一段文本作为一个子词元素序列，该段文本的出现概率为文本中所有子词元素出现概率的乘积：段文本的出现概率为文本中所有子词元素出现概率的乘积：公式(1)中，V为一个可学习的词典，x为输入的文本，x
i
为一个子词元素，通过计算所述大规模无监督的中文语料形成的整个数据集上所述中文语言模型的似然L来优化所述出现概率p(x)，公式如下:2.根据权利要求1所述的基于子词编码和逆文档频率遮蔽的中文预训练方法，其特征在于：其中，所述步骤1中，所述词典和所述出现概率通过迭代算法进行计算，具体如下：步骤1
‑
1，根据所述大规模无监督的中文语料，启发式地得到比较大的词...

【专利技术属性】
技术研发人员：邱锡鹏，邵云帆，
申请(专利权)人：复旦大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人