【技术实现步骤摘要】
数据处理的方法与装置
本申请涉及人工智能领域,具体涉及一种数据处理的方法与装置。
技术介绍
自然语言处理(naturallanguageprocessing,NLP)是让计算机理解并处理人类自然语言的技术,是实现人工智能的重要技术手段。预训练语言模型(pertrainedlanguagemodel,PLM)是近年来兴起的NLP领域的一个重要的通用模型。PLM的训练方案是本领域的研究热点,PLM的训练方案具有两个改进方向:第一,提高PLM的自然语言理解能力;第二,加快模型训练速度(即加快模型收敛速度)。PLM常用的训练方案叫做掩码语言模型(maskedlanguagemodel,MLM)。MLM的训练原理是,使得PLM学习到捕捉文字上下文信息的能力。在MLM训练方案中,PLM的训练样本是被掩码处理后的文本,即部分文字被替换成特殊的标记符号(例如,[MASK])的句子,例如,原文本是“今天是晴朗的周六”,被掩码处理后的文本为“今[MASK]是晴[MASK]的周六”;被掩码处理后的文本输入到PLM,PLM需要预测出被掩码的 ...
【技术保护点】
1.一种数据处理的方法,其特征在于,包括:/n确定原始文本样本,所述原始文本样本未进行掩码处理;/n对所述原始文本样本进行掩码处理,获得掩码训练样本,所述掩码处理使得所述掩码训练样本的掩码比例不固定,所述掩码训练样本用于训练预训练语言模型PLM。/n
【技术特征摘要】
1.一种数据处理的方法,其特征在于,包括:
确定原始文本样本,所述原始文本样本未进行掩码处理;
对所述原始文本样本进行掩码处理,获得掩码训练样本,所述掩码处理使得所述掩码训练样本的掩码比例不固定,所述掩码训练样本用于训练预训练语言模型PLM。
2.根据权利要求1所述的方法,其特征在于,所述掩码训练样本的文本级别掩码比例包括:
文本级别掩码比例,用于表示一个样本中被掩码处理的字占所述样本中所有字的比例;和/或
字级别掩码比例,用于表示一个字被掩码处理的概率;
其中,所述掩码训练样本的掩码比例不固定包括:
所述掩码训练样本中不同样本的文本级别掩码比例不完全相同;和/或
所述掩码训练样本中任一个样本中每个字的字级别掩码比例不完全相同。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述原始文本样本进行掩码处理,获得掩码训练样本,包括:
使用先验概率分布模型,生成所述原始文本样本中每个样本的文本级别掩码比例,所述先验概率分布模型使得所述原始文本样本中不同样本的文本级别掩码比例不完全相同;
按照所述原始文本样本中每个样本的文本级别掩码比例,对相应样本进行掩码处理,获得所述掩码训练样本。
4.根据权利要求3所述的方法,其特征在于,所述先验概率分布模型的概率值区间长度不小于40%。
5.根据权利要求1或2所述的方法,其特征在于,所述对所述原始文本样本进行掩码处理,获得掩码训练样本,包括:
获取所述原始文本样本中的第一文本样本中每个字的字级别掩码比例,所述第一文本样本中不同字的字级别掩码比例不完全相同;
根据所述第一文本样本中各个字的字级别掩码比例,对所述第一文本样本中的部分字进行掩码处理,获得所述掩码训练样本中的第一训练样本。
6.根据权利要求5所述的方法,其特征在于,所述获取所述原始文本样本中的第一文本样本中每个字的字级别掩码比例,包括:
使用先验概率分布模型,生成所述第一文本样本中每个字的字级别掩码比例,所述先验概率分布模型使得所述第一文本样本中不同字的字级别掩码比例不完全相同。
7.根据权利要求5所述的方法,其特征在于,所述获取所述原始文本样本中的第一文本样本中每个字的字级别掩码比例,包括:
将所述第一文本样本输入神经网络模型,从所述神经网络模型的输出获得所述第一文本样本中每个字的字级别掩码比例,其中,所述神经网络模型通过如下步骤进行优化学习得到,其中,i的初始取值为1:
1),将所述原始文本样本中第i个样本输入所述神经网络模型,从所述神经网络模型的输出获得所述第i个样本中每个字的字级别掩码比例;
2),根据所述第i个样本中各个字的字级别掩码比例,对所述第i个样本中的部分字进行掩码处理,获得所述第i个样本对应的训练样本;
3),将所述第i个样本对应的训练样本输入所述PLM,获得所述PLM针对被掩码处理的字的损失值;
4),根据所述PLM针对被掩码处理的字输出的损失值,以及所述神经网络模型针对所述被掩码处理的字的输出信号,更新优化所述神经网络网络;
5),判断所述神经网络网络是否满足收敛条件,若是,转到步骤6),若否,将i的取值加1,转到步骤1);
6),将所述步骤4)得到的神经网络模型作为优化学习到的所述神经网络模型。
8.根据权利要求7所述的方法,其特征在于,所述步骤3)包括:
利用所述第i个样本对应的训练样本对所述PLM进行一次训练更新;
将所述第i个样本对应的训练样本输入经过所述训练更新的所述PLM,获得经过所述训练更新的所述PLM针对所述被掩码处理的字输出的损失值;
其中,所述步骤4)包括:根据经过所述训练更新的所述PLM针对所述被掩码处理的字输出的损失值,以及所述神经网络模型针对所述被掩码处理的字的输出信号,更新优化所述神经网络网络。
9.根据权利要求5-8中任一项所述的方法,其特征在于,所述根据所述第一文本样本中各个字的字级别掩码比例,对所述第一文本样本中的部分字进行掩码处理,获得所述掩码训练样本中的第一训练样本,包括:
按照字级别掩码比例从高到低的顺序,对所述第一文本样本中前S个字或者位于前G%的字进行掩码处理,获得所述第一训练样本,S为取值小于所述第一文本样本中字的总数量的正整数,G为大于0且小于100的整数。
10.一种数据处理的方法,其特征在于,包括:
通过如权利要求1-9中任一项所述的方法获得掩码训练样本;
使用所述掩码训练样本训练预训练语言模型PLM,所述PLM用于预测被掩码处理的文字。
11.一种数据处理的方法,其特征在于,包括:
确定待预测的目标文本,所述目标文本包括缺少部分文字的语句;
将所述目标文本输入预训练语言模型PLM,从所述PLM的输出预测所述目标文本中缺少的文字,
其中,所述PLM通过权利要求10所述的方法训练得到。
12.一种数据处理的装置,其特征在于,包括:
第一处理单元,用于确定原始文本样本,所述原始文本样本未进行掩码处理;
第二处理单元,用于对所述原始文本样本进行掩码处理,获得掩码训练样本,所述掩码处理使得所述掩码...
【专利技术属性】
技术研发人员:廖亿,李博文,郑豪,蒋欣,刘群,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。