模型训练方法和装置、文本预测方法和装置制造方法及图纸

技术编号:30141656 阅读:11 留言:0更新日期:2021-09-23 15:05
本公开提供了一种模型训练方法和装置,涉及自然语言处理、深度学习等技术领域。具体实现方案为:获取至少一个段落文本,每个段落文本包括多个细粒度样本;对每个段落文本中的细粒度样本进行处理,得到粗粒度样本;标注各个段落文本中的粗粒度样本,并采用一个细粒度样本的掩码遮挡一个粗粒度样本,得到训练样本集,训练样本集包括多个标注文本,每个标注文本包括细粒度样本、被标注的粗粒度样本中的至少一项;采用训练样本集训练细粒度模型,得到训练完成的细粒度模型,细粒度模型用于学习上一个细粒度的内容,并预测相邻的粗粒度的内容。该实施方式提高了模型训练的收敛效果。该实施方式提高了模型训练的收敛效果。该实施方式提高了模型训练的收敛效果。

【技术实现步骤摘要】
模型训练方法和装置、文本预测方法和装置


[0001]本公开涉及计算机
,具体涉及自然语言处理、深度学习等
,尤其涉及一种模型训练方法和装置、文本预测方法和装置、电子设备、计算机可读介质以及计算机程序产品。

技术介绍

[0002]在掩膜语言模型(Masked language modeling,简称MLM)中,不同掩码位置之间相互独立,对于采用连续掩码方式的模型,如ERNIE(Enhanced Representation from Knowledge Integration,知识增强语义表示模型)、BERT

wwm(Bidirectional Encoder Representation from Transformers

Whole Word Masking)等,对于一个连续词汇,内部所包含字符的预测是相互独立的,因此只能训练掩膜语言模型记住几个字符的组合模式,并不能很好的学会该连续词汇本身的语义,连续词汇的语义紧密程度不高。

技术实现思路

[0003]提供了一种模型训练方法和装置、文本预测方法和装置、电子设备、计算机可读介质以及计算机程序产品。
[0004]根据第一方面,提供了一种模型训练方法,该方法包括:获取至少一个段落文本,每个段落文本包括多个细粒度样本;对每个段落文本中的细粒度样本进行处理,得到粗粒度样本;标注各个段落文本中的粗粒度样本,并采用一个细粒度样本的掩码遮挡一个粗粒度样本,得到训练样本集,训练样本集包括多个标注文本,每个标注文本包括细粒度样本、被标注的粗粒度样本中的至少一项;采用训练样本集训练细粒度模型,得到训练完成的细粒度模型,细粒度模型用于学习上一个细粒度的内容,并预测相邻的粗粒度的内容。
[0005]根据第二方面,提供了一种文本预测方法,该方法包括:获取待预测文本;将待预测文本输入采用如第一方面任一实现方式描述的方法生成的细粒度模型,得到待预测文本中粗粒度以及粗粒度的类型。
[0006]根据第三方面,提供了一种模型训练装置,该装置包括:样本获取单元,被配置成获取至少一个段落文本,每个段落文本包括多个细粒度样本;处理单元,被配置成对每个段落文本中的细粒度样本进行处理,得到粗粒度样本;得到单元,被配置成标注各个段落文本中的粗粒度样本,并采用一个细粒度样本的掩码遮挡一个粗粒度样本,得到训练样本集,训练样本集包括多个标注文本,每个标注文本包括细粒度样本、被标注的粗粒度样本中的至少一项;训练单元,被配置成采用训练样本集训练细粒度模型,得到训练完成的细粒度模型,细粒度模型用于学习上一个细粒度的内容,并预测相邻的粗粒度的内容。
[0007]根据第四方面,提供了一种文本预测装置,该装置包括:获取单元,被配置成获取待预测文本;得到单元,被配置成将待预测文本输入如第一方面任一实现方式描述的方法生成的细粒度模型,得到待预测文本中粗粒度以及粗粒度的类型。
[0008]根据第五方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与
至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面或第二方面任一实现方式描述的方法。
[0009]根据第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面或第二方面任一实现方式描述的方法。
[0010]根据第七方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面或第二方面任一实现方式描述的方法。
[0011]本公开的实施例提供的模型训练方法和装置,首先,获取至少一个段落文本,每个段落文本多个细粒度样本;其次,对每个段落文本中的细粒度样本进行处理,得到粗粒度样本;再次,标注各个段落文本中的粗粒度样本,并采用一个细粒度样本的掩码遮挡一个粗粒度样本,得到训练样本集;最后,采用训练样本集训练细粒度模型,得到训练完成的细粒度模型,细粒度模型用于学习上一个细粒度的内容,并预测相邻的粗粒度的内容。由此,采用一个细粒度样本的掩码遮挡一个粗粒度样本,相当于将粗粒度作为一个细粒度,在对模型进行训练时只需要对粗粒度样本进行一次预测便可以得到粗粒度的完整表示,并且该预测并不是预测粗粒度中的所有细粒度,有利于细粒度模型的收敛,节省了模型的计算量的同时可以使模型有效地学习粗粒度的整体语义。
[0012]本公开的实施例提供的文本预测方法和装置,获取待预测文本;将待预测文本输入采用本实施例的模型训练方法生成的细粒度模型,得到待预测文本中粗粒度以及粗粒度的类型。由此,细粒度模型可以针对多个细粒度进行粗粒度区分,并且还可以对粗粒度进行整体区分,有助于粗粒度本身的语义学习。
[0013]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0014]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0015]图1是根据本公开模型训练方法的一个实施例的流程图;
[0016]图2是本公开实施例中细粒度模型训练的结构示意图;
[0017]图3是根据本公开文本预测方法的一个实施例的流程图;
[0018]图4是根据本公开模型训练装置的一个实施例的结构示意图;
[0019]图5是根据本公开文本预测装置的一个实施例的结构示意图;
[0020]图6是用来实现本公开实施例的模型训练方法或文本预测方法的电子设备的框图。
具体实施方式
[0021]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0022]图1示出了根据本公开模型训练方法的一个实施例的流程100,上述模型训练方法
包括以下步骤:
[0023]步骤101,获取至少一个段落文本。
[0024]其中,每个段落文本包括多个细粒度样本。
[0025]本实施例中,模型训练方法运行于其上的执行主体可以通过多种手段获取段落文本,例如,实时从终端获取段落文本,或者在数据存储库中选取多个文本作为段落文本。
[0026]本实施例中,段落文本以细粒度为最小单元,而细粒度可以组合成粗粒度,通过本实施例提供的模型训练方法生成的细粒度模型,可以预测待测文本中的细粒度,可选地,还可以预测出待预测文本中细粒度以及预测得到的预测细粒度之外的粗粒度。
[0027]本实施例中,细粒度和粗粒度是相对的概念,若定义的细粒度的内容不同,则相应地粗粒度也会相应的不同。例如,细粒度为字符,则粗粒度可以是单词、词语等。再如,细粒度为词语,则粗粒本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,所述方法包括:获取至少一个段落文本,每个段落文本包括多个细粒度样本;对每个段落文本中的细粒度样本进行处理,得到粗粒度样本;标注各个段落文本中的粗粒度样本,并采用一个所述细粒度样本的掩码遮挡一个粗粒度样本,得到训练样本集,所述训练样本集包括多个标注文本,每个标注文本包括细粒度样本、被标注的粗粒度样本中的至少一项;采用所述训练样本集训练细粒度模型,得到训练完成的细粒度模型,所述细粒度模型用于学习上一个细粒度的内容,并预测相邻的粗粒度的内容。2.根据权利要求1所述的方法,其中,所述细粒度样本为字样本,所述粗粒度样本包括:词语样本或实体样本;所述对每个段落文本中的细粒度样本进行处理,得到粗粒度样本,包括:获取每个段落文本中的所有字样本的语义;基于各个字样本的语义,检测当前段落文本中相邻的至少两个字样本是否符合词语组合规则或者实体命名规则;响应于检测到相邻的至少两个字样本组合符合词语组合规则或者实体命名规则,组合所有符合词语规则或者实体命名规则的字样本,得到词语样本或者实体样本。3.根据权利要求2所述的方法,其中,所述细粒度样本为字样本,所述粗粒度样本还包括:短语样本;所述对每个段落文本中的细粒度样本进行处理,得到粗粒度样本,还包括:基于各个字样本的语义和各个字样本的结构,检测当前段落文本中所有字样本是否符合短语组合规则;响应于检测到当前段落文本中字样本符合短语组合规则,组合所有符合短语组合规则的字样本,得到短语样本。4.根据权利要求1所述的方法,其中,所述细粒度样本包括:词语样本或实体样本,所述粗粒度样本包括:短语样本;所述对每个段落文本中的细粒度样本进行处理,得到粗粒度样本,包括:获取每个段落文本中的所有词语样本或实体样本的语义和结构;基于各个词语样本或实体样本的语义和结构,检测当前段落文本中相邻的至少两个词语样本或实体样本是否符合短语组合规则;响应于检测到当前段落文本中相邻的至少两个词语样本或实体样本符合短语组合规则,组合所有符合短语组合规则的词语样本或实体样本,得到短语样本。5.根据权利要求1所述的方法,其中,所述细粒度样本为字样本,所述粗粒度样本包括:短语样本;所述对每个段落文本中的细粒度样本进行处理,得到粗粒度样本,包括:获取每个段落文本中的所有字样本的语义和结构;基于各个字样本的语义和各个字样本的结构,依次检测当前段落文本中预设相邻个字样本是否符合短语组合规则;响应于检测到当前段落文本中预设相邻个字样本有符合短语组合规则的多个字样本,组合符合短语组合规则的多个字样本,得到短语样本。6.根据权利要求1所述的方法,其中,所述标注各个段落文本中的粗粒度样本,并采用所述细粒度样本的掩码遮挡各个段落文本中的粗粒度样本,得到训练样本集,包括:
标注各个段落文本中的粗粒度样本的内容和类型;采用与所述细粒度模型对应的所述细粒度样本的掩码遮挡各个段落文本中的粗粒度样本,得到被标注的粗粒度样本;按各个细粒度样本和各个粗粒度样本在各自段落文本中的顺序排序所有细粒度样本和被标注的粗粒度样本,得到训练样本集。7.一种文本预测方法,所述方法包括:获取待预测文本;将待预测文本输入如权利要求1

6任一项所述的方法生成的细粒度模型,得到所述待预测文本中粗粒度以及所述粗粒度的类型。8.一种模型训练装置,所述装置包括:样本获取单元,被配置成获取至少一个段落文本,每个段落文本包括多个细粒度样本;处理单元,被配置成对每个段落文本中的细粒度样本进行处理,得到粗粒度样本;得到单元,被配置成标注各个段落文本中的粗粒度样本,并采用一个所述细粒度样本的掩码遮挡一个粗粒度样本,得到训练样本集,所述训练样本集包括多个标注文本,每个标注文本包括...

【专利技术属性】
技术研发人员:肖东凌李宇琨张涵孙宇田浩吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1