【技术实现步骤摘要】
模型训练方法和装置、文本预测方法和装置
[0001]本公开涉及计算机
,具体涉及自然语言处理、深度学习等
,尤其涉及一种模型训练方法和装置、文本预测方法和装置、电子设备、计算机可读介质以及计算机程序产品。
技术介绍
[0002]在掩膜语言模型(Masked language modeling,简称MLM)中,不同掩码位置之间相互独立,对于采用连续掩码方式的模型,如ERNIE(Enhanced Representation from Knowledge Integration,知识增强语义表示模型)、BERT
‑
wwm(Bidirectional Encoder Representation from Transformers
‑
Whole Word Masking)等,对于一个连续词汇,内部所包含字符的预测是相互独立的,因此只能训练掩膜语言模型记住几个字符的组合模式,并不能很好的学会该连续词汇本身的语义,连续词汇的语义紧密程度不高。
技术实现思路
[0003]提供了一种模型训练方法和装置、文本预测方法和装置、电子设备、计算机可读介质以及计算机程序产品。
[0004]根据第一方面,提供了一种模型训练方法,该方法包括:获取至少一个段落文本,每个段落文本包括多个细粒度样本;对每个段落文本中的细粒度样本进行处理,得到粗粒度样本;标注各个段落文本中的粗粒度样本,并采用一个细粒度样本的掩码遮挡一个粗粒度样本,得到训练样本集,训练样本集包括多个标注文本,每个标 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,所述方法包括:获取至少一个段落文本,每个段落文本包括多个细粒度样本;对每个段落文本中的细粒度样本进行处理,得到粗粒度样本;标注各个段落文本中的粗粒度样本,并采用一个所述细粒度样本的掩码遮挡一个粗粒度样本,得到训练样本集,所述训练样本集包括多个标注文本,每个标注文本包括细粒度样本、被标注的粗粒度样本中的至少一项;采用所述训练样本集训练细粒度模型,得到训练完成的细粒度模型,所述细粒度模型用于学习上一个细粒度的内容,并预测相邻的粗粒度的内容。2.根据权利要求1所述的方法,其中,所述细粒度样本为字样本,所述粗粒度样本包括:词语样本或实体样本;所述对每个段落文本中的细粒度样本进行处理,得到粗粒度样本,包括:获取每个段落文本中的所有字样本的语义;基于各个字样本的语义,检测当前段落文本中相邻的至少两个字样本是否符合词语组合规则或者实体命名规则;响应于检测到相邻的至少两个字样本组合符合词语组合规则或者实体命名规则,组合所有符合词语规则或者实体命名规则的字样本,得到词语样本或者实体样本。3.根据权利要求2所述的方法,其中,所述细粒度样本为字样本,所述粗粒度样本还包括:短语样本;所述对每个段落文本中的细粒度样本进行处理,得到粗粒度样本,还包括:基于各个字样本的语义和各个字样本的结构,检测当前段落文本中所有字样本是否符合短语组合规则;响应于检测到当前段落文本中字样本符合短语组合规则,组合所有符合短语组合规则的字样本,得到短语样本。4.根据权利要求1所述的方法,其中,所述细粒度样本包括:词语样本或实体样本,所述粗粒度样本包括:短语样本;所述对每个段落文本中的细粒度样本进行处理,得到粗粒度样本,包括:获取每个段落文本中的所有词语样本或实体样本的语义和结构;基于各个词语样本或实体样本的语义和结构,检测当前段落文本中相邻的至少两个词语样本或实体样本是否符合短语组合规则;响应于检测到当前段落文本中相邻的至少两个词语样本或实体样本符合短语组合规则,组合所有符合短语组合规则的词语样本或实体样本,得到短语样本。5.根据权利要求1所述的方法,其中,所述细粒度样本为字样本,所述粗粒度样本包括:短语样本;所述对每个段落文本中的细粒度样本进行处理,得到粗粒度样本,包括:获取每个段落文本中的所有字样本的语义和结构;基于各个字样本的语义和各个字样本的结构,依次检测当前段落文本中预设相邻个字样本是否符合短语组合规则;响应于检测到当前段落文本中预设相邻个字样本有符合短语组合规则的多个字样本,组合符合短语组合规则的多个字样本,得到短语样本。6.根据权利要求1所述的方法,其中,所述标注各个段落文本中的粗粒度样本,并采用所述细粒度样本的掩码遮挡各个段落文本中的粗粒度样本,得到训练样本集,包括:
标注各个段落文本中的粗粒度样本的内容和类型;采用与所述细粒度模型对应的所述细粒度样本的掩码遮挡各个段落文本中的粗粒度样本,得到被标注的粗粒度样本;按各个细粒度样本和各个粗粒度样本在各自段落文本中的顺序排序所有细粒度样本和被标注的粗粒度样本,得到训练样本集。7.一种文本预测方法,所述方法包括:获取待预测文本;将待预测文本输入如权利要求1
‑
6任一项所述的方法生成的细粒度模型,得到所述待预测文本中粗粒度以及所述粗粒度的类型。8.一种模型训练装置,所述装置包括:样本获取单元,被配置成获取至少一个段落文本,每个段落文本包括多个细粒度样本;处理单元,被配置成对每个段落文本中的细粒度样本进行处理,得到粗粒度样本;得到单元,被配置成标注各个段落文本中的粗粒度样本,并采用一个所述细粒度样本的掩码遮挡一个粗粒度样本,得到训练样本集,所述训练样本集包括多个标注文本,每个标注文本包括...
【专利技术属性】
技术研发人员:肖东凌,李宇琨,张涵,孙宇,田浩,吴华,王海峰,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。