【技术实现步骤摘要】
一种自然语言模型的生成方法和计算机设备
[0001]本申请涉及自然语言处理
,特别是涉及一种自然语言模型的生成方法和计算机设备。
技术介绍
[0002]自然语言处理(Nature Language Processing,NPL)是人工智能的一个子领域,通常分为四大类任务:序列标注,分类任务,关系判断,以及生成式任务,预训练语言模型能够提高自然语言处理任务的精度,这是因为通过预训练语言模型可以得到合适的词向量,合适的词向量能有效提升自然语言处理任务的表现。
[0003]基于全神经网络的预训练语言模型在语言学习方面取得了重大突破,谷歌提出了Transformers的双向编码器(Bidirectional Encoder Representations from Transformers,BERT)预训练语言模型,BERT刷新了11项不同的自然语言处理任务的成绩。继BERT之后,很多学者在BERT的基础上进行改进,提出了效果更好的预训练语言模型,如ALBERT、RoBERTa、SpanBERT等。这些模型通过增加训练 ...
【技术保护点】
【技术特征摘要】
1.一种自然语言模型的生成方法,其特征在于,所述方法包括:初始神经网络根据替换语句生成预测字符串标签,其中,所述替换语句是将训练数据中的语句的待替换字符串替换为目标字符串得到的,所述待替换字符串与所述待替换字符串对应的目标字符串之间的相似度满足预设条件,所述训练数据包括多组训练语句组,每一组训练语句组包括语句和第一真实标签,所述第一真实标签为用于反映待替换字符串的标识,所述预测字符串标签为用于反映所述目标字符串为所述待替换字符串的概率的标识;所述初始神经网络根据所述预测字符串标签和所述第一真实标签,对所述初始神经网络的参数进行修正,并继续执行根据所述替换语句生成预测字符串标签的步骤,直至满足所述初始神经网络的预设训练条件,以得到已训练的自然语言模型。2.根据权利要求1所述的方法,其特征在于,所述语句包括两个子语句,所述替换语句包括两个替换子语句,所述每一组训练语句组还包括第二真实标签;所述初始神经网络根据替换语句生成预测字符串标签,包括:初始神经网络根据替换语句生成预测字符串标签和上下文关系预测标签,其中,所述第二真实标签表示所述语句中两个子语句的上下文关系,所述上下文关系预测标签表示所述初始神经网络预测的所述替换语句中两个替换子语句的上下文关系;相应的,所述初始神经网络根据所述预测字符串标签和所述第一真实标签,对所述初始神经网络的参数进行修正,并继续执行根据所述替换语句生成预测字符串标签的步骤,直至满足所述初始神经网络的预设训练条件,以得到已训练的自然语言模型,包括:所述初始神经网络根据所述预测字符串标签、上下文关系预测标签、所述第一真实标签和所述第二真实标签,对所述初始神经网络的参数进行修正,并继续执行根据替换语句生成预测字符串标签和上下文关系预测标签的步骤,直至满足所述初始神经网络的预设训练条件,以得到已训练的自然语言模型。3.根据权利要求1或2所述的方法,其特征在于,所述将训练数据中的语句的待替换字符串替换为目标字符串的过程,包括:对所述语句进行分词处理,以得到多个字符串,并在所述多个字符串中选取待替换字符串;确定与所述待替换字符串之间的相似度满足预设条件的目标字符串;将所述待替换字符串替换为所述目标字符串,以确定所述语句对应的替换语句。4.根据权利要求3所述的方法,其特征在于,所述确定与所述待替换字符串之间的相似度满足预设条件的目标字符串,包括:获取初始神经网络的初始词数据库,其中,所述初始词数据库包括多个候选字符串分别对应的多个候选词向量,所述多个候选词向量包括所述待替换字符串对应的待替换词向量;根据所述多个候选词向量确定相似度集,其中,所述相似度集中包括多个候选词向量中各非待替换词向量分别与所述待替换词向量之间的相似度,所述各非待替换词向量为所述多个候选词向量中除了所述待替换词向量以外的各词向量;将满足预设条件的相似度对应的候选字符串作为目标字符串。5.根据权利要求4所述的方法,其特征在于,所述预设条件为:所述目标字符串的相似
度为相似度队列中前预设数量个相似度中的一个,其中,所述相似度队列是按照相似度从高到低的顺序对所述相似度集中的相似度进行排列得到的;或者,所述预设条件为:所述目标字符串的相似度大于或等于预设阈值;或者,所述预设条件为:所述目标字符串的相似度为所述相似度集中最大的相似度。6.根据权利要求3所述的方法,其特征在于,所述初始神经网络根据替换语句生成预测字符串标签之前,还包括:对所述替换语句进行预处理,以得到各输入词向量;相应的,所述初始神经网络根据替换语句生成预测字符串标签,包括:所述初始神经网络根据所述各输入词向量生成预测字符串标签。7.根据权利要求6所述的方法,其特征在于,所述初始神经网络包括预训练子网络和第一全连接层;所述根据各输入词向量生成预测字符串标签,包括:将各输入词向量输入所述预训练子网络,通过所述预训练子网络得到所述各输入词向量分别对应的各输出词向量;将所述各输出词向量输入所述第一全连接层,通过所述第一全连接层生成所述预测字符串标签。8.根据权利要求1所述的方法,其特征在于,所述根据所述预测字符串标签和所述第一真实标签,对所述初始神经网络的参数进行修正,并继续执行根据所述替换语句生成预测字符串标签的步骤,直至满足所述初始神经网络的预设训练条件,以得到已训练的自然语言模型,包括:根据所述第一真实标签和所述预测词标签计算第一损失值;根据所述第一损失值调整所述预训练子网络的参数,以更新所述初始神经网络,并根据所述第一损失值更新所述初始词数据库,并继续执行根据所述替换语句生成预测字符串标签的步骤,直至满足所述初始神经网络的预设训练条件,以得到已训练的自然语言模型,其中,所述已训练的自然语言模型包括已训练的词数据库。9.根据权利要求8所述的方法,其特征在于,所述预测字符串标签包括所述多个候选字符串分别为所述待替换字符串的预测概率;所述第一真实标签包括所述多个候选字符串分别为所述待替换字符串的真实概率;所述根据所述第一真实标签和所述预测词标签计算第一损失值,包括:根据所述多个候选字符串分别为所述待替换字符串的预测概率,和所述多个候选字符串分别为所述待替换字符串的真实概率,计算第一损失值。10.根据权利要求3所述的方法,其特征在于,所述初始神经网络根据替换语句生成预测字符串标签和上下文关系预测标签之前,还包括:对所述替换语句进行预处理,以得到各目标输入词向量;相应的,所述初始神经网络根据替换语句生成预测字符串标签和上下文关系预测标签,包括:所述初始神经网络根据所述各目标输入词向量生成预测字符串标签和上下文关系预测标签。11.根据权利要求10所述的方法,其特征在于,所述对所述替换语句进行预处理,以得到各输入词向量,包括:
确定所述替换语句中处于首位的字符串,并在所述处于首位的字符串前添加分类符,得到目标替换语句;对于所述目标替换语句中的每一个目标字符串,根据所述初始词数据库...
【专利技术属性】
技术研发人员:李超,
申请(专利权)人:武汉TCL集团工业研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。