模型训练方法、信息生成方法、装置、电子设备和计算机可读介质制造方法及图纸

技术编号:21453977 阅读:20 留言:0更新日期:2019-06-26 04:47
本申请实施例公开了模型训练方法、信息生成方法、装置、电子设备和计算机可读介质。该模型训练方法的实施例包括:从样本集中提取样本文本和该样本文本的标签词序列;确定该样本文本对应的第一词向量序列和该标签词序列对应的第二词向量序列;将该第一词向量序列作为预先建立的第一初始模型的输入,将该第一初始模型的输出和该第一词向量序列作为预先建立的第二初始模型的输入,将该第二词向量序列作为该第二初始模型的输出,利用机器学习方法,对该第一初始模型和该第二初始模型进行训练;将训练后的该第一初始模型确定为语义向量生成模型,将训练后的该第二初始模型确定为标签词生成模型。该实施方式提高了标签词生成的准确性。

【技术实现步骤摘要】
模型训练方法、信息生成方法、装置、电子设备和计算机可读介质
本申请实施例涉及计算机
,具体涉及模型训练方法、信息生成方法、装置、电子设备和计算机可读介质。
技术介绍
文本的标签词是能够反映出文本内容及读者兴趣的词语。通常,一个文本可以具有一个或多个标签词。准确地确定文本的标签词,能够有助于读者快速了解到全文的内容。对于文本的分类、推荐、关联等具有重要的作用。现有的确定文本标签词的方式,通常是抽取文本中较为重要的词语,作为文本的标签词。然而,这种方式无法生成出不在文本中出现的标签词,导致所确定的标签词不够准确。
技术实现思路
本申请实施例提出了模型训练方法、信息生成方法、装置、电子设备和计算机可读介质,以解决现有技术中由于采用抽取方式无法生成未出现在文本中的标签词,导致所确定的标签词不够准确的技术问题。第一方面,本申请实施例提供了一种模型训练方法,包括:从样本集中提取样本文本和样本文本的标签词序列;确定样本文本对应的第一词向量序列和标签词序列对应的第二词向量序列;将第一词向量序列作为预先建立的第一初始模型的输入,将第一初始模型的输出和第一词向量序列作为预先建立的第二初始模型的输入,将第二词向量序列作为第二初始模型的输出,利用机器学习方法,对第一初始模型和第二初始模型进行训练;将训练完成后的第一初始模型确定为语义向量生成模型,将训练后的第二初始模型确定为标签词生成模型。在一些实施例中,第一初始模型为使用自注意力机制的机器翻译模型中的编码模型,第二初始模型为机器翻译模型中的解码模型。在一些实施例中,样本集中包括多个样本文本和多个样本文本中的各样本文本的标签词序列;以及在从样本集中提取样本文本和样本文本的标签词序列之前,模型训练步骤还包括:对样本集中的各样本文本进行分词;将分词后所得到的各词和标签词序列中的标签词汇总为词表;对于词表中的每一个词,随机初始化预设维数的向量作为该词的词向量。在一些实施例中,确定样本文本对应的第一词向量序列和标签词序列对应的第二词向量序列,包括:将所提取的样本文本作为目标样本文本,从随机初始化的词向量中,提取对目标样本文本分词后所得到的各个词的词向量,得到与目标样本文本对应的第一词向量序列;将目标样本文本的标签词序列作为目标标签词序列,从随机初始化的词向量中,提取目标标签词序列中的各词对应的词向量,得到与目标标签词序列对应的第二词向量序列。第二方面,本申请实施例提供了一种模型训练装置,包括:提取单元,被配置成从样本集中提取样本文本和样本文本的标签词序列;第一确定单元,被配置成确定样本文本对应的第一词向量序列和标签词序列对应的第二词向量序列;训练单元,被配置成将第一词向量序列作为预先建立的第一初始模型的输入,将第一初始模型的输出和第一词向量序列作为预先建立的第二初始模型的输入,将第二词向量序列作为第二初始模型的输出,利用机器学习装置,对第一初始模型和第二初始模型进行训练;第二确定单元,被配置成将训练后的第一初始模型确定为语义向量生成模型,将训练完成后的第二初始模型确定为标签词生成模型。在一些实施例中,第一初始模型为使用自注意力机制的机器翻译模型中的编码模型,第二初始模型为机器翻译模型中的解码模型。在一些实施例中,样本集中包括多个样本文本和多个样本文本中的各样本文本的标签词序列;以及装置还包括:分词单元,被配置成对样本集中的各样本文本进行分词;汇总单元,被配置成将分词后所得到的各词和标签词序列中的标签词汇总为词表;初始化单元,被配置成对于词表中的每一个词,随机初始化预设维数的向量作为该词的词向量。在一些实施例中,第一确定单元,包括:第一提取模块,被配置成将所提取的样本文本作为目标样本文本,从随机初始化的词向量中,提取对目标样本文本分词后所得到的各个词的词向量,得到与目标样本文本对应的第一词向量序列;第二提取模块,被配置成将目标样本文本的标签词序列作为目标标签词序列,从随机初始化的词向量中,提取目标标签词序列中的各词对应的词向量,得到与目标标签词序列对应的第二词向量序列。第三方面,本申请实施例提供了一种信息生成方法,包括:对目标文本进行分词,生成词序列;确定词序列中的各词的词向量,以生成词向量序列;将词向量序列输入至采用如上述第一方面中的实施例所描述的方法生成的语义向量生成模型,得到与词向量序列对应的语义向量序列;将语义向量序列和词向量序列输入至采用如上述第一方面中的实施例所描述的方法生成的标签词生成模型,得到目标文本的标签词。在一些实施例中,在得到目标文本的标签词之后,该方法还包括:确定与标签词相匹配的目标用户,向目标用户推送目标文本。第四方面,本申请实施例提供了一种信息生成装置,包括:分词单元,被配置成对目标文本进行分词,生成词序列;确定单元,被配置成确定词序列中的各词的词向量,以生成词向量序列;输入单元,被配置成将词向量序列输入至采用如上述第一方面中的实施例所描述的方法生成的语义向量生成模型,得到与词向量序列对应的语义向量序列;生成单元,被配置成将语义向量序列和词向量序列输入至采用如上述第一方面中的实施例所描述的方法生成的标签词生成模型,得到目标文本的标签词。在一些实施例中,该装置还包括:推送单元,被配置成确定与标签词相匹配的目标用户,向目标用户推送目标文本。第五方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述第一方面和第三方面中任一实施例的方法。第六方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面和第三方面中任一实施例的方法。本申请实施例提供的模型训练方法、信息生成方法、装置、电子设备和计算机可读介质,在从样本集中提取样本文本和样本文本的标签词序列之后,可以确定样本文本对应的第一词向量序列和标签词序列对应的第二词向量序列。而后,可以将第一词向量序列作为预先建立的第一初始模型的输入,将第一初始模型的输出和第一词向量序列作为预先建立的第二初始模型的输入,将第二词向量序列作为第二初始模型的输出,利用机器学习方法,对第一初始模型和第二初始模型进行训练。最后,可以将训练后的第一初始模型确定为语义向量生成模型,将训练后的第二初始模型确定为标签词生成模型。从而,能够利用所生成的语义向量生成模型和标签词生成模型自动确定文本的标签词。一方面,在训练过程中,若仅将第一初始模型的输出输入至第二初始模型,可能会损失一部分原始的第一词向量序列中的特征。此处同时将第一初始模型的输出和上述第一词向量序列作为第二初始模型的输入,能够减少训练过程中的信息损失,从而使模型考虑到更多的信息,有助于提高标签词生成的准确性。另一方面,在训练过程中,模型通过所标注的标签词序列,能够更充分地学习到样本文本的语义特征。相对于直接从文本中提取标签词的方式,利用训练得到的模型进行标签词生成,能够对文本的语义进行充分理解,所生成的标签词不限于文本中的词,还可以包含不在文本中出现的词,有助于提高提标签词生成的准确性。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是根据本申请的模型本文档来自技高网...

【技术保护点】
1.一种模型训练方法,其特征在于,包括:从样本集中提取样本文本和所述样本文本的标签词序列;确定所述样本文本对应的第一词向量序列和所述标签词序列对应的第二词向量序列;将所述第一词向量序列作为预先建立的第一初始模型的输入,将所述第一初始模型的输出和所述第一词向量序列作为预先建立的第二初始模型的输入,将所述第二词向量序列作为所述第二初始模型的输出,利用机器学习方法,对所述第一初始模型和所述第二初始模型进行训练;将训练完成后的所述第一初始模型确定为语义向量生成模型,将训练后的所述第二初始模型确定为标签词生成模型。

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:从样本集中提取样本文本和所述样本文本的标签词序列;确定所述样本文本对应的第一词向量序列和所述标签词序列对应的第二词向量序列;将所述第一词向量序列作为预先建立的第一初始模型的输入,将所述第一初始模型的输出和所述第一词向量序列作为预先建立的第二初始模型的输入,将所述第二词向量序列作为所述第二初始模型的输出,利用机器学习方法,对所述第一初始模型和所述第二初始模型进行训练;将训练完成后的所述第一初始模型确定为语义向量生成模型,将训练后的所述第二初始模型确定为标签词生成模型。2.根据权利要求1所述的模型训练方法,其特征在于,所述第一初始模型为使用自注意力机制的机器翻译模型中的编码模型,所述第二初始模型为所述机器翻译模型中的解码模型。3.根据权利要求1所述的模型训练方法,其特征在于,所述样本集中包括多个样本文本和所述多个样本文本中的各样本文本的标签词序列;以及在所述从样本集中提取样本文本和所述样本文本的标签词序列之前,所述方法还包括:对样本集中的各样本文本进行分词;将分词后所得到的各词和所述标签词序列中的标签词汇总为词表;对于所述词表中的每一个词,随机初始化预设维数的向量作为该词的词向量。4.根据权利要求3所述的模型训练方法,其特征在于,所述确定所述样本文本对应的第一词向量序列和所述标签词序列对应的第二词向量序列,包括:将所提取的样本文本作为目标样本文本,从随机初始化的词向量中,提取对所述目标样本文本分词后所得到的各个词的词向量,得到与所述目标样本文本对应的第一词向量序列;将所述目标样本文本的标签词序列作为目标标签词序列,从随机初始化的词向量中,提取所述目标标签词序列中的各词对应的词向量,得到与所述目标标签词序列对应的第二词向量序列。5.一种模型训练装置,其特征在于,包括:提取单元,被配置成从样本集中提取样本文本和所述样本文本的标签词序列;第一确定单元,被配置成确定所述样本文本对应的第一词向量序列和所述标签词序列对应的第二词向量序列;训练单元,被配置成将所述第一词向量序列作为预先建立的第一初始模型的输入,将所述第一初始模型的输出和所述第一词向量序列作为预先建立的第二初始模型的输入,将所述第二词向量序列作为所述第二初始模型的输出,利用机器学习装置,对所述第一初始模型和所述第二初始模型进行训练;第二确定单元,被配置成将训练完成后的所述第一初始模型确定为语义向量生成模型,将训练后的所述第二初始模型确定为标签词生成模型。6.根据权利要求5所述的模型训练装置,其特征在于,所述第一初始模型为使用自注意力机制的机器翻译模型中的编码模型,所述第二初始模型为所述机器翻译模型中的解码模型。7.根据权利...

【专利技术属性】
技术研发人员:张轩玮
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1