目标内容的生成方法和装置制造方法及图纸

技术编号:29979647 阅读:28 留言:0更新日期:2021-09-08 10:10
本公开提供了一种目标内容的生成方法,具体涉及计算机技术领域,尤其涉及人工智能技术领域。具体实现方案包括:利用内容生成模型处理素材内容,得到多个目标内容分段;以及根据多个目标内容分段,生成针对素材内容的目标内容,其中,利用内容生成模型处理素材内容得到多个目标内容分段包括多个处理阶段,多个处理阶段中的每个处理阶段包括:利用内容生成模型处理素材内容,得到候选内容分段和候选内容分段的原始概率分布;根据预定下游数据集和前面的处理阶段输出的目标内容分段,调整原始概率分布,得到调整概率分布;以及根据调整概率分布,从候选内容分段中确定该处理阶段输出的对应目标内容分段。应目标内容分段。应目标内容分段。

【技术实现步骤摘要】
目标内容的生成方法和装置


[0001]本公开涉及计算机
,尤其涉及人工智能
,具体涉及一种目标内容的生成方法和装置。

技术介绍

[0002]生成模型通常具有过大的输出空间,而对于诸如抽取式阅读理解或特定风格内容生成之类的特定任务,其输出空间是有限的。因此,需要有效地限制生成模型的输出空间大小,以生成更加符合特定任务的结果。

技术实现思路

[0003]本公开提供了一种目标内容的生成方法和装置。
[0004]根据本公开的一方面,提供了一种目标内容的生成方法,包括:
[0005]利用内容生成模型处理素材内容,得到多个目标内容分段;以及
[0006]根据多个目标内容分段,生成针对所述素材内容的目标内容,
[0007]其中,所述利用内容生成模型处理素材内容,得到多个目标内容分段包括多个处理阶段,所述多个处理阶段中的每个处理阶段包括:
[0008]利用内容生成模型处理所述素材内容,得到候选内容分段和候选内容分段的原始概率分布;
[0009]根据预定下游数据集和前面的处理阶段输出的目标内容分段,调整所述原始概率分布,得到调整概率分布;以及
[0010]根据所述调整概率分布,从所述候选内容分段中确定该处理阶段输出的对应目标内容分段。
[0011]根据本公开的另一方面,提供了一种目标内容的生成装置,包括:
[0012]处理模块,用于利用内容生成模型处理素材内容,得到多个目标内容分段;以及
[0013]生成模块,用于根据多个目标内容分段,生成针对所述素材内容的目标内容,
[0014]其中,所述处理模块包括多个处理子模块,每个处理子模块用于:
[0015]利用内容生成模型处理所述素材内容,得到候选内容分段和候选内容分段的原始概率分布;
[0016]根据预定下游数据集和前面的处理子模块输出的目标内容分段,调整所述原始概率分布,得到调整概率分布;以及
[0017]根据所述调整概率分布,从所述候选内容分段中确定该处理子模块输出的对应目标内容分段。
[0018]根据本公开的另一方面,提供了一种电子设备,包括:
[0019]至少一个处理器;以及
[0020]与所述至少一个处理器通信连接的存储器;其中,
[0021]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一
个处理器执行,以使所述至少一个处理器能够执行根据本公开实施例的方法。
[0022]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开实施例的方法。
[0023]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开实施例的方法。
[0024]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0025]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0026]图1是根据本公开实施例的目标内容的生成方法的流程图;
[0027]图2是示出了根据本公开实施例的目标内容的生成方法的目标内容生成的一个示例的图;
[0028]图3是示出了根据本公开实施例的用于生成受限概率分布的字典树的一个示例的图;
[0029]图4是根据本公开实施例的目标内容的生成装置的示意图;以及
[0030]图5示出了可以用来实施本公开实施例的示例电子设备的示意性框图。
具体实施方式
[0031]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0032]可以采用以下几种方法来有效地限制生成模型的输出空间大小,以生成更加符合特定任务的结果。
[0033]一种方法是在对生成模型进行预训练时,在样本数据前加入风格限定词,使得生成模型学到使风格规范化的格式。这种方法存在的问题是,需要在预训练时构建不同的风格限定词和样本,构建成本较高,并且在完成预训练后模型仅具有固定的、有限的风格。
[0034]另一种方法是利用小样本学习(few

shot learning)或语境学习(in

context learning)。在原始输入前添加若干个规范化的小样本,通过输入风格规范化的多个样例数据,从而在一定程度上引导模型进行特定风格文本的输出。这种方法存在的问题是可控性较差。
[0035]另一种方法是针对不同风格的数据进行微调。在微调阶段,使用特定风格的语料库对模型进行训练,以使模型更加适合于特定领域。这种方法存在的问题是需要针对所需的每种不同风格进行微调,成本较高。
[0036]本公开实现了一种目标内容的生成方法和装置,利用内容生成模型处理素材内容,得到多个目标内容分段,并根据多个目标内容分段,生成针对所述素材内容的目标内容。所述处理包括多个处理阶段。所述多个处理阶段中的每个处理阶段利用内容生成模型处理所述素材内容,得到候选内容分段和候选内容分段的原始概率分布。根据预定下游数
据集和前面的处理阶段输出的目标内容分段,调整所述原始概率分布,得到调整概率分布,并且根据所述调整概率分布,从所述候选内容分段中确定该处理阶段输出的对应目标内容分段。通过这种方式,可以利用预定下游数据集来有效地限制生成模型的输出空间大小,以生成更加符合特定任务的结果。这种方式无需像现有技术那样构建不同的风格限定词和样本,也无需进行微调,成本较低,并且可控性良好。
[0037]图1是根据本公开实施例的目标内容的生成方法100的流程图。下面参考图1对根据本公开实施例的目标内容的生成方法100进行说明。
[0038]在步骤S110,利用内容生成模型处理素材内容,得到多个目标内容分段。
[0039]内容生成模型是对素材内容进行处理,从而生成针对素材内容的内容的生成式模型。内容生成模型可以是用于生成数据的任意模型,例如,朴素贝叶斯模型、混合高斯模型、马尔可夫随机场模型、生成对抗网络(GAN)、变分自编码器(VAE)、生成式的长短期记忆网络(LSTM)、BERT模型、ERNIE模型等。
[0040]每个目标内容分段可以是目标内容的一个组成部分。例如,当目标内容是一段文本内容时,每个目标内容分段可以是该段文本内容中的一个或多个字符。
[0041]在步骤S120,根据多个目标内容分段,生成针对所述素材内容的目标内容。
[0042]可以根据在步骤S110中得到的多个目标内容分段,生成针对所述素材内容的完整的目标内容。例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标内容的生成方法,包括:利用内容生成模型处理素材内容,得到多个目标内容分段;以及根据多个目标内容分段,生成针对所述素材内容的目标内容,其中,所述利用内容生成模型处理素材内容,得到多个目标内容分段包括多个处理阶段,所述多个处理阶段中的每个处理阶段包括:利用内容生成模型处理所述素材内容,得到候选内容分段和候选内容分段的原始概率分布;根据预定下游数据集和前面的处理阶段输出的目标内容分段,调整所述原始概率分布,得到调整概率分布;以及根据所述调整概率分布,从所述候选内容分段中确定该处理阶段输出的对应目标内容分段。2.根据权利要求1所述的方法,其中,所述根据所述调整概率分布,从所述候选内容分段中确定该处理阶段输出的对应目标内容分段包括:通过束搜索,从所述候选内容分段中确定对应目标内容分段,所确定的对应目标内容分段的数量等于束宽度。3.根据权利要求1所述的方法,其中,所述根据预定下游数据集和前面的处理阶段输出的目标内容分段,调整所述原始概率分布,得到调整概率分布包括:根据预定下游数据集和前面的处理阶段输出的目标内容分段,确定受限概率分布;以及利用受限概率分布调整所述候选内容分段的原始概率分布。4.根据权利要求3所述的方法,其中,所述根据预定下游数据集和前面的处理阶段输出的目标内容分段,确定受限概率分布包括:利用所述预定下游数据集构建字典树;以及根据字典树确定所述受限概率分布。5.根据权利要求4所述的方法,其中,所述根据字典树确定所述受限概率分布包括:通过在字典树中搜索前面的处理阶段输出的目标内容分段,确定所述受限概率分布。6.根据权利要求1至5中任一项所述的方法,其中,所述预定下游数据集包括所述素材内容。7.根据权利要求1至5中任一项所述的方法,其中,所述素材内容包括段落文本和问题,并且所述目标内容包括从所述段落文本得出的针对所述问题的答案。8.一种目标内容的生成装置,包括:处理模块,用于利用内容生成模型处理素材内容,得到多个目标内容分段;以及生...

【专利技术属性】
技术研发人员:尚骏远王硕寰丁思宇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1