文本生成方法、装置、服务器及存储介质制造方法及图纸

技术编号:37077203 阅读:19 留言:0更新日期:2023-03-29 19:53
本公开关于一种文本生成方法、装置、服务器及存储介质,属于自然语言处理技术领域,该方法包括:基于第一文本生成模型,生成数量大于目标数量的第一复述文本;将语义质量信息满足质量条件的第一复述文本输入第二文本生成模型,得到多个第二复述文本;从第一复述文本和第二复述文本中确定语义质量信息符合质量条件的目标数量的目标复述文本。基于此,以词语和语法为综合改写维度,生成大规模、多样性高且创造性强的复述文本;再从词语和语法中至少一个维度,生成高语义质量的复述文本,并利用语义质量信息从中筛选高语义质量的复述文本,从而得到大规模且高语义质量的目标复述文本,大大提升了文本生成的效率。大大提升了文本生成的效率。大大提升了文本生成的效率。

【技术实现步骤摘要】
文本生成方法、装置、服务器及存储介质


[0001]本公开涉及自然语言处理
,尤其涉及一种文本生成方法、装置、服务器及存储介质。

技术介绍

[0002]文本生成是NLP(Natural Language Processing,自然语言处理)中一个研究领域,文本复述是一种重要的文本生成任务。文本复述是指对输入文本进行改写,在保持语义基本不变的前提下,生成以另一种方式表述的复述文本。目前,通常利用文本生成模型来执行文本复述任务,以得到所需的复述文本,例如,利用LaserTagger模型,以文本中的词语为粒度,逐次地改写原文本中的词语,以得到复述文本;利用HRQ

VAE(Hierarchical Refinement Quantized Variational AutoEncoders,分层细化量化变分自编码器)模型,能够基于语法来改写原文本的句式,得到复述文本;利用T5(Text

To

Text Transfer Transformer,文本到文本的转换模型),能够在支持词语粒度和句式粒度改写的基础上进行多样性改写,得到丰富的复述文本。
[0003]然而,上述各种文本生成模型在一些业务场景中的效果并不理想。例如,需要在保证语义质量的基础上大量地生成复述文本的业务场景中,上述LaserTagger模型仅支持单语句输入输出,无法满足文本生成的数量需求;HRQ

VAE模型所生成复述文本的语义质量,则会随着生成数量增多、语句复杂度增大等因素而大打折扣;T5模型虽然能够生成大量的复述文本,但所生成文本的语义质量十分不可控,需要依靠人工审核筛选。因此,亟需一种文本生成方法,能够在保证语义质量的基础上大量地生成复述文本,节省人工成本,提升文本生成的效率。

技术实现思路

[0004]本公开提供一种文本生成方法、装置、服务器及存储介质,能够在保证语义质量的基础上大量地生成复述文本,节省人工成本,提升文本生成的效率。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种文本生成方法,该方法包括:
[0006]获取文本和目标数量,通过第一文本生成模型以词语为单位,根据该文本的语法结构对该文本进行改写处理,以得到多个第一复述文本,该第一复述文本的数量大于该目标数量;
[0007]基于每个该第一复述文本和该文本,确定该第一复述文本的语义质量信息,该语义质量信息指示生成的复述文本还原该文本语义的质量;
[0008]将该语义质量信息符合质量条件的多个第一复述文本,输入第二文本生成模型,以得到多个第二复述文本,该第二文本生成模型用于以词语为改写单位和基于文本的语法结构中的至少一项对文本进行改写处理;
[0009]从该第一复述文本和该第二复述文本中,确定该语义质量信息符合质量条件的该
目标数量的目标复述文本。
[0010]在一种可能实施方式中,该基于每个该第一复述文本和该文本,确定该第一复述文本的语义质量信息,包括:
[0011]基于该第一复述文本和该文本,确定该第一复述文本与该文本之间的语义相似度;
[0012]基于该第一复述文本的词语和语法结构,确定该第一复述文本的语义流畅度;
[0013]基于该语义相似度、该语义流畅度和对应的权重值,确定该语义质量信息,该权重值指示该语义相似度和该语义流畅度对文本的语义质量的影响占比。
[0014]在一种可能实施方式中,该基于该第一复述文本的词语和语法结构,确定该第一复述文本的语义流畅度,包括:
[0015]基于该第一复述文本的词语和语法结构,确定该第一复述文本的混淆度,该混淆度以0到目标值之间的数值指示该第一复述文本的语义不流畅的程度;
[0016]用目标值减去该混淆度,得到该语义流畅度。
[0017]在一种可能实施方式中,该根据该文本的语法结构对该文本进行改写处理,以得到多个第一复述文本之前,该方法还包括:
[0018]根据该文本的词语数量,确定该第一文本生成模型待输出的该第一复述文本的数量,该第一复述文本的数量与该词语数量成反比。
[0019]在一种可能实施方式中,该根据该文本的语法结构对该文本进行改写处理,以得到多个第一复述文本之后,该方法还包括:
[0020]基于该文本的关键词,对该第一文本生成模型生成的多个第一复述文本进行筛选,以去除不包含该关键词的第一复述文本。
[0021]在一种可能实施方式中,该通根据该文本的语法结构对该文本进行改写处理,以得到多个第一复述文本之后,该方法还包括:
[0022]对该第一文本生成模型生成的多个第一复述文本进行去重。
[0023]在一种可能实施方式中,该第二文本生成模型包括:用于以词语为改写单位对输入的文本进行处理的第一模型和用于基于文本的语法结构对输入的文本进行处理的第二模型中至少一项;
[0024]该将该语义质量信息符合质量条件的多个第一复述文本,输入第二文本生成模型,以得到多个第二复述文本,包括:
[0025]在该第二文本生成模型包括该第一模型和该第二模型的情况下,将该语义质量信息符合该质量条件的多个第一复述文本,分别输入该第一模型和该第二模型,以得到该多个第二复述文本。
[0026]在一种可能实施方式中,该从该第一复述文本和该第二复述文本中,确定该语义质量信息符合质量条件的该目标数量的目标复述文本之前,该方法还包括:
[0027]将该文本输入该第二文本生成模型,得到第三复述文本;
[0028]该从该第一复述文本和该第二复述文本中,确定该语义质量信息符合质量条件的该目标数量的目标复述文本,包括:
[0029]从该第一复述文本、该第二复述文本和该第三复述文本,确定该语义质量信息符合质量条件的该目标数量的目标复述文本。
[0030]在一种可能实施方式中,该方法还包括:
[0031]对该目标复述文本进行分词,基于分词后的目标复述文本进行词性标注;
[0032]基于目标词库,对该词性标注后的该目标复述文本中的目标词语进行替换,得到混淆复述文本,该目标词库提供具有相同语义的词语。
[0033]在一种可能实施方式中,该方法还包括:
[0034]基于该文本的关键词,对该混淆复述文本进行筛选,以去除不包含该关键词的该混淆复述文本;
[0035]在该筛选后的混淆复述文本的数量小于该目标数量的情况下,将目标字符插入该混淆复述文本,得到目标数量的扩充复述文本,该目标字符不影响该混淆复述文本的语义。
[0036]在一种可能实施方式中,该文本为待分享对象的描述文本,该目标数量的目标复述文本用于以多种表述方式描述该待分享对象。
[0037]根据本公开实施例的第二方面,提供一种文本生成装置,该装置包括:
[0038]第一生成单元,被配置为执行获取文本和目标数量,通过第一文本生成模型以词语为单位,根据该文本的语法结构对该文本进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本生成方法,其特征在于,所述方法包括:获取文本和目标数量,通过第一文本生成模型以词语为单位,根据所述文本的语法结构对所述文本进行改写处理,以得到多个第一复述文本,所述第一复述文本的数量大于所述目标数量:基于每个所述第一复述文本和所述文本,确定所述第一复述文本的语义质量信息,所述语义质量信息指示生成的复述文本还原所述文本语义的质量;将所述语义质量信息符合质量条件的多个第一复述文本,输入第二文本生成模型,以得到多个第二复述文本,所述第二文本生成模型用于以词语为改写单位和基于文本的语法结构中的至少一项对文本进行改写处理;从所述第一复述文本和所述第二复述文本中,确定所述语义质量信息符合质量条件的所述目标数量的目标复述文本。2.根据权利要求1所述的文本生成方法,其特征在于,所述基于每个所述第一复述文本和所述文本,确定所述第一复述文本的语义质量信息,包括:基于所述第一复述文本和所述文本,确定所述第一复述文本与所述文本之间的语义相似度:基于所述第一复述文本的词语和语法结构,确定所述第一复述文本的语义流畅度;基于所述语义相似度、所述语义流畅度和对应的权重值,确定所述语义质量信息,所述权重值指示所述语义相似度和所述语义流畅度对文本的语义质量的影响占比。3.根据权利要求2所述的文本生成方法,其特征在于,所述基于所述第一复述文本的词语和语法结构,确定所述第一复述文本的语义流畅度,包括:基于所述第一复述文本的词语和语法结构,确定所述第一复述文本的混淆度,所述混淆度以0到目标值之间的数值指示所述第一复述文本的语义不流畅的程度;用目标值减去所述混淆度,得到所述语义流畅度。4.根据权利要求1所述的文本生成方法,其特征在于,所述根据所述文本的语法结构对所述文本进行改写处理,以得到多个第一复述文本之前,所述方法还包括:根据所述文本的词语数量,确定所述第一文本生成模型待输出的所述第一复述文本的数量,所述第一复述文本的数量与所述词语数量成反比。5.根据权利要求1所述的文本生成方法,其特征在于,所述根据所述文本的语法结构对所述文本进行改写处理,以得到多个第一复述文本之后,所述方法还包括:基于所述文本的关键词,对所述第一文本生成模型生成的多个第一复述文本进行筛选,以去除不包含所述关键词的第一复述文本。6.根据权利要求1所述的文本生成方法,其特征在于,所述根据所述文本的语法结构对所述文本进行改写处理,以得到多个第一复述文本之后,所述方法还包括:对所述第一文本生成模型生成的多个第一复述文本进行去重。7.根据权利要求1所述的文本生成方法,其特征在于,所述第二文本生成模型包括:用于以词语为改写单位对输入的文本进行处理的第一模型和用于基于文本的语法结构对输入的文本进行处理的第二模型中至少一项;所述将所述语义质量信息符合质量条件的多个第一复述文本,输入第二文本生成模型,以得到多个第二复述文本,包括:
在所述第二文本生成模型包括所述第一模型和所述第二模...

【专利技术属性】
技术研发人员:刘凡周振宇李春灏曹莹莹啜俊娜张皓天
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1