【技术实现步骤摘要】
文本生成方法、装置、服务器及存储介质
[0001]本公开涉及自然语言处理
,尤其涉及一种文本生成方法、装置、服务器及存储介质。
技术介绍
[0002]文本生成是NLP(Natural Language Processing,自然语言处理)中一个研究领域,文本复述是一种重要的文本生成任务。文本复述是指对输入文本进行改写,在保持语义基本不变的前提下,生成以另一种方式表述的复述文本。目前,通常利用文本生成模型来执行文本复述任务,以得到所需的复述文本,例如,利用LaserTagger模型,以文本中的词语为粒度,逐次地改写原文本中的词语,以得到复述文本;利用HRQ
‑
VAE(Hierarchical Refinement Quantized Variational AutoEncoders,分层细化量化变分自编码器)模型,能够基于语法来改写原文本的句式,得到复述文本;利用T5(Text
‑
To
‑
Text Transfer Transformer,文本到文本的转换模型),能够在支持词语粒度和句式粒度改写的基础上进行多样性改写,得到丰富的复述文本。
[0003]然而,上述各种文本生成模型在一些业务场景中的效果并不理想。例如,需要在保证语义质量的基础上大量地生成复述文本的业务场景中,上述LaserTagger模型仅支持单语句输入输出,无法满足文本生成的数量需求;HRQ
‑
VAE模型所生成复述文本的语义质量,则会随着生成数量增多、语句复杂度增大等因 ...
【技术保护点】
【技术特征摘要】
1.一种文本生成方法,其特征在于,所述方法包括:获取文本和目标数量,通过第一文本生成模型以词语为单位,根据所述文本的语法结构对所述文本进行改写处理,以得到多个第一复述文本,所述第一复述文本的数量大于所述目标数量:基于每个所述第一复述文本和所述文本,确定所述第一复述文本的语义质量信息,所述语义质量信息指示生成的复述文本还原所述文本语义的质量;将所述语义质量信息符合质量条件的多个第一复述文本,输入第二文本生成模型,以得到多个第二复述文本,所述第二文本生成模型用于以词语为改写单位和基于文本的语法结构中的至少一项对文本进行改写处理;从所述第一复述文本和所述第二复述文本中,确定所述语义质量信息符合质量条件的所述目标数量的目标复述文本。2.根据权利要求1所述的文本生成方法,其特征在于,所述基于每个所述第一复述文本和所述文本,确定所述第一复述文本的语义质量信息,包括:基于所述第一复述文本和所述文本,确定所述第一复述文本与所述文本之间的语义相似度:基于所述第一复述文本的词语和语法结构,确定所述第一复述文本的语义流畅度;基于所述语义相似度、所述语义流畅度和对应的权重值,确定所述语义质量信息,所述权重值指示所述语义相似度和所述语义流畅度对文本的语义质量的影响占比。3.根据权利要求2所述的文本生成方法,其特征在于,所述基于所述第一复述文本的词语和语法结构,确定所述第一复述文本的语义流畅度,包括:基于所述第一复述文本的词语和语法结构,确定所述第一复述文本的混淆度,所述混淆度以0到目标值之间的数值指示所述第一复述文本的语义不流畅的程度;用目标值减去所述混淆度,得到所述语义流畅度。4.根据权利要求1所述的文本生成方法,其特征在于,所述根据所述文本的语法结构对所述文本进行改写处理,以得到多个第一复述文本之前,所述方法还包括:根据所述文本的词语数量,确定所述第一文本生成模型待输出的所述第一复述文本的数量,所述第一复述文本的数量与所述词语数量成反比。5.根据权利要求1所述的文本生成方法,其特征在于,所述根据所述文本的语法结构对所述文本进行改写处理,以得到多个第一复述文本之后,所述方法还包括:基于所述文本的关键词,对所述第一文本生成模型生成的多个第一复述文本进行筛选,以去除不包含所述关键词的第一复述文本。6.根据权利要求1所述的文本生成方法,其特征在于,所述根据所述文本的语法结构对所述文本进行改写处理,以得到多个第一复述文本之后,所述方法还包括:对所述第一文本生成模型生成的多个第一复述文本进行去重。7.根据权利要求1所述的文本生成方法,其特征在于,所述第二文本生成模型包括:用于以词语为改写单位对输入的文本进行处理的第一模型和用于基于文本的语法结构对输入的文本进行处理的第二模型中至少一项;所述将所述语义质量信息符合质量条件的多个第一复述文本,输入第二文本生成模型,以得到多个第二复述文本,包括:
在所述第二文本生成模型包括所述第一模型和所述第二模...
【专利技术属性】
技术研发人员:刘凡,周振宇,李春灏,曹莹莹,啜俊娜,张皓天,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。