一种文本生成方法、装置、电子设备及介质制造方法及图纸

技术编号:34472430 阅读:37 留言:0更新日期:2022-08-10 08:46
本公开公开了一种文本生成方法、装置、电子设备及介质。所述方法包括:获取文本候选集,文本候选集包括多个候选文本,各候选文本为对待处理文本进行处理后得到的文本;参照最小贝叶斯风险解码的筛选策略,将所述文本候选集进行至少两次筛选方法处理后,得到目标文本;其中,各所述筛选方法为不同功能的筛选方法,每次筛选的输出作为下次筛选方法的输入,每次筛选输出的结果基于所筛选候选文本的评估分数确定,所筛选候选文本的评估分数基于所使用筛选方法的评估指标确定。该方法通过将所获取的文本候选集进行至少两次筛选方法的处理,能够改善给定文本生成模型所生成结果较差的问题。改善给定文本生成模型所生成结果较差的问题。改善给定文本生成模型所生成结果较差的问题。

【技术实现步骤摘要】
一种文本生成方法、装置、电子设备及介质


[0001]本公开实施例涉及数据处理
,尤其涉及一种文本生成方法、装置、电子设备及介质。

技术介绍

[0002]文本生成是自然语言处理(Natural Language Processing,NLP)的重要组成部分,旨在使用机器生成自然语言文本。
[0003]目前,通常是给定一个文本生成模型,将待处理的文本输入至文本生成模型中生成对应的文本结果。其中,文本生成模型是指用于文本生成的系统模型,其中可包括编码器和解码器,编码器将输入编码为向量表示,解码器依靠编码器的向量表示,根据指定的解码算法,逐词生成需要的文本。
[0004]然而,采用给定的文本生成模型进行文本生成处理,所得到的结果较差,无法达到预期的结果需求。

技术实现思路

[0005]本公开实施例提供了一种文本生成方法、装置、电子设备及介质,以解决文本生成模型所生成结果较差的问题。
[0006]第一方面,本公开实施例提供了一种文本生成方法,包括:
[0007]获取文本候选集,所述文本候选集包括多个候本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本生成方法,其特征在于,所述方法包括:获取文本候选集,所述文本候选集包括多个候选文本,各所述候选文本为对待处理文本进行处理后得到的文本;参照最小贝叶斯风险解码的筛选策略,将所述文本候选集进行至少两次筛选方法处理后,得到目标文本;其中,各所述筛选方法为不同功能的筛选方法,每次筛选的输出作为下次筛选方法的输入,每次筛选输出的结果基于所筛选候选文本的评估分数确定,所述所筛选候选文本的评估分数基于所使用筛选方法的评估指标确定。2.根据权利要求1所述的方法,其特征在于,所述获取文本候选集,包括:将所述待处理文本输入处理模型,得到文本候选集,所述处理模型基于采样解码方法处理所述待处理文本得到文本候选集。3.根据权利要求1所述的方法,其特征在于,所述筛选方法,包括如下一个或多个:质量筛选、风格筛选和关键词过滤;在所使用筛选方法为质量筛选时,确定评估分数的评估指标为质量指标;在所使用筛选方法为关键词过滤时,确定评估分数的评估指标为关键词指标;在所使用筛选方法为风格筛选时,确定评估分数的评估指标为风格指标。4.根据权利要求3所述的方法,其特征在于,风格筛选包括长度筛选,相应的,风格指标包括长度指标。5.根据权利要求1所述的方法,其特征在于,参照最小贝叶斯风险解码的筛选策略,将所述文本候选集进行至少两次筛选方法处理后,得到目标文本,包括:将所述文本候选集进行第一筛选方法处理,得到所述文本候选集中第一设定数量个目标候选文本的评估分数,所述第一设定数量个目标候选文本为所筛选候选文本;参照最小贝叶斯风险解码的筛选策略,按照所述评估分数从高到低的顺序,从所述文本候选集中选取第二设定数量个目标候选文本形成选取后的文本候选集作为本次筛选输出的结果;继续参照最小贝叶斯风险解码将选取后的文本候选集进行后续筛选方法处理,直至通过所述后续筛选方法中的第二筛选方法从选取后的文本候选集中筛选得到目标...

【专利技术属性】
技术研发人员:王涛赵程绮王明轩
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1