一种文本生成方法、装置、设备及存储介质制造方法及图纸

技术编号:32856679 阅读:11 留言:0更新日期:2022-03-30 19:28
本申请提供了一种文本生成方法、装置、设备及存储介质,其中,方法包括:获取指定领域的目标文本;利用预先建立的文本生成模型,生成目标文本中每个句子的辅助阅读句子,其中,文本生成模型采用指定领域中标注有真实辅助阅读句子的训练句子训练得到;根据目标文本中每个句子的辅助阅读句子,生成目标文本的篇章级辅助阅读文本。通过本申请提供的文本生成方法可针对指定领域的目标文本生成辅助阅读文本,生成的辅助阅读文本能够辅助阅读者进行阅读,从而能够大大降低阅读者对于目标文本的阅读难度,用户体验较好。用户体验较好。用户体验较好。

【技术实现步骤摘要】
一种文本生成方法、装置、设备及存储介质


[0001]本申请涉及自然语言处理
,尤其涉及一种文本生成方法、装置、设备及存储介质。

技术介绍

[0002]某些领域的文本由于领域性过强,导致阅读者阅读困难。比如,医学领域的医疗文档由于其领域性过强导致普通患者及其家属阅读困难,这种困难使得患者及其家属多次、重复地向医疗人员进行咨询,增加医疗人员工作量,并且患者及其家属对其病情不够了解,导致后续医患沟通困难。

技术实现思路

[0003]有鉴于此,本申请提供了一种文本生成方法、装置、设备及存储介质,用以为指定领域的目标文本生成辅助阅读文本,从而解决由于领域性过强,导致阅读者阅读困难的问题,其技术方案如下:
[0004]一种文本生成方法,包括:
[0005]获取指定领域的目标文本;
[0006]利用预先建立的文本生成模型,生成所述目标文本中每个句子的辅助阅读句子,其中,所述文本生成模型采用所述指定领域中标注有真实辅助阅读句子的训练句子训练得到;
[0007]根据所述目标文本中每个句子的辅助阅读句子,生成所述目标文本的篇章级辅助阅读文本。
[0008]可选的,所述文本生成模型的训练目标包括:
[0009]使文本生成模型针对所述训练句子生成的辅助阅读句子与所述训练句子的真实辅助阅读句子表达一致;
[0010]以及,
[0011]使所述训练句子中的每个词出现在文本生成模型针对所述训练句子生成的辅助阅读句子中,和/或,使所述文本生成模型针对所述训练句子生成的辅助阅读句子与所述训练句子对应的检索文本的主题一致,其中,所述训练句子对应的检索文本由检索数据库中与所述训练句子最相关的预设个文本片段组成。
[0012]可选的,所述训练句子标注的真实辅助阅读句子通过在所述训练句子中插入解释性片段和/或句意流畅性辅助片段得到。
[0013]可选的,所述利用预先建立的文本生成模型,生成所述目标文本中每个句子的辅助阅读句子,包括:
[0014]针对所述目标文本中每个待生成辅助阅读句子的目标句子:
[0015]从检索数据库中检索出与所述目标句子最相关的预设个文本片段,并将与所述目标句子最相关的预设个文本片段处理为一个长句,作为所述目标句子对应的检索文本;
[0016]利用所述文本生成模型、所述目标句子和所述目标句子对应的检索文本,生成所述目标句子的辅助阅读句子。
[0017]可选的,所述利用所述文本生成模型、所述目标句子和所述目标句子对应的检索文本,生成所述目标句子的辅助阅读句子,包括:
[0018]利用所述文本生成模型,从词典、所述目标句子和所述目标句子对应的检索文本中逐个产生用于组成所述目标句子的辅助阅读句子的各目标词,以得到所述目标句子的辅助阅读句子。
[0019]可选的,所述从词典、所述目标句子和所述目标句子对应的检索文本中逐个产生用于组成所述目标句子的辅助阅读句子的各目标词,包括:
[0020]分别对所述目标句子和所述目标句子对应的检索文本进行编码;
[0021]在每个解码时刻,根据第一向量和所述目标句子的编码结果确定当前解码时刻解码所需的特征向量作为第二向量,并根据所述第一向量和所述目标句子对应的检索文本的编码结果确定当前解码时刻解码所需的特征向量作为第三向量,其中,所述第一向量为当前解码时刻输出的表示已解码结果信息的状态向量;
[0022]根据所述第一向量、所述第二向量和所述第三向量,预测当前解码时刻的目标词分别产生于所述词典、所述目标句子和所述目标句子对应的检索文本的概率;
[0023]根据当前解码时刻的目标词分别产生于所述词典、所述目标句子和所述目标句子对应的检索文本的概率,产生当前解码时刻的目标词。
[0024]可选的,所述根据当前解码时刻的目标词分别产生于所述词典、所述目标句子和所述目标句子对应的检索文本的概率,产生当前解码时刻产生的目标词,包括:
[0025]根据所述第一向量和针对所述目标句子已生成的文本,预测词典中每个词被成的概率,根据所述目标句子的编码结果和所述第一向量,预测所述目标句子中每个词被生成的概率,根据所述目标句子对应的检索文本的编码结果和所述第一向量,预测所述目标句子对应的检索文本中每个词被生成的概率;
[0026]根据所述词典中每个词被成的概率、所述目标句子中每个词被生成的概率、所述目标句子对应的检索文本中每个词被生成的概率,以及当前解码时刻的目标词分别产生于所述词典、所述目标句子和所述目标句子对应的检索文本的概率,产生当前解码时刻的目标词。
[0027]可选的,所述文本生成模型的训练过程包括:
[0028]获取所述训练句子对应的检索文本,其中,所述训练句子对应的检索文本由检索数据库中与所述训练句子最相关的预设个文本片段组成;
[0029]利用文本生成模型、所述训练句子和所述训练句子对应的检索文本,生成所述训练句子的辅助阅读句子;
[0030]确定能够反映所述训练句子的辅助阅读句子与所述训练句子标注的真实辅助阅读句子表达一致性的第一预测损失;
[0031]确定能够反映所述训练句子的辅助阅读文本对于所述训练句子中各词覆盖情况的第二预测损失,和/或,确定能够反映所述训练句子的辅助阅读句子与所述训练句子对应的检索文本的主题一致性的第三预测损失;
[0032]根据确定出的预测损失,对文本生成模型进行参数更新。
[0033]可选的,所述根据所述目标文本中每个句子的辅助阅读句子,生成所述目标文本的篇章级辅助阅读文本,包括:
[0034]根据所述目标文本中各句子的顺序,对所述目标文本中各句子的辅助阅读句子进行拼接,以得到待编辑文本;
[0035]利用预先建立的篇章编辑模型对所述待编辑文本进行编辑,编辑后文本作为所述目标文本的篇章级辅助阅读文本,其中,所述篇章编辑模型采用标注有真实编辑结果的训练文本训练得到。
[0036]可选的,所述利用预先建立的篇章编辑模型对所述待编辑文本进行编辑,包括:
[0037]利用预先建立的篇章编辑模型将所述待编辑文本中的冗余词和/或非连贯词删除。
[0038]一种文本生成装置,包括:文本获取模块、辅助阅读句子生成模块和辅助阅读文本生成模块;
[0039]所述文本获取模块,用于获取指定领域的目标文本;
[0040]所述辅助阅读句子生成模块,用于利用预先建立的文本生成模型,生成所述目标文本中每个句子的辅助阅读句子,其中,所述文本生成模型采用所述指定领域中标注有真实辅助阅读句子的训练句子训练得到;
[0041]所述辅助阅读文本生成模块,用于根据所述目标文本中每个句子的辅助阅读句子,生成所述目标文本的篇章级辅助阅读文本。
[0042]可选的,所述辅助阅读文本生成模块包括:句子拼接模块和文本编辑模块;
[0043]所述句子拼接模块,用于根据所述目标文本中各句子的顺序,对所述目标文本中各句子的辅助阅读句子进行拼本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本生成方法,其特征在于,包括:获取指定领域的目标文本;利用预先建立的文本生成模型,生成所述目标文本中每个句子的辅助阅读句子,其中,所述文本生成模型采用所述指定领域中标注有真实辅助阅读句子的训练句子训练得到;根据所述目标文本中每个句子的辅助阅读句子,生成所述目标文本的篇章级辅助阅读文本。2.根据权利要求1所述的文本生成方法,其特征在于,所述训练句子标注的真实辅助阅读句子通过在所述训练句子中插入解释性片段和/或句意流畅性辅助片段得到。3.根据权利要求1所述的文本生成方法,其特征在于,所述利用预先建立的文本生成模型,生成所述目标文本中每个句子的辅助阅读句子,包括:针对所述目标文本中每个待生成辅助阅读句子的目标句子:从检索数据库中检索出与所述目标句子最相关的预设个文本片段,并将与所述目标句子最相关的预设个文本片段处理为一个长句,作为所述目标句子对应的检索文本;利用所述文本生成模型、所述目标句子和所述目标句子对应的检索文本,生成所述目标句子的辅助阅读句子。4.根据权利要求3所述的文本生成方法,其特征在于,所述利用所述文本生成模型、所述目标句子和所述目标句子对应的检索文本,生成所述目标句子的辅助阅读句子,包括:利用所述文本生成模型,从词典、所述目标句子和所述目标句子对应的检索文本中逐个产生用于组成所述目标句子的辅助阅读句子的各目标词,以得到所述目标句子的辅助阅读句子。5.根据权利要求4所述的文本生成方法,其特征在于,所述从词典、所述目标句子和所述目标句子对应的检索文本中逐个产生用于组成所述目标句子的辅助阅读句子的各目标词,包括:分别对所述目标句子和所述目标句子对应的检索文本进行编码;在每个解码时刻,根据第一向量和所述目标句子的编码结果确定当前解码时刻解码所需的特征向量作为第二向量,并根据所述第一向量和所述目标句子对应的检索文本的编码结果确定当前解码时刻解码所需的特征向量作为第三向量,其中,所述第一向量为当前解码时刻输出的表示已解码结果信息的状态向量;根据所述第一向量、所述第二向量和所述第三向量,预测当前解码时刻的目标词分别产生于所述词典、所述目标句子和所述目标句子对应的检索文本的概率;根据当前解码时刻的目标词分别产生于所述词典、所述目标句子和所述目标句子对应的检索文本的概率,产生当前解码时刻的目标词。6.根据权利要求5所述的文本生成方法,其特征在于,所述根据当前解码时刻的目标词分别产生于所述词典、所述目标句子和所述目标句子对应的检索文本的概率,产生当前解码时刻产生的目标词,包括:根据所述第一向量和针对所述目标句子已生成的文本,预测词典中每个词被成的概率,根据所述目标句子的编码结果和所述第一向量,预测所述目标句子中每个词被生成的概率,根据所述目标句子对应的检索文本的编码结果和所述第一向量,预测所述目标句子对应的检索文本中每个词被生成的概率;
根据所述词典中每个词被成的概率、所述目标句子中每个词被生成的概率、所述目标句子对应的检索文本中每个词被生成的概率,以及当前解码时刻...

【专利技术属性】
技术研发人员:闫莉万根顺高建清刘聪王智国胡国平
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1