【技术实现步骤摘要】
一种文本生成方法、装置、设备及存储介质
[0001]本申请涉及自然语言处理
,尤其涉及一种文本生成方法、装置、设备及存储介质。
技术介绍
[0002]某些领域的文本由于领域性过强,导致阅读者阅读困难。比如,医学领域的医疗文档由于其领域性过强导致普通患者及其家属阅读困难,这种困难使得患者及其家属多次、重复地向医疗人员进行咨询,增加医疗人员工作量,并且患者及其家属对其病情不够了解,导致后续医患沟通困难。
技术实现思路
[0003]有鉴于此,本申请提供了一种文本生成方法、装置、设备及存储介质,用以为指定领域的目标文本生成辅助阅读文本,从而解决由于领域性过强,导致阅读者阅读困难的问题,其技术方案如下:
[0004]一种文本生成方法,包括:
[0005]获取指定领域的目标文本;
[0006]利用预先建立的文本生成模型,生成所述目标文本中每个句子的辅助阅读句子,其中,所述文本生成模型采用所述指定领域中标注有真实辅助阅读句子的训练句子训练得到;
[0007]根据所述目标文本中每个句子的辅助阅读句子,生成所述目标文本的篇章级辅助阅读文本。
[0008]可选的,所述文本生成模型的训练目标包括:
[0009]使文本生成模型针对所述训练句子生成的辅助阅读句子与所述训练句子的真实辅助阅读句子表达一致;
[0010]以及,
[0011]使所述训练句子中的每个词出现在文本生成模型针对所述训练句子生成的辅助阅读句子中,和/或,使所述文本生成模型针对所述训练句子生 ...
【技术保护点】
【技术特征摘要】
1.一种文本生成方法,其特征在于,包括:获取指定领域的目标文本;利用预先建立的文本生成模型,生成所述目标文本中每个句子的辅助阅读句子,其中,所述文本生成模型采用所述指定领域中标注有真实辅助阅读句子的训练句子训练得到;根据所述目标文本中每个句子的辅助阅读句子,生成所述目标文本的篇章级辅助阅读文本。2.根据权利要求1所述的文本生成方法,其特征在于,所述训练句子标注的真实辅助阅读句子通过在所述训练句子中插入解释性片段和/或句意流畅性辅助片段得到。3.根据权利要求1所述的文本生成方法,其特征在于,所述利用预先建立的文本生成模型,生成所述目标文本中每个句子的辅助阅读句子,包括:针对所述目标文本中每个待生成辅助阅读句子的目标句子:从检索数据库中检索出与所述目标句子最相关的预设个文本片段,并将与所述目标句子最相关的预设个文本片段处理为一个长句,作为所述目标句子对应的检索文本;利用所述文本生成模型、所述目标句子和所述目标句子对应的检索文本,生成所述目标句子的辅助阅读句子。4.根据权利要求3所述的文本生成方法,其特征在于,所述利用所述文本生成模型、所述目标句子和所述目标句子对应的检索文本,生成所述目标句子的辅助阅读句子,包括:利用所述文本生成模型,从词典、所述目标句子和所述目标句子对应的检索文本中逐个产生用于组成所述目标句子的辅助阅读句子的各目标词,以得到所述目标句子的辅助阅读句子。5.根据权利要求4所述的文本生成方法,其特征在于,所述从词典、所述目标句子和所述目标句子对应的检索文本中逐个产生用于组成所述目标句子的辅助阅读句子的各目标词,包括:分别对所述目标句子和所述目标句子对应的检索文本进行编码;在每个解码时刻,根据第一向量和所述目标句子的编码结果确定当前解码时刻解码所需的特征向量作为第二向量,并根据所述第一向量和所述目标句子对应的检索文本的编码结果确定当前解码时刻解码所需的特征向量作为第三向量,其中,所述第一向量为当前解码时刻输出的表示已解码结果信息的状态向量;根据所述第一向量、所述第二向量和所述第三向量,预测当前解码时刻的目标词分别产生于所述词典、所述目标句子和所述目标句子对应的检索文本的概率;根据当前解码时刻的目标词分别产生于所述词典、所述目标句子和所述目标句子对应的检索文本的概率,产生当前解码时刻的目标词。6.根据权利要求5所述的文本生成方法,其特征在于,所述根据当前解码时刻的目标词分别产生于所述词典、所述目标句子和所述目标句子对应的检索文本的概率,产生当前解码时刻产生的目标词,包括:根据所述第一向量和针对所述目标句子已生成的文本,预测词典中每个词被成的概率,根据所述目标句子的编码结果和所述第一向量,预测所述目标句子中每个词被生成的概率,根据所述目标句子对应的检索文本的编码结果和所述第一向量,预测所述目标句子对应的检索文本中每个词被生成的概率;
根据所述词典中每个词被成的概率、所述目标句子中每个词被生成的概率、所述目标句子对应的检索文本中每个词被生成的概率,以及当前解码时刻...
【专利技术属性】
技术研发人员:闫莉,万根顺,高建清,刘聪,王智国,胡国平,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。