【技术实现步骤摘要】
文本生成方法、装置、电子设备和计算机可读介质
[0001]本公开的实施例涉及计算机
,具体涉及文本生成方法、装置、电子设备和计算机可读介质。
技术介绍
[0002]随着计算机技术和深度学习技术的迅猛发展,在自然语言处理的各个研究方向都取得了突破性的进展,如机器翻译、文本生成(比如生成摘要)。现有的文本生成模型在解码过程中,往往使用了Beam Search(集束搜索)算法,用于贪心式地在较大的求解空间中求解,该算法是文本生成模型的解码模块中常用的一种算法。
[0003]然而,当采用上述方式生成文本时,经常会存在如下技术问题:
[0004]现有的集束搜索在解码过程中,生成文本主题的效率较低及准确度较低。
技术实现思路
[0005]本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。本公开的一些实施例提出了文本生成方法、装置、电子设备和计算机可读 ...
【技术保护点】
【技术特征摘要】
1.一种文本生成方法,包括:基于待处理文本,确定解码词信息组集,其中,所述待处理文本用于描述指定物体;对所述解码词信息组集进行去重处理以生成候选词信息组集;从所述候选词信息组集中的每个候选词信息组选择满足目标条件的候选词信息作为目标词信息,得到目标词信息集;对于所述目标词信息集中的每个目标词信息,响应于确定所述目标词信息满足收敛条件,基于预设词表,将所述目标词信息和所述目标词信息所对应的历史目标词信息序列进行拼接以生成目标文本。2.根据权利要求1所述的方法,其中,所述基于待处理文本,确定解码词信息组集,包括:将所述待处理文本输入至文本编码器中以生成编码隐层向量;将所述编码隐层向量输入至解码器中以生成解码词信息组集。3.根据权利要求1所述的方法,其中,所述解码词信息组集中的解码词信息包括:解码词和所述解码词对应的解码词概率值;以及所述对所述解码词信息组集进行去重处理以生成候选词信息组集,包括:对于所述解码词信息组集中的每个解码词信息组,根据所述解码词,将所述解码词信息组划分为重复解码词信息组和单一解码词信息组;从所述重复解码词信息组中选择满足预设条件的重复解码词信息作为目标重复解码词信息;将所述目标重复解码词信息和所述单一解码词信息组进行拼接以生成所述候选词信息组。4.根据权利要求3所述的方法,其中,所述对于所述解码词信息组集中的每个解码词信息组,根据所述解码词,将所述解码词信息组划分为重复解码词信息组和单一解码词信息组,包括:对于所述解码词信息组集中的每个解码词信息组,响应于所述解码词信息组中存在包含该解码词信息的解码词的其他解码词信息,将该解码词信息和所述其他解码词信息放入重复解码词信息组,否则,将该解码词信息放入单一解码词信息组。5.根据权利要求1所述的方法,其中,所述候选词信息组集中的候选词信息包括:候选词和所述候选词对应的候选词概率值;以及所述从所述候选词信息组集中的每个候选词信息组选择满足目标条件的候选词信息作为目标词信息,包括:对于所述候选词信息组集中的每个候选词信息组,按照所述候选词概率值由大到小的顺序从所述候选词信息组中选择至少一个候选词信息;将所述至少一个候选词信息中概率值最大的候选词信息放入历史目标词信息集,并确定所述概率值最大的候选词信息的至少一个初始目标词信息,并基于所述至少一个初始目标词信息生成对应该候选词信息的目标词信息。所述至少一个初始目标词信息中的初始目标词信息包括:初始目标词和对应所述初始目标词的初始目标词概率值。6.根据权利要求5所述的方法,其中,所述基于所述至少一个初始目标词信息生成对应该候选词信息的目标词信息,包括:
响应于初始目标词概率值最大的初始目标词信息对应的初始目标词属于所述历史目标词信息集,确定所述初始目标词概率值最大的初始目标词信息与所述历史目标词信息集中对应的历史目标词信息之间...
【专利技术属性】
技术研发人员:李浩然,袁鹏,
申请(专利权)人:北京京东世纪贸易有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。