【技术实现步骤摘要】
用于输出文本的方法和装置
本申请实施例涉及计算机
,具体涉及用于输出文本的方法和装置。
技术介绍
在自然语言处理(NaturalLanguageProcessing,NLP)领域中,经常需要用到编码解码模型,编码解码模型是一种应用于序列到序列(seq2seq)问题的模型。编码解码模型包括编码网络和解码网络。集束搜索(BeamSearch)算法是编码解码模型的解码网络中常用的一种算法,用于贪心式地在较大的求解空间中求解。集束搜索算法可以减少搜索所占用的空间和时间,在每一步深度扩展的时候,剪掉一些质量比较差的结点,保留下一些质量较高的结点,因此,减少了空间消耗,并提高了时间效率。
技术实现思路
本申请实施例提出了用于输出文本的方法和装置。第一方面,本申请实施例提供了一种用于输出文本的方法,包括:获取初始文本,将初始文本输入预设的编码解码模型的编码网络中,得到编码信息;基于初始信息,执行如下解码步骤:利用编码解码模型的解码网络对初始信息进行解码,生成预设数目个候选文本,基于上述数目个候选文本中的N元语法,确定上述数目个候选文本中每个候选文本的分数,按照候选文本的分数由大到小的顺序从上述数目个候选文本中选取预设的集束宽度个候选文本,将上述集束宽度个候选文本中对应有文本结束符的候选文本添加到预设的完整文本集合中,确定上述集束宽度个候选文本中是否存在未对应有文本结束符的候选文本,其中,初始信息包括编码信息,解码网络采用集束搜索算法进行解码,数目大于集束宽度;若否,则利用文本的分数,从完整文本集合 ...
【技术保护点】
1.一种用于输出文本的方法,包括:/n获取初始文本,将所述初始文本输入预设的编码解码模型的编码网络中,得到编码信息;/n基于初始信息,执行如下解码步骤:利用所述编码解码模型的解码网络对初始信息进行解码,生成预设数目个候选文本,基于所述数目个候选文本中的N元语法,确定所述数目个候选文本中每个候选文本的分数,按照候选文本的分数由大到小的顺序从所述数目个候选文本中选取预设的集束宽度个候选文本,将所述集束宽度个候选文本中对应有文本结束符的候选文本添加到预设的完整文本集合中,确定所述集束宽度个候选文本中是否存在未对应有文本结束符的候选文本,其中,所述初始信息包括所述编码信息,所述解码网络采用集束搜索算法进行解码,所述数目大于所述集束宽度;/n若否,则利用文本的分数,从所述完整文本集合中选取目标文本进行输出。/n
【技术特征摘要】
1.一种用于输出文本的方法,包括:
获取初始文本,将所述初始文本输入预设的编码解码模型的编码网络中,得到编码信息;
基于初始信息,执行如下解码步骤:利用所述编码解码模型的解码网络对初始信息进行解码,生成预设数目个候选文本,基于所述数目个候选文本中的N元语法,确定所述数目个候选文本中每个候选文本的分数,按照候选文本的分数由大到小的顺序从所述数目个候选文本中选取预设的集束宽度个候选文本,将所述集束宽度个候选文本中对应有文本结束符的候选文本添加到预设的完整文本集合中,确定所述集束宽度个候选文本中是否存在未对应有文本结束符的候选文本,其中,所述初始信息包括所述编码信息,所述解码网络采用集束搜索算法进行解码,所述数目大于所述集束宽度;
若否,则利用文本的分数,从所述完整文本集合中选取目标文本进行输出。
2.根据权利要求1所述的方法,其中,在所述确定所述集束宽度个候选文本中是否存在未对应有文本结束符的候选文本之后,所述方法还包括:
若是,则将所述集束宽度个候选文本中未对应有文本结束符的候选文本和所述编码信息组成初始信息,继续执行所述解码步骤。
3.根据权利要求1所述的方法,其中,所述基于所述数目个候选文本中的N元语法,确定所述数目个候选文本中每个候选文本的分数,包括:
针对所述数目个候选文本中的每个候选文本,确定该候选文本的N元语法集合,以及确定所述N元语法集合中存在于预设的N元语法表中的N元语法的数量,基于所述数量,确定该候选文本的分数。
4.根据权利要求3所述的方法,其中,所述基于所述数量,确定该候选文本的分数,包括:
确定该候选文本包含的词语的数量,以及将该候选文本包含的词语的数量与N进行比较;
若大于等于N,则确定该候选文本包含的词语的数量与预设第一数值的差值,将所述存在于所述N元语法表中的N元语法的数量与所述差值的比值确定为该候选文本的分数。
5.根据权利要求3所述的方法,其中,所述基于所述数量,确定该候选文本的分数,包括:
确定该候选文本包含的词语的数量,以及将该候选文本包含的词语的数量与N进行比较;
若小于N,则将该候选文本的分数确定为预设第二数值。
6.根据权利要求1所述的方法,其中,所述N元语法包括二元语法、三元语法和四元语法;以及
所述基于所述数目个候选文本中的N元语法,确定所述数目个候选文本中每个候选...
【专利技术属性】
技术研发人员:袁鹏,李浩然,徐松,
申请(专利权)人:北京沃东天骏信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。