用于输出文本的方法和装置制造方法及图纸

技术编号:25950084 阅读:29 留言:0更新日期:2020-10-17 03:42
本申请实施例公开了用于输出文本的方法和装置。该方法的一具体实施方式包括:获取初始文本,将初始文本输入预设的编码解码模型的编码网络中,得到编码信息;基于初始信息,执行如下解码步骤:利用编码解码模型的解码网络采用集束搜索算法对初始信息进行解码,生成预设数目个候选文本,基于候选文本中的N元语法,确定候选文本的分数,按照候选文本的分数由大到小的顺序从候选文本中选取集束宽度个候选文本,将对应有文本结束符的候选文本添加到完整文本集合中,确定集束宽度个候选文本中是否存在未对应有文本结束符的候选文本;若否,则利用文本的分数,从完整文本集合中选取目标文本进行输出。该实施方式提高了输出文本的流畅性和逻辑正确性。

【技术实现步骤摘要】
用于输出文本的方法和装置
本申请实施例涉及计算机
,具体涉及用于输出文本的方法和装置。
技术介绍
在自然语言处理(NaturalLanguageProcessing,NLP)领域中,经常需要用到编码解码模型,编码解码模型是一种应用于序列到序列(seq2seq)问题的模型。编码解码模型包括编码网络和解码网络。集束搜索(BeamSearch)算法是编码解码模型的解码网络中常用的一种算法,用于贪心式地在较大的求解空间中求解。集束搜索算法可以减少搜索所占用的空间和时间,在每一步深度扩展的时候,剪掉一些质量比较差的结点,保留下一些质量较高的结点,因此,减少了空间消耗,并提高了时间效率。
技术实现思路
本申请实施例提出了用于输出文本的方法和装置。第一方面,本申请实施例提供了一种用于输出文本的方法,包括:获取初始文本,将初始文本输入预设的编码解码模型的编码网络中,得到编码信息;基于初始信息,执行如下解码步骤:利用编码解码模型的解码网络对初始信息进行解码,生成预设数目个候选文本,基于上述数目个候选文本中的N元语法,确定上述数目个候选文本中每个候选文本的分数,按照候选文本的分数由大到小的顺序从上述数目个候选文本中选取预设的集束宽度个候选文本,将上述集束宽度个候选文本中对应有文本结束符的候选文本添加到预设的完整文本集合中,确定上述集束宽度个候选文本中是否存在未对应有文本结束符的候选文本,其中,初始信息包括编码信息,解码网络采用集束搜索算法进行解码,数目大于集束宽度;若否,则利用文本的分数,从完整文本集合中选取目标文本进行输出。在一些实施例中,在确定上述集束宽度个候选文本中是否存在未对应有文本结束符的候选文本之后,该方法还包括:若是,则将上述集束宽度个候选文本中未对应有文本结束符的候选文本和编码信息组成初始信息,继续执行解码步骤。在一些实施例中,基于上述数目个候选文本中的N元语法,确定上述数目个候选文本中每个候选文本的分数,包括:针对上述数目个候选文本中的每个候选文本,确定该候选文本的N元语法集合,以及确定N元语法集合中存在于预设的N元语法表中的N元语法的数量,基于上述数量,确定该候选文本的分数。在一些实施例中,基于数量,确定该候选文本的分数,包括:确定该候选文本包含的词语的数量,以及将该候选文本包含的词语的数量与N进行比较;若大于等于N,则确定该候选文本包含的词语的数量与预设第一数值的差值,将存在于N元语法表中的N元语法的数量与差值的比值确定为该候选文本的分数。在一些实施例中,基于上述数量,确定该候选文本的分数,包括:确定该候选文本包含的词语的数量,以及将该候选文本包含的词语的数量与N进行比较;若小于N,则将该候选文本的分数确定为预设第二数值。在一些实施例中,N元语法包括二元语法、三元语法和四元语法;以及基于上述数目个候选文本中的N元语法,确定上述数目个候选文本中每个候选文本的分数,包括:针对上述数目个候选文本中的每个候选文本,确定该候选文本的二元语法集合、三元语法集合和四元语法集合,以及确定二元语法集合中存在于预设的二元语法表中的二元语法的数量作为第一数量,确定三元语法集合中存在于预设的三元语法表中的三元语法的数量作为第二数量,确定四元语法集合中存在于预设的四元语法表中的四元语法的数量作为第三数量,基于第一数量、第二数量和第三数量,确定该候选文本的分数。在一些实施例中,基于第一数量、第二数量和第三数量,确定该候选文本的分数,包括:确定该候选文本包含的词语的数量;基于该候选文本包含的词语的数量和第一数量,确定第一分数;基于该候选文本包含的词语的数量和第二数量,确定第二分数;基于该候选文本包含的词语的数量和第三数量,确定第三分数;对第一分数、第二分数和第三分数进行加权求和,得到该候选文本的分数。第二方面,本申请实施例提供了一种用于输出文本的装置,包括:获取单元,被配置成获取初始文本,将初始文本输入预设的编码解码模型的编码网络中,得到编码信息;解码单元,被配置成基于初始信息,执行如下解码步骤:利用编码解码模型的解码网络对初始信息进行解码,生成预设数目个候选文本,基于上述数目个候选文本中的N元语法,确定上述数目个候选文本中每个候选文本的分数,按照候选文本的分数由大到小的顺序从上述数目个候选文本中选取预设的集束宽度个候选文本,将上述集束宽度个候选文本中对应有文本结束符的候选文本添加到预设的完整文本集合中,确定上述集束宽度个候选文本中是否存在未对应有文本结束符的候选文本,其中,初始信息包括编码信息,解码网络采用集束搜索算法进行解码,数目大于集束宽度;输出单元,被配置成若上述集束宽度个候选文本中不存在未对应有文本结束符的候选文本,则利用文本的分数,从完整文本集合中选取目标文本进行输出。在一些实施例中,该装置还包括:反馈单元,被配置成若上述集束宽度个候选文本中存在未对应有文本结束符的候选文本,则将上述集束宽度个候选文本中未对应有文本结束符的候选文本和编码信息组成初始信息,继续执行解码步骤。在一些实施例中,解码单元进一步被配置成按照如下方式基于上述数目个候选文本中的N元语法,确定上述数目个候选文本中每个候选文本的分数:针对上述数目个候选文本中的每个候选文本,确定该候选文本的N元语法集合,以及确定N元语法集合中存在于预设的N元语法表中的N元语法的数量,基于上述数量,确定该候选文本的分数。在一些实施例中,解码单元进一步被配置成按照如下方式基于上述数量,确定该候选文本的分数:确定该候选文本包含的词语的数量,以及将该候选文本包含的词语的数量与N进行比较;若大于等于N,则确定该候选文本包含的词语的数量与预设第一数值的差值,将存在于N元语法表中的N元语法的数量与差值的比值确定为该候选文本的分数。在一些实施例中,解码单元进一步被配置成按照如下方式基于上述数量,确定该候选文本的分数:确定该候选文本包含的词语的数量,以及将该候选文本包含的词语的数量与N进行比较;若小于N,则将该候选文本的分数确定为预设第二数值。在一些实施例中,N元语法包括二元语法、三元语法和四元语法;以及解码单元进一步被配置成按照如下方式基于上述数目个候选文本中的N元语法,确定上述数目个候选文本中每个候选文本的分数:针对上述数目个候选文本中的每个候选文本,确定该候选文本的二元语法集合、三元语法集合和四元语法集合,以及确定二元语法集合中存在于预设的二元语法表中的二元语法的数量作为第一数量,确定三元语法集合中存在于预设的三元语法表中的三元语法的数量作为第二数量,确定四元语法集合中存在于预设的四元语法表中的四元语法的数量作为第三数量,基于第一数量、第二数量和第三数量,确定该候选文本的分数。在一些实施例中,解码单元进一步被配置成按照如下方式基于第一数量、第二数量和第三数量,确定该候选文本的分数,包括:确定该候选文本包含的词语的数量;基于该候选文本包含的词语的数量和第一数量,确定第一分数;基于该候选文本包含的词语的数量和第二数量,确定第二分数;基于该候选文本包含的词语的数量和第三数量,确定第三分数;对第一分数本文档来自技高网...

【技术保护点】
1.一种用于输出文本的方法,包括:/n获取初始文本,将所述初始文本输入预设的编码解码模型的编码网络中,得到编码信息;/n基于初始信息,执行如下解码步骤:利用所述编码解码模型的解码网络对初始信息进行解码,生成预设数目个候选文本,基于所述数目个候选文本中的N元语法,确定所述数目个候选文本中每个候选文本的分数,按照候选文本的分数由大到小的顺序从所述数目个候选文本中选取预设的集束宽度个候选文本,将所述集束宽度个候选文本中对应有文本结束符的候选文本添加到预设的完整文本集合中,确定所述集束宽度个候选文本中是否存在未对应有文本结束符的候选文本,其中,所述初始信息包括所述编码信息,所述解码网络采用集束搜索算法进行解码,所述数目大于所述集束宽度;/n若否,则利用文本的分数,从所述完整文本集合中选取目标文本进行输出。/n

【技术特征摘要】
1.一种用于输出文本的方法,包括:
获取初始文本,将所述初始文本输入预设的编码解码模型的编码网络中,得到编码信息;
基于初始信息,执行如下解码步骤:利用所述编码解码模型的解码网络对初始信息进行解码,生成预设数目个候选文本,基于所述数目个候选文本中的N元语法,确定所述数目个候选文本中每个候选文本的分数,按照候选文本的分数由大到小的顺序从所述数目个候选文本中选取预设的集束宽度个候选文本,将所述集束宽度个候选文本中对应有文本结束符的候选文本添加到预设的完整文本集合中,确定所述集束宽度个候选文本中是否存在未对应有文本结束符的候选文本,其中,所述初始信息包括所述编码信息,所述解码网络采用集束搜索算法进行解码,所述数目大于所述集束宽度;
若否,则利用文本的分数,从所述完整文本集合中选取目标文本进行输出。


2.根据权利要求1所述的方法,其中,在所述确定所述集束宽度个候选文本中是否存在未对应有文本结束符的候选文本之后,所述方法还包括:
若是,则将所述集束宽度个候选文本中未对应有文本结束符的候选文本和所述编码信息组成初始信息,继续执行所述解码步骤。


3.根据权利要求1所述的方法,其中,所述基于所述数目个候选文本中的N元语法,确定所述数目个候选文本中每个候选文本的分数,包括:
针对所述数目个候选文本中的每个候选文本,确定该候选文本的N元语法集合,以及确定所述N元语法集合中存在于预设的N元语法表中的N元语法的数量,基于所述数量,确定该候选文本的分数。


4.根据权利要求3所述的方法,其中,所述基于所述数量,确定该候选文本的分数,包括:
确定该候选文本包含的词语的数量,以及将该候选文本包含的词语的数量与N进行比较;
若大于等于N,则确定该候选文本包含的词语的数量与预设第一数值的差值,将所述存在于所述N元语法表中的N元语法的数量与所述差值的比值确定为该候选文本的分数。


5.根据权利要求3所述的方法,其中,所述基于所述数量,确定该候选文本的分数,包括:
确定该候选文本包含的词语的数量,以及将该候选文本包含的词语的数量与N进行比较;
若小于N,则将该候选文本的分数确定为预设第二数值。


6.根据权利要求1所述的方法,其中,所述N元语法包括二元语法、三元语法和四元语法;以及
所述基于所述数目个候选文本中的N元语法,确定所述数目个候选文本中每个候选...

【专利技术属性】
技术研发人员:袁鹏李浩然徐松
申请(专利权)人:北京沃东天骏信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1