文本处理方法、装置、设备和存储介质制造方法及图纸

技术编号:26598830 阅读:57 留言:0更新日期:2020-12-04 21:21
提供了一种文本处理方法、文本处理装置、文本处理设备以及计算机可读存储介质。所述方法包括获取输入文本;对所述输入文本进行分析,获取所述输入文本对应的分析结果;利用聚类将所述输入文本分割为多个部分;以及基于所述多个部分以及所述分析结果,生成输出文本。

【技术实现步骤摘要】
文本处理方法、装置、设备和存储介质
本申请涉及文本处理领域,并且具体涉及一种文本处理方法、文本处理装置、文本处理设备以及计算机可读存储介质。
技术介绍
深度神经网络是一种大规模、多参数优化的工具。依靠大量的训练数据,深度神经网络能够学习出数据中难以总结的隐藏特征,从而完成多项复杂的任务,如人脸检测、图像语义分割、文本摘要提取、物体检测、动作追踪、自然语言翻译等。文本摘要提取指的是将一段有明确含义的文本内容进行高度的概括和抽象,生成文本的摘要。传统的文本摘要提取方法极度依赖于文本的具体内容(如表述含义、句式结构、修辞手法和叙述风格等),因此,不同的文本摘要提取方法应用于不同的文本(诸如不同长度的文本)时性能有所差别。此外,在文本摘要提取的过程中,在一篇文章中可能多次出现同样信息的不同表达形式,这可能会导致在摘要提取的过程的提取的摘要句子的重复。
技术实现思路
鉴于上述问题,本公开提供了一种文本处理方法、文本处理装置、文本处理设备以及计算机可读存储介质。根据本公开的一个方面,提供了一种基于神经网络的文本处理方法,包括:获取输入文本;对所述输入文本进行分析,获取所述输入文本对应的分析结果;利用聚类将所述输入文本分割为多个部分;以及基于所述多个部分以及所述分析结果,生成输出文本。根据本公开的一个方面,其中,利用聚类将所述输入文本分割为多个部分包括:初始化所述多个部分相应的多个中心句;通过计算所述输入文本中的组成句子与所述多个中心句之间的相似度,基于相似度将所述输入文本中的组成句子分别划分到所述多个中心句相应的部分中,并更新所述多个部分所包含的组成句子;在所述多个部分内,通过计算各个组成句子之间的相似度,将总相似度最高的组成句子确定为新的中心句;重复上述过程直到所述新的中心句不再变化。根据本公开的一个方面,其中,所述对所述输入文本进行分析,获取所述输入文本对应的分析结果包括:对所述输入文本的所有组成句子进行分析,以获取所有组成句子的每一个的句子权重作为所述分析结果。根据本公开的一个方面,其中,所述基于所述多个部分以及所述分析结果,生成输出文本包括:基于所述所有组成句子的每一个的句子权重,在所述多个部分中选取该部分中句子权重最大的组成句子作为该部分对应的输出结果;将多个部分的输出结果进行合并,以生出输出文本。根据本公开的一个方面,其中,所述神经网络包括一层文本处理层,利用聚类将输入文本分割为的多个部分的数目由所述文本处理层的输出文本的预定目标句子数目确定。根据本公开的一个方面,其中,所述神经网络包括N个级联的文本处理层,N≥2,所述N个级联的文本处理层中的第n个文本处理层利用聚类将输入文本分割为的多个部分的数目由所述第n个文本处理层的输出文本的预定目标句子数目确定。根据本公开的另一个方面,提供了一种基于神经网络的文本处理装置,包括:获取单元,用于获取输入文本;分析单元,用于对所述输入文本进行分析,获取所述输入文本对应的分析结果;分割单元,用于利用聚类将所述输入文本分割为多个部分;以及生成单元,用于基于所述多个部分以及所述分析结果,生成输出文本。根据本公开的另一个方面,其中,所述分割单元初始化所述多个部分相应的多个中心句;通过计算所述输入文本中的组成句子与所述多个中心句之间的相似度,基于相似度将所述输入文本中的组成句子分别划分到所述多个中心句相应的部分中,并更新所述多个部分所包含的组成句子;在所述多个部分内,通过计算各个组成句子之间的相似度,将总相似度最高的组成句子确定为新的中心句;重复上述过程直到所述新的中心句不再变化。根据本公开的另一个方面,其中,所述分析单元对所述输入文本的所有组成句子进行分析,以获取所有组成句子的每一个的句子权重作为所述分析结果。根据本公开的另一个方面,其中,所述输出单元基于所述所有组成句子的每一个的句子权重,在所述多个部分中选取该部分中句子权重最大的组成句子作为该部分对应的输出结果;将多个部分的输出结果进行合并,以生出输出文本。根据本公开的另一个方面,其中,所述神经网络包括一层文本处理层,利用聚类将输入文本分割为的多个部分的数目由所述文本处理层的输出文本的预定目标句子数目确定。根据本公开的另一个方面,其中,所述神经网络包括N个级联的文本处理层,N≥2,所述N个级联的文本处理层中的第n个文本处理层利用聚类将输入文本分割为的多个部分的数目由所述第n个文本处理层的输出文本的预定目标句子数目确定。根据本公开的又一个方面,提供了一种基于神经网络的文本处理设备,包括:存储器,配置为存储计算机可读指令;以及处理器,配置为运行存储在所述存储器中的所述计算机可读指令,其中,所述处理器运行所述计算机可读指令时执行以下步骤:获取输入文本;对所述输入文本进行分析,获取所述输入文本对应的分析结果;利用聚类将所述输入文本分割为多个部分;以及基于所述多个部分以及所述分析结果,生成输出文本。根据本公开的再一个方面,提供了一种计算机可读存储介质,其上存储计算机可读指令,当所述计算机可读指令由计算机执行时,所述计算机执行文本处理方法,所述方法包括:获取输入文本;对所述输入文本进行分析,获取所述输入文本对应的分析结果;利用聚类将所述输入文本分割为多个部分;以及基于所述多个部分以及所述分析结果,生成输出文本。在本公开的上述方面中,通过聚类将输入文本分割为多个部分,并分别获取多个部分对应的分析结果,可以达到减少获取的输出文本中的重复句子的效果,从而使得得到的输出文本更加简洁明了。附图说明通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。图1是根据本公开实施例的文本处理的方法的流程图;图2是根据本公开实施例的基于句子向量和词向量获取输入文本的组成句子的权重的示意图;图3是根据本公开实施例的将聚类应用到基于神经网络的文本处理方法的示意图;图4是根据本公开实施例的利用聚类分割输入文本的方法的流程图;图5是根据本公开实施例的利用聚类分割输入文本的示意图;图6是根据本公开实施例的获取多个部分中的每个部分对应的分析结果的示例性示意图;图7是根据本公开实施例的文本处理装置的示意图;图8是根据本公开实施例的文本处理设备的示意图;图9是根据本公开实施例的计算机可读存储介质的示意图。具体实施方式下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获取的所有其他实施例,都属于本公开保护的范围。首先,参照图1来描述用于实现本公开实施例的文本处理方法100。本公开本文档来自技高网...

【技术保护点】
1.一种基于神经网络的文本处理方法,包括:/n获取输入文本;/n对所述输入文本进行分析,获取所述输入文本对应的分析结果;/n利用聚类将所述输入文本分割为多个部分;以及/n基于所述多个部分以及所述分析结果,生成输出文本。/n

【技术特征摘要】
1.一种基于神经网络的文本处理方法,包括:
获取输入文本;
对所述输入文本进行分析,获取所述输入文本对应的分析结果;
利用聚类将所述输入文本分割为多个部分;以及
基于所述多个部分以及所述分析结果,生成输出文本。


2.根据权利要求1所述的文本处理方法,其中,所述利用聚类将所述输入文本分割为多个部分包括:
初始化所述多个部分相应的多个中心句;
通过计算所述输入文本中的组成句子与所述多个中心句之间的相似度,基于相似度将所述输入文本中的组成句子分别划分到所述多个中心句相应的部分中,并更新所述多个部分所包含的组成句子;
在所述多个部分内,通过计算各个组成句子之间的相似度,将总相似度最高的组成句子确定为新的中心句;
重复上述过程直到所述新的中心句不再变化。


3.根据权利要求1所述的文本处理方法,其中,所述对所述输入文本进行分析,获取所述输入文本对应的分析结果包括:
对所述输入文本的所有组成句子进行分析,以获取所有组成句子的每一个的句子权重作为所述分析结果。


4.根据权利要求3所述的文本处理方法,其中,所述基于所述多个部分以及所述分析结果,生成输出文本包括:
基于所述所有组成句子的每一个的句子权重,在所述多个部分中选取该部分中句子权重最大的组成句子作为该部分对应的输出结果;
将多个部分的输出结果进行合并,以生出输出文本。


5.根据权利要求1-4任一项所述的文本处理方法,其中,所述神经网络包括一层文本处理层,利用聚类将输入文本分割为的多个部分的数目由所述文本处理层的输出文本的预定目标句子数目确定。


6.根据权利要求1-4任一项所述的文本处理方法,其中,所述神经网络包括N个级联的文本处理层,N≥2,
所述N个级联的文本处理层中的第n个文本处理层利用聚类将输入文本分割为的多个部分的数目由所述第n个文本处理层的输出文本的预定目标句子数目确定。


7.一种基于神经网络的文本处理装置,包括:
获取单元,用于获取输入文本;分析单元,用于对所述输入文本进行分析,获取所述输入文本对应的分析结果;
分割单元,用于利用聚类将所述输入文本分割为多个部分;以及
生成单元,用于基于所述多个部分以及所述分析结果,生成输出文本。


8.根据权利要求7所述的文本处理装置...

【专利技术属性】
技术研发人员:郭垿宏郭心语李安新陈岚
申请(专利权)人:株式会社NTT都科摩
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1