一种文本相似度的识别方法、系统、设备和存储介质技术方案

技术编号:26376400 阅读:21 留言:0更新日期:2020-11-19 23:45
本发明专利技术实施例公开了一种文本相似度的识别方法、系统、设备和存储介质。该方法包括:获取目标文本;将所述目标文本转换为目标特征矩阵;将所述目标特征矩阵输入至预先训练好的神经网络模型以得到所述目标文本的目标文本特征;从预设数据库中获取对比文本的对比文本特征;根据所述目标文本特征和对比文本特征确定所述目标文本和对比文本的文本相似度。本发明专利技术实施例实现了快速确定文本之间相似度。

【技术实现步骤摘要】
一种文本相似度的识别方法、系统、设备和存储介质
本专利技术实施例涉及文本技术,尤其涉及一种文本相似度的识别方法、系统、设备和存储介质。
技术介绍
随着数字媒体技术和神经网络技术的蓬勃发展,包括文本图像在内的多媒体资源规模越来越大,且神经网络技术的应用也越来越广泛。多个文本之间的相似度逐渐成为自然语言处理领域中的一个研究热点,但是,传统的文本相似度识别方法,需要依赖基于OCR的复杂模型,才能达到较好的文本相似性检测效果。而文本内容的视觉呈现方式大致相同,在文本识别的早期研究中,特征提取需要经过版面分析、行切分、单字切分、单字识别等过程,而在近几年,基于神经网络的特征提取技术已经成为一个重要的研究方向。在各种神经网络模型中,卷积神经网络是图像处理任务中最强大的网络模型,使图像可以直接作为网络的输入,避免了传统识别方法中复杂的特征提取与数据重建过程。但是目前还是没有一种很好的方法能将神经网络技术融入文本相似度识别之中,以至于没有办法实现文本之间的相似度的快速确定。
技术实现思路
本专利技术实施例提供一种文本相似度的识别方法、系统、设备和存储介质,以实现快速确定文本之间相似度。为达此目的,本专利技术实施例提供了一种文本相似度的识别方法,该方法包括:获取目标文本;将所述目标文本转换为目标特征矩阵;将所述目标特征矩阵输入至预先训练好的神经网络模型以得到所述目标文本的目标文本特征;从预设数据库中获取对比文本的对比文本特征;根据所述目标文本特征和对比文本特征确定所述目标文本和对比文本的文本相似度。进一步的,所述将所述目标文本转换为目标特征矩阵包括:将所述目标文本划分为多个段落;对每个段落进行分词以得到多个词语或多个单字;将所述多个词语或多个单字输入至预先训练好的语言模型以得到每个段落的第一特征向量;将所述第一特征向量进行拼接以得到多个段落的目标特征矩阵。进一步的,所述将所述目标特征矩阵输入至预先训练好的神经网络模型以得到所述目标文本的目标文本特征包括:对所述目标特征矩阵进行卷积以得到多个第二特征向量;对所述第二特征向量池化以得到所述目标文本的目标文本特征。进一步的,所述根据所述目标文本特征和对比文本特征得到确定目标文本和对比文本的文本相似度之后包括:获取和所述目标文本相似度最高的目标对比文本。进一步的,所述获取和所述目标文本相似度最高的目标对比文本之后包括:获取所述目标对比文本的多个段落的目标对比特征矩阵;根据所述目标特征矩阵和目标对比特征矩阵确定所述目标文本和目标对比文本相似度最高的段落。进一步的,所述根据所述目标特征矩阵和对比特征矩阵确定所述目标文本和目标对比文本相似度最高的段落之后包括:判断所述目标文本和目标对比文本相似度最高的段落之间的段落长度差值;根据所述段落长度差值确定所述目标文本和目标对比文本的详略关系。进一步的,所述预先训练好的神经网络模型为CNN神经网络模型。一方面,本专利技术实施例还提供了一种文本相似度的识别系统,该系统包括:文本获取模块,用于获取目标文本;文本转换模块,用于将所述目标文本转换为目标特征矩阵;特征获取模块,用于将所述目标特征矩阵输入至预先训练好的神经网络模型以得到所述目标文本的目标文本特征;对比获取模块,用于从预设数据库中获取对比文本的对比文本特征;相似确定模块,用于根据所述目标文本特征和对比文本特征确定所述目标文本和对比文本的文本相似度。另一方面,本专利技术实施例还提供了一种计算机设备,该计算机设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任一实施例提供的方法。又一方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任一实施例提供的方法。本专利技术实施例通过获取目标文本;将所述目标文本转换为目标特征矩阵;将所述目标特征矩阵输入至预先训练好的神经网络模型以得到所述目标文本的目标文本特征;从预设数据库中获取对比文本的对比文本特征;根据所述目标文本特征和对比文本特征确定所述目标文本和对比文本的文本相似度,解决了不能将神经网络技术融入文本相似度识别之中以至于没有办法实现文本之间的相似度的快速确定的问题,实现了快速确定文本之间相似度的效果。附图说明图1是本专利技术实施例一提供的一种文本相似度的识别方法的流程示意图;图2是本专利技术实施例二提供的一种文本相似度的识别方法的流程示意图;图3是本专利技术实施例二提供的一种文本相似度的识别方法步骤S290之后的流程示意图;图4是本专利技术实施例三提供的一种文本相似度的识别系统的结构示意图;图5为本专利技术实施例四提供的一种计算机设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一模块称为第二模块,且类似地,可将第二模块称为第一模块。第一模块和第二模块两者都是模块,但其不是同一模块。术语“第一”、“第二”等不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本专利技术实施例的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。实施例一如图1所示,本专利技术实施例一提供了一种文本相似度的识别方法,该方法包括:S110、获取目标文本。S120、将目标文本转换为目标特征矩阵。S130、将目标特征矩阵输入至预先训练好的神经网络模型以得到目标文本的目标文本特征。本实施例中,首先获取到需要进行相似度识别的目标文本,目标文本可以是新闻、论文、文章等其它文字类文本,然后将目标文本转换为目标特征矩阵,其中目标特征矩阵为目标文本中每个字或词转换成特征向量后组成的特征矩阵,如此就可以将将目标特征矩阵输入至预本文档来自技高网...

【技术保护点】
1.一种文本相似度的识别方法,其特征在于,包括:/n获取目标文本;/n将所述目标文本转换为目标特征矩阵;/n将所述目标特征矩阵输入至预先训练好的神经网络模型以得到所述目标文本的目标文本特征;/n从预设数据库中获取对比文本的对比文本特征;/n根据所述目标文本特征和对比文本特征确定所述目标文本和对比文本的文本相似度。/n

【技术特征摘要】
1.一种文本相似度的识别方法,其特征在于,包括:
获取目标文本;
将所述目标文本转换为目标特征矩阵;
将所述目标特征矩阵输入至预先训练好的神经网络模型以得到所述目标文本的目标文本特征;
从预设数据库中获取对比文本的对比文本特征;
根据所述目标文本特征和对比文本特征确定所述目标文本和对比文本的文本相似度。


2.根据权利要求1所述的方法,其特征在于,所述将所述目标文本转换为目标特征矩阵包括:
将所述目标文本划分为多个段落;
对每个段落进行分词以得到多个词语或多个单字;
将所述多个词语或多个单字输入至预先训练好的语言模型以得到每个段落的第一特征向量;
将所述第一特征向量进行拼接以得到多个段落的目标特征矩阵。


3.根据权利要求2所述的方法,其特征在于,所述将所述目标特征矩阵输入至预先训练好的神经网络模型以得到所述目标文本的目标文本特征包括:
对所述目标特征矩阵进行卷积以得到多个第二特征向量;
对所述第二特征向量池化以得到所述目标文本的目标文本特征。


4.根据权利要求2所述的方法,其特征在于,所述根据所述目标文本特征和对比文本特征得到确定目标文本和对比文本的文本相似度之后包括:
获取和所述目标文本相似度最高的目标对比文本。


5.根据权利要求4所述的方法,其特征在于,所述获取和所述目标文本相似度最高的目标对比文本之后包括:
获取所述目标对比文本的多个段落的目标对比特征矩阵;

【专利技术属性】
技术研发人员:卓民杨楠
申请(专利权)人:深圳市卡牛科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1