一种文本比对方法、装置、介质和设备制造方法及图纸

技术编号:39178369 阅读:10 留言:0更新日期:2023-10-27 08:26
本说明书提供一种文本比对方法、装置、介质和设备,所述方法包括:根据待查重的第一文本,从数据库中获取第二文本集合;基于第一神经网络,将所述第一文本与所述第二文本集合中的各个第二文本进行语义匹配,从所述各个第二文本中确定出目标第二文本。基于上述方法,能够在保证文本比对精度的同时,提高文本比对效率。率。率。

【技术实现步骤摘要】
一种文本比对方法、装置、介质和设备


[0001]本说明书涉及电数字数据处理
,尤其涉及一种文本比对方法、装置、介质和设备。

技术介绍

[0002]现如今,当用户存在内容比对需求(例如查询某些内容、或者进行论文查重时,均需要将文本与数据库中的存储的文本内容进行比对)时。为了保证比对结果的精确度,现有技术中通常是将文本与数据库中的每个文本进行比对,来得到比对结果。
[0003]然而,当数据库中的文本较多时,现有技术中与每个文本进行比对的方式显然比较缓慢,因此,需要一种在保证比对结果的精确度的同时,能够提高文本比对效率的方案。

技术实现思路

[0004]为克服相关技术中存在的问题,本说明书提供了一种文本比对方法、装置、介质和设备。
[0005]根据本说明书实施例的第一方面,提供一种文本比对方法,包括:
[0006]根据待查重的第一文本,从数据库中获取第二文本集合;所述第二文本集合中包括的每个第二文本与所述第一文本之间的相似度满足预设相似条件。
[0007]基于第一神经网络,将所述第一文本与所述第二文本集合中的各个第二文本进行语义匹配,从所述各个第二文本中确定出目标第二文本,所述目标第二文本与所述第一文本相似。
[0008]根据本说明书实施例的第二方面,提供一种文本比对装置,所述装置包括:
[0009]获取模块,用于根据待查重的第一文本,从数据库中获取第二文本集合;所述第二文本集合中包括的每个第二文本与所述第一文本之间的相似度满足预设相似条件。
[0010]匹配模块,用于基于第一神经网络,将所述第一文本与所述第二文本集合中的各个第二文本进行语义匹配,从所述各个第二文本中确定出目标第二文本,所述目标第二文本与所述第一文本相似。
[0011]根据本说明书实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面提供的实施例中任一所述文本比对方法的步骤。
[0012]根据本说明书实施例的第四方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序;其中,所述处理器被配置为执行如第一方面提供的实施例中任一所述文本比对方法的步骤。
[0013]本说明书的实施例提供的技术方案可以包括以下有益效果:
[0014]本说明书实施例中,通过待查重的第一文本,能够对数据库中的文本进行初步筛选,得到与第一文本的相似度满足预设相似条件的第二文本。通过第一神经网络将第一文本与第二文本进行语义匹配的方式,得到目标第二文本。通过上述方式,一方面在比对时仅
需要将第一文本与第二文本比对即可,不需要与数据库中的所有文本进行比对,另一方面基于神经网络进行比对时能够提高比对精度,有助于在保证比对精度的同时,提高比对效率。
[0015]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
[0016]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
[0017]图1示出了本说明书实施例提供的一种文本比对方法的流程图。
[0018]图2示出了本说明书实施例提供的另一种文本比对方法的流程图。
[0019]图3示出了本说明书实施例提供的一种文本比对装置的结构示意图。
[0020]图4是本说明书根据一示例性实施例示出的一种文本比对装置所在计算机设备的一种硬件结构图。
具体实施方式
[0021]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
[0022]在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0023]应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0024]互联网技术的发展伴随着大量文本信息的产生,互联网用户通过文本数据进行信息的传递与获取。然而,这些文本中常常存在大量重复内容,为文本信息平台(如社区、论坛等)的发展带来不良影响,文本查重技术应运而生。
[0025]以汽车论坛为例,汽车论坛为用户提供信息交互的平台,用户在汽车论坛上分享对某个车型的分析、汽车技术讨论、购买指南等若干帖子。有的用户为了提高自己账号和文章的曝光度,会复制、盗用别的用户的高质量文章重新发布到汽车论坛中。这就会导致被盗用文章的用户不喜欢在该汽车论坛继续发帖,其他用户在汽车论坛中反复看到相同的内容,这会降低汽车论坛中的用户活跃度。
[0026]为了避免上述问题,需要对汽车论坛中的文章进行查重处理。现有技术中:通常是判断不同文本片段之间字符序列的一致性,来达到查重的目的,如论文查重等场景。
[0027]然而,当数据库中的文本较多时,对文本进行查重时需要将数据库中的每个文本进行比对,导致目标文本的查重效率将会极低;并且,如果想要提高文本的比对精度的话,会进一步降低查重效率。因此,需要一种在保证比对结果的精确度的同时,能够提高文本比对效率的方案。
[0028]接下来对本说明书实施例进行详细说明。
[0029]图1示出了本说明书实施例提供的一种文本比对方法的流程图,如图1所示,所述方法包括以下步骤:
[0030]步骤101,根据待查重的第一文本,从数据库中获取第二文本集合;所述第二文本集合中包括的每个第二文本与所述第一文本之间的相似度满足预设相似条件。
[0031]待查重的第一文本可以是用户在数据库中指定的文本,也可以是按照特定查重顺序或者查重方案自动确定的,还可以是新传输到数据库中的文本。
[0032]从数据库中获取满足预设相似条件的第二文本,得到第二文本集合。预设相似条件可以是:两个文本的文字重合度达到第一阈值,或者两个文本的关键词相同、两个文本的文字序列的重合度达到第二阈值,或者两个文本的相似度达到第三阈值等等。
[0033]示例性的,获取方法包括:
[0034]步骤1011,根据所述第一文本对应的第一类别,从所述数据库中获取所述第一类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本比对方法,其特征在于,包括:根据待查重的第一文本,从数据库中获取第二文本集合;所述第二文本集合中包括的每个第二文本与所述第一文本之间的相似度满足预设相似条件;基于第一神经网络,将所述第一文本与所述第二文本集合中的各个第二文本进行语义匹配,从所述各个第二文本中确定出目标第二文本,所述目标第二文本与所述第一文本相似。2.根据权利要求1所述的方法,其特征在于,所述根据待查重的第一文本,从数据库中获取第二文本集合,包括:根据所述第一文本对应的第一类别,从所述数据库中获取所述第一类别对应的至少一个第三文本;将所述第一文本与所述至少一个第三文本进行相似度计算,从所述至少一个第三文本中确定所述第二文本,得到所述第二文本集合。3.根据权利要求2所述的方法,其特征在于,所述将所述第一文本与所述至少一个第三文本进行相似度计算,包括:获取所述第一文本与所述第三文本对应的若干第一向量特征;计算所述第一文本的第一向量特征与每个所述第三文本的第一向量特征之间的差异程度;所述基于第一神经网络,将所述第一文本与所述第二文本集合中的各个第二文本进行语义匹配,包括:获取基于所述第一神经网络转换得到的若干第二向量特征;所述若干第二向量特征分别与所述第一文本和所述第二文本对应;基于所述第一文本的第二向量特征与所述第二文本的第二向量特征,计算所述第一文本与每个所述第二文本之间的语义相似度。4.根据权利要求2所述的方法,其特征在于,所述数据库中存储有预先生成的若干个文本类别,所述若干个文本类别中至少包括所述第一类别;在所述根据所述第一文本对应的第一类别,从所述数据库中获取所述第一类别对应的至少一个第三文本之前,所述方法还包括:基于第二神经网络确定所述数据库中的每个文本对应的至少一个文本类别;在所述数据库中存储每个所述文本与所述文本类别之间的第一映射关系。5.根据权利要求3所述的方法,其特征在于,所述若干第一向量特征是基于第三神经网络转换得到的,所述方法还包括:按照预设周期将更新的文本...

【专利技术属性】
技术研发人员:安鹏飞车皓阳谷鹰姚雷
申请(专利权)人:浙江吉利控股集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1