一种文本比对方法、装置、介质和设备制造方法及图纸

技术编号：39178369 阅读：10 留言：0更新日期：2023-10-27 08:26

本说明书提供一种文本比对方法、装置、介质和设备，所述方法包括：根据待查重的第一文本，从数据库中获取第二文本集合；基于第一神经网络，将所述第一文本与所述第二文本集合中的各个第二文本进行语义匹配，从所述各个第二文本中确定出目标第二文本。基于上述方法，能够在保证文本比对精度的同时，提高文本比对效率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本比对方法、装置、介质和设备

[0001]本说明书涉及电数字数据处理
，尤其涉及一种文本比对方法、装置、介质和设备。

技术介绍

[0002]现如今，当用户存在内容比对需求(例如查询某些内容、或者进行论文查重时，均需要将文本与数据库中的存储的文本内容进行比对)时。为了保证比对结果的精确度，现有技术中通常是将文本与数据库中的每个文本进行比对，来得到比对结果。
[0003]然而，当数据库中的文本较多时，现有技术中与每个文本进行比对的方式显然比较缓慢，因此，需要一种在保证比对结果的精确度的同时，能够提高文本比对效率的方案。

技术实现思路

[0004]为克服相关技术中存在的问题，本说明书提供了一种文本比对方法、装置、介质和设备。
[0005]根据本说明书实施例的第一方面，提供一种文本比对方法，包括：
[0006]根据待查重的第一文本，从数据库中获取第二文本集合；所述第二文本集合中包括的每个第二文本与所述第一文本之间的相似度满足预设相似条件。
[0007]基于第一神经网络，将所述第一文本与所述第二文本集合中的各个第二文本进行语义匹配，从所述各个第二文本中确定出目标第二文本，所述目标第二文本与所述第一文本相似。
[0008]根据本说明书实施例的第二方面，提供一种文本比对装置，所述装置包括：
[0009]获取模块，用于根据待查重的第一文本，从数据库中获取第二文本集合；所述第二文本集合中包括的每个第二文本与所述第一文本之间的相似度满足预设相似条件。
[...

【技术保护点】

【技术特征摘要】
1.一种文本比对方法，其特征在于，包括：根据待查重的第一文本，从数据库中获取第二文本集合；所述第二文本集合中包括的每个第二文本与所述第一文本之间的相似度满足预设相似条件；基于第一神经网络，将所述第一文本与所述第二文本集合中的各个第二文本进行语义匹配，从所述各个第二文本中确定出目标第二文本，所述目标第二文本与所述第一文本相似。2.根据权利要求1所述的方法，其特征在于，所述根据待查重的第一文本，从数据库中获取第二文本集合，包括：根据所述第一文本对应的第一类别，从所述数据库中获取所述第一类别对应的至少一个第三文本；将所述第一文本与所述至少一个第三文本进行相似度计算，从所述至少一个第三文本中确定所述第二文本，得到所述第二文本集合。3.根据权利要求2所述的方法，其特征在于，所述将所述第一文本与所述至少一个第三文本进行相似度计算，包括：获取所述第一文本与所述第三文本对应的若干第一向量特征；计算所述第一文本的第一向量特征与每个所述第三文本的第一向量特征之间的差异程度；所述基于第一神经网络，将所述第一文本与所述第二文本集合中的各个第二文本进行语义匹配，包括：获取基于所述第一神经网络转换得到的若干第二向量特征；所述若干第二向量特征分别与所述第一文本和所述第二文本对应；基于所述第一文本的第二向量特征与所述第二文本的第二向量特征，计算所述第一文本与每个所述第二文本之间的语义相似度。4.根据权利要求2所述的方法，其特征在于，所述数据库中存储有预先生成的若干个文本类别，所述若干个文本类别中至少包括所述第一类别；在所述根据所述第一文本对应的第一类别，从所述数据库中获取所述第一类别对应的至少一个第三文本之前，所述方法还包括：基于第二神经网络确定所述数据库中的每个文本对应的至少一个文本类别；在所述数据库中存储每个所述文本与所述文本类别之间的第一映射关系。5.根据权利要求3所述的方法，其特征在于，所述若干第一向量特征是基于第三神经网络转换得到的，所述方法还包括：按照预设周期将更新的文本...

【专利技术属性】
技术研发人员：安鹏飞，车皓阳，谷鹰，姚雷，
申请(专利权)人：浙江吉利控股集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人