真实场景中的海量文本查重方法、系统、设备及存储介质技术方案

技术编号：44981077 阅读：16 留言：0更新日期：2025-04-15 17:01

本发明专利技术公开了一种真实场景中的海量文本查重方法、系统、设备及存储介质，属于文本查重技术领域，解决现有文本查重算法在面对真实场景下海量文本数据时查重速度较慢并且缺乏对语义查重的技术问题。方法为根据真实场景建立包含向量库和文字库的文档库；选择向量化模型并进行微调训练优化得到向量化处理模型；获取用于校验查重的全部文档并生成查重数据库；获得需要被查重的文档并生成待查重数据；将待查重数据和查重数据库依次进行向量相似度比对、相同字数筛选和连续相同字数筛选，获得最终查重命中的文本内容。可以兼顾语义级和字符级的多重查验，并有效提升查重在海量文本中的计算效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本查重，更具体地说，它涉及一种真实场景中的海量文本查重方法、系统、设备及存储介质。

技术介绍

1、在当前的学术和办公领域，尚未发现一种能同时满足语义匹配与字符级匹配的高效查重方法，以彻底遏制学术创作及办公文件撰写过程中的抄袭与剽窃行为，这无疑为学术文件与办公文件的查重及抄袭校验工作带来了巨大的挑战，抄袭者与剽窃者往往通过文字的修改与句子的替换，窃取原始作者的学术与办公成果。

2、由于现有海量文档难以进行便捷的比对校验，这不仅可能误导读者、降低信息的可信度，还可能导致他人成果被窃取以及学术作假等问题的出现，这些问题对个人、企业、学术界乃至整个社会都可能产生极其严重且恶劣的负面影响。

3、而现有文本查重算法在面对真实场景下海量文本数据时，存在查重速度较慢并且缺乏对语义查重的问题。

技术实现思路

1、本专利技术要解决的技术问题是针对现有技术的上述不足，本专利技术的目的一是提供一种真实场景中的海量文本查重方法，可以有效地解决当前文本查重实际应用时的挑战，在整合多种查重相关算法协同作业的情况下，兼顾语义级和字符级的多重查验，并有效提升查重在海量文本中的计算效率。

2、本专利技术的目的二是提供一种真实场景中的海量文本查重系统。

3、本专利技术的目的三是提供一种计算机设备。

4、本专利技术的目的四是提供一种计算机存储介质。

5、为了实现上述目的一，本专利技术提供一种真实场景中的海量文本查重方法，包括以下步骤：

6、步骤1、根据真实场景建立包含向量库和文字库的文档库，所述向量库用于存储将文字向量化后的向量数据，所述文字库用于存储所述向量数据对应的文字数据，根据索引建立所述向量库和文字库之间的关联关系；

7、步骤2、选择向量化模型，并根据所述文档库对所述向量化模型进行微调训练优化得到向量化处理模型；

8、步骤3、获取用于校验查重的全部文档，并使用所述向量化处理模型进行预处理后，导入所述文档库内得到查重数据库；

9、步骤4、获得需要被查重的文档，并使用所述向量化处理模型进行预处理得到待查重数据；

10、步骤5、将所述待查重数据和所述查重数据库内存储的数据进行向量相似度比对，获得所述查重数据库内的高相似度数据；

11、步骤6、对所述待查重数据与高相似度数据进行相同字数筛选，得到相同字数阈值的文字数据；

12、步骤7、对所述待查重数据与相同字数阈值的文字数据进行连续相同字数筛选，获得最终查重命中的文本内容。

13、作为进一步地改进，所述向量库为开源向量库milvus，所述文字库为mysql数据库。

14、进一步地，所述向量化模型为开源模型bcembedding模型；

15、微调训练具体为，从所述文档库中选择不少于5000个句子，并对每个句子人工标注出至少1个相似句子，利用这些句子对开源模型bcembedding模型进行微调训练，得到更加适配当前使用场景的向量化处理模型。

16、进一步地，在步骤3中，对所述全部文档，遵循文档拆分逻辑对每个文档进行拆分，拆分成若干个句子，将拆分后的句子使用所述向量化处理模型进行向量化处理，将向量化处理后得到的向量和对应的句子分别存储至所述文档库中的向量库和文字库，得到查重数据库；

17、文档拆分逻辑具体为：

18、根据bcembedding模型的输入长度限制，选择500字做为上限；

19、采用句号、感叹号、问题和双引号的粗粒度对文档进行分句拆分；

20、如果粗粒度拆分后，仍然大于500字，采用句号、感叹号、问题、逗号、冒号、分号、顿号、双引号和单引号的细粒度对文档进行分句拆分；

21、如果细粒度拆分后依然大约500字，采用直接500字符截断的形式对文档进行拆分。

22、进一步地，在步骤5中，使用所述向量化处理模型对待查重数据的句子进行向量化处理，获得向量数组，采用cosine距离计算法方法，将所述向量数组内的向量逐一计算与所述查重数据库中向量库内的所有向量之间的cosine距离，筛选出向量库内cosine距离大于或等于向量相似度阈值的向量，并获得向量对应的文字数据，作为高相似度数据；

23、向量相似度阈值具体为：

24、采用归一化到0和1之间的cosine距离做为筛选阈值数值，使用场景经验法，具体选择0.75作为阈值。

25、进一步地，在步骤6中，将所述待查重数据的句子与所述文字数据逐一进行相同字数比对，在所述文字数据中进一步筛选出大于或等于相同字数阈值的文字数据，作为相同字数阈值的文字数据；

26、相同字数阈值具体为：

27、采用归一化到0和1之间的相同字数比例作为筛选阈值数值，使用场景经验法，具体选择0.80作为阈值。

28、进一步地，在步骤7中，将所述待查重数据的句子所述相同字数阈值的文字数据逐一进行连续相同字数比对，最终筛选出大于等于连续相同字数阈值的文字数据，作为最终查重命中的文本内容；

29、连续相同字数阈值具体为：

30、采用具体的连续相同字数作为筛选阈值数值，使用场景经验法，具体选择12字作为阈值。

31、为了实现上述目的二，本专利技术提供一种真实场景中的海量文本查重系统，包括：

32、文档库建立模块，用于根据真实场景建立包含向量库和文字库的文档库，所述向量库用于存储将文字向量化后的向量数据，所述文字库用于存储所述向量数据对应的文字数据，根据索引建立所述向量库和文字库之间的关联关系；

33、向量化模型训练模块，用于选择向量化模型，并根据所述文档库对所述向量化模型进行微调训练优化得到向量化处理模型；

34、第一获取模块，用于获取用于校验查重的全部文档，并使用所述向量化处理模型进行预处理后，导入所述文档库内得到查重数据库；

35、第二获取模块，用于获得需要被查重的文档，并使用所述向量化处理模型进行预处理得到待查重数据；

36、向量相似度比对模块，用于将所述待查重数据和所述查重数据库内存储的数据进行向量相似度比对，获得所述查重数据库内的高相似度数据；

37、相同字数比对模块，用于对所述待查重数据与高相似度数据进行相同字数筛选，得到相同字数阈值的文字数据；

38、连续相同字数比对模块，用于对所述待查重数据与相同字数阈值的文字数据进行连续相同字数筛选，获得最终查重命中的文本内容。

39、为了实现上述目的三，本专利技术提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的一种真实场景中的海量文本查重方法。

40、为了实现上述目的四，本专利技术提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的一种真实场景中的海量文本查重方法。

41、有益效本文档来自技高网...

【技术保护点】

1.一种真实场景中的海量文本查重方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的真实场景中的海量文本查重方法，其特征在于，所述向量库为开源向量库Milvus，所述文字库为Mysql数据库。

3.根据权利要求1所述的真实场景中的海量文本查重方法，其特征在于，所述向量化模型为开源模型BCEmbedding模型；

4.根据权利要求1所述的真实场景中的海量文本查重方法，其特征在于，在步骤3中，对所述全部文档，遵循文档拆分逻辑对每个文档进行拆分，拆分成若干个句子，将拆分后的句子使用所述向量化处理模型进行向量化处理，将向量化处理后得到的向量和对应的句子分别存储至所述文档库中的向量库和文字库，得到查重数据库；

5.根据权利要求1所述的真实场景中的海量文本查重方法，其特征在于，在步骤5中，使用所述向量化处理模型对待查重数据的句子进行向量化处理，获得向量数组，采用Cosine距离计算法方法，将所述向量数组内的向量逐一计算与所述查重数据库中向量库内的所有向量之间的Cosine距离，筛选出向量库内Cosine距离大于或等于向量相似度阈值的向量，

6.根据权利要求5所述的真实场景中的海量文本查重方法，其特征在于，在步骤6中，将所述待查重数据的句子与所述文字数据逐一进行相同字数比对，在所述文字数据中进一步筛选出大于或等于相同字数阈值的文字数据，作为相同字数阈值的文字数据；

7.根据权利要求6所述的真实场景中的海量文本查重方法，其特征在于，在步骤7中，将所述待查重数据的句子所述相同字数阈值的文字数据逐一进行连续相同字数比对，最终筛选出大于等于连续相同字数阈值的文字数据，作为最终查重命中的文本内容；

8.一种真实场景中的海量文本查重系统，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7任意一项所述的一种真实场景中的海量文本查重方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任意一项所述的一种真实场景中的海量文本查重方法。

...

【技术特征摘要】

1.一种真实场景中的海量文本查重方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的真实场景中的海量文本查重方法，其特征在于，所述向量库为开源向量库milvus，所述文字库为mysql数据库。

3.根据权利要求1所述的真实场景中的海量文本查重方法，其特征在于，所述向量化模型为开源模型bcembedding模型；

5.根据权利要求1所述的真实场景中的海量文本查重方法，其特征在于，在步骤5中，使用所述向量化处理模型对待查重数据的句子进行向量化处理，获得向量数组，采用cosine距离计算法方法，将所述向量数组内的向量逐一计算与所述查重数据库中向量库内的所有向量之间的cosine距离，筛选出向量库内cosine距离大于或等于向量...

【专利技术属性】
技术研发人员：高健，黄文新，黄总谋，李昌金，
申请(专利权)人：中国—东盟信息港股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人