文本查重方法、装置、设备、存储介质及计算机程序产品制造方法及图纸

技术编号:43436767 阅读:16 留言:0更新日期:2024-11-27 12:44
本申请公开了一种文本查重方法、装置、设备、存储介质及计算机程序产品,涉及文本处理技术领域,公开了文本查重方法,包括:获取待查重文本,并构建待查重文本对应的待查重文本矩阵;将待查重文本矩阵输入预设的词向量转化神经网络,得到待查重文本向量;获取各个对比文本的对比文本向量;确定待查重文本向量与各个对比文本向量之间的文本向量相似度,并根据文本向量相似度确定待查重文本的查重结果。本申请中词向量转化神经网络在训练过程中可以学习到同一语义信息的不同语义表达方式,从而在文本向量中引入了语义信息,可以实现基于语义的文本查重,提高文本查重的准确性。

【技术实现步骤摘要】

本申请涉及文本处理,尤其涉及文本查重方法、装置、设备、存储介质及计算机程序产品


技术介绍

1、目前,在基于自然语言处理的传统文本查重方法中,主要通过判断文本字符是否相同来识别重复内容。然而,由于语言本身的复杂性,同一文本字符可能存在多种含义,相同的字符可能传递不同的语义,不同的字符也可能存在相同的语义,例如同义词、近义词等,若仅根据文本字符是否相同来进行查重,可能导致具有相同语义但字符不同的文本被遗漏,也可能导致字符相同但是语义不同的文本被误判为重复,使得文本查重的结果准确性受到影响。

2、上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。


技术实现思路

1、本申请的主要目的在于提供一种文本查重方法、装置、设备、存储介质及计算机程序产品,旨在解决文本查重的结果准确度低的技术问题。

2、为实现上述目的,本申请提出一种文本查重方法,所述的方法包括:

3、获取待查重文本,并构建所述待查重文本对应的待查重文本矩阵;

4、将所述待查重文本矩阵输入预本文档来自技高网...

【技术保护点】

1.一种文本查重方法,其特征在于,所述的方法包括:

2.如权利要求1所述的方法,其特征在于,所述方法还包括:

3.如权利要求2所述的方法,其特征在于,所述通过各个所述第二稀疏矩阵对所述目标稀疏矩阵进行重构,得到所述目标稀疏矩阵对应的特征稀疏矩阵的步骤,包括:

4.如权利要求3所述的方法,其特征在于,所述确定所述目标稀疏矩阵和各个所述第二稀疏矩阵之间的矩阵相似度的步骤,包括:

5.如权利要求4所述的方法,其特征在于,所述确定所述第二稀疏矩阵对应的第二字典矩阵与所述目标稀疏矩阵对应的第一字典矩阵之间的矩阵距离的步骤,包括:</p>

6.如权...

【技术特征摘要】

1.一种文本查重方法,其特征在于,所述的方法包括:

2.如权利要求1所述的方法,其特征在于,所述方法还包括:

3.如权利要求2所述的方法,其特征在于,所述通过各个所述第二稀疏矩阵对所述目标稀疏矩阵进行重构,得到所述目标稀疏矩阵对应的特征稀疏矩阵的步骤,包括:

4.如权利要求3所述的方法,其特征在于,所述确定所述目标稀疏矩阵和各个所述第二稀疏矩阵之间的矩阵相似度的步骤,包括:

5.如权利要求4所述的方法,其特征在于,所述确定所述第二稀疏矩阵对应的第二字典矩阵与所述目标稀疏矩阵对应的第一字典矩阵之间的矩阵距离的步骤,包括:

6.如权利要求1至5中任一项所述的方法,其特征在于,所述构建所述待查重文本对...

【专利技术属性】
技术研发人员:陈国张春宋小璇夏倩倩
申请(专利权)人:中移动信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1