【技术实现步骤摘要】
本申请涉及文本处理,尤其涉及文本查重方法、装置、设备、存储介质及计算机程序产品。
技术介绍
1、目前,在基于自然语言处理的传统文本查重方法中,主要通过判断文本字符是否相同来识别重复内容。然而,由于语言本身的复杂性,同一文本字符可能存在多种含义,相同的字符可能传递不同的语义,不同的字符也可能存在相同的语义,例如同义词、近义词等,若仅根据文本字符是否相同来进行查重,可能导致具有相同语义但字符不同的文本被遗漏,也可能导致字符相同但是语义不同的文本被误判为重复,使得文本查重的结果准确性受到影响。
2、上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
1、本申请的主要目的在于提供一种文本查重方法、装置、设备、存储介质及计算机程序产品,旨在解决文本查重的结果准确度低的技术问题。
2、为实现上述目的,本申请提出一种文本查重方法,所述的方法包括:
3、获取待查重文本,并构建所述待查重文本对应的待查重文本矩阵;
4、将所述
...【技术保护点】
1.一种文本查重方法,其特征在于,所述的方法包括:
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
3.如权利要求2所述的方法,其特征在于,所述通过各个所述第二稀疏矩阵对所述目标稀疏矩阵进行重构,得到所述目标稀疏矩阵对应的特征稀疏矩阵的步骤,包括:
4.如权利要求3所述的方法,其特征在于,所述确定所述目标稀疏矩阵和各个所述第二稀疏矩阵之间的矩阵相似度的步骤,包括:
5.如权利要求4所述的方法,其特征在于,所述确定所述第二稀疏矩阵对应的第二字典矩阵与所述目标稀疏矩阵对应的第一字典矩阵之间的矩阵距离的步骤,包括:<
...【技术特征摘要】
1.一种文本查重方法,其特征在于,所述的方法包括:
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
3.如权利要求2所述的方法,其特征在于,所述通过各个所述第二稀疏矩阵对所述目标稀疏矩阵进行重构,得到所述目标稀疏矩阵对应的特征稀疏矩阵的步骤,包括:
4.如权利要求3所述的方法,其特征在于,所述确定所述目标稀疏矩阵和各个所述第二稀疏矩阵之间的矩阵相似度的步骤,包括:
5.如权利要求4所述的方法,其特征在于,所述确定所述第二稀疏矩阵对应的第二字典矩阵与所述目标稀疏矩阵对应的第一字典矩阵之间的矩阵距离的步骤,包括:
6.如权利要求1至5中任一项所述的方法,其特征在于,所述构建所述待查重文本对...
【专利技术属性】
技术研发人员:陈国,张春,宋小璇,夏倩倩,
申请(专利权)人:中移动信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。