一种相似文本聚合方法技术

技术编号:39512513 阅读:12 留言:0更新日期:2023-11-25 18:48
本申请实施例属于数据处理技术领域,应用于多源数据文本的去重聚合场景中,涉及一种相似文本聚合方法

【技术实现步骤摘要】
一种相似文本聚合方法、装置、设备及其存储介质


[0001]本申请涉及数据处理
,应用于多源数据文本的去重聚合场景中,尤其涉及一种相似文本聚合方法

装置

设备及其存储介质


技术介绍

[0002]互联网文本去重技术的方法和步骤有很多种,核心的方法是利用基于相似度的文本去重方法

这种方法可以抽象为文本与文本的相似度匹配问题,主要解决词汇层面的匹配问题,或者说词汇层面的相似度问题

例如,有
K

Shingle
算法

[0003]但是,
K

Shingle
算法需要生成一个庞大的
Shingle
词组库,当文本数量和文本长度很大时,计算这个词组库需要耗费巨大的时间和空间资源,且各文档的特征向量计算都依赖这个共同的词组库,因此计算特征向量的过程很难完全地并行化,造成计算速度较慢

因此,现有技术在对相似文本进行聚合上还存在耗费巨大的计算资源,且计算速度较慢的问题


技术实现思路

[0004]本申请实施例的目的在于提出一种相似文本聚合方法

装置

设备及其存储介质,以解决现有技术在对相似文本进行聚合上还存在耗费巨大的计算资源,且计算速度较慢的问题

[0005]为了解决上述技术问题,本申请实施例提供相似文本聚合方法,采用了如下所述的技术方案:一种相似文本聚合方法,包括下述步骤:获取多源数据端中待聚合文本以及所有待聚合文本的区别标识信息,其中,所述待聚合文本中包括文本标题和文本正文,所述区别标识信息由来源标识和文本标识拼接构成;根据所述区别标识信息和预设的第一筛选策略对所述待聚合文本进行初步去重处理,获得初步去重完成后的待聚合文本,其中,所述第一筛选策略具体为:根据所述区别标识信息识别从同一数据端获取的待聚合文本是否存在区别标识信息相同情况,若从同一数据端获取的待聚合文本存在区别标识信息相同情况,则进行初步去重处理;分别提取所有初步去重完成后的待聚合文本中的文本标题和文本正文;对所述初步去重完成后的待聚合文本进行文本正文预处理,获得文本正文预处理完成后的待聚合文本,其中,所述进行文本正文预处理的方式,具体包括对文本正文中的标点

空白

中英文

简繁体进行清洗和整理;根据预设的
Hash
编码算法对所有文本正文预处理完成后的待聚合文本逐一进行
hash
编码值计算,获得所述待聚合文本所对应的
hash
编码值;通过所述
hash
编码值

所述区别标识信息

所述文本标题

所述文本正文和预设的第二筛选策略对所述待聚合文本进行聚合处理,获得文本聚合结果,完成对相似文本的筛
选聚合,其中,所述第二筛选策略具体为:按照预设的分段参数对目标
hash
编码值进行分段处理,获得目标
hash
编码值分别对应的编码分段以及编码分段区别标识;根据所述编码分段区别标识和预设的距离算法计算待对比
hash
编码值间的编码距离,获得编码距离计算结果;根据预设的编码距离阈值和所述编码距离计算结果,筛选出符合预设第一要求的待聚合文本,构建文本对比组,所述预设第一要求具体为待对比
hash
编码值间的编码距离满足所述预设的编码距离阈值;将所述文本对比组中满足预设第二要求的待聚合文本作为相似文本进行聚合处理,所述预设第二要求具体为待聚合文本的文本标题相同,或者,待聚合文本的文本正文中前
N
个文字字符相同,
N
为大于1的正整数

[0006]进一步的,所述根据所述区别标识信息和预设的第一筛选策略对所述待聚合文本进行初步去重处理,获得初步去重完成后的待聚合文本的步骤,具体包括:根据预设的拆分组件对所述区别标识信息进行拆分处理,获得所有待聚合文本分别对应的来源标识和文本标识;基于所述来源标识,获得相同来源标识所对应的所有待聚合文本,生成相同来源文本集;根据所述文本标识,识别相同来源文本集中是否存在文本标识相同的文本;若相同来源文本集中存在文本标识相同的文本,则从所述相同来源文本集中获取文本标识相同的文本,构建待初步去重文本集;从所述待初步去重文本集中任选一个文本作为目标文本,删除其他文本,完成初步去重处理

[0007]进一步的,所述预设的
Hash
编码算法包括
simHash
编码算法,所述根据预设的
Hash
编码算法对所有文本正文预处理完成后的待聚合文本逐一进行
hash
编码值计算,获得相应的
hash
编码值的步骤,具体包括:逐一将所有文本正文预处理完成后的待聚合文本输入到预设的
Hash
编码算法组件,其中,所述
Hash
编码算法组件中内置了所述
simHash
编码算法;根据所述
Hash
编码算法组件中内置的所述
simHash
编码算法对所述待聚合文本的文本标题和文本正文分别进行
hash
编码值计算,生成文本标题对应的
hash
编码值和文本正文对应的
hash
编码值,其中,所述
hash
编码值由编码字符0和编码字符1共同构成,且所述
hash
编码值的编码字符位数为
64
位;获取所有待聚合文本的文本标题对应的
hash
编码值,构建第一
hash
编码值集,并根据所有待聚合文本的区别标识信息为所述第一
hash
编码值集中元素设置区别标识信息;获取所有待聚合文本的文本正文对应的
hash
编码值,构建第二
hash
编码值集,并根据所有待聚合文本的区别标识信息为所述第二
hash
编码值集中元素设置区别标识信息

[0008]进一步的,所述按照预设的分段参数对目标
hash
编码值进行分段处理,获得目标
hash
编码值分别对应的编码分段以及编码分段区别标识的步骤,具体包括:根据所述分段参数将目标
hash
编码值等分为
M
段编码分段,其中,所述
M
为所述分段参数的参数值,所述
M
为大于1的正整数且能够被所述
hash
编码值的编码字符位数整除;基于所述
M
段编码分段在目标
hash
编码值中位置信息,按照从左至右或者从右至左方式为所述...

【技术保护点】

【技术特征摘要】
1.
一种相似文本聚合方法,其特征在于,包括下述步骤:获取多源数据端中待聚合文本以及所有待聚合文本的区别标识信息,其中,所述待聚合文本中包括文本标题和文本正文,所述区别标识信息由来源标识和文本标识拼接构成;根据所述区别标识信息和预设的第一筛选策略对所述待聚合文本进行初步去重处理,获得初步去重完成后的待聚合文本,其中,所述第一筛选策略具体为:根据所述区别标识信息识别从同一数据端获取的待聚合文本是否存在区别标识信息相同情况,若从同一数据端获取的待聚合文本存在区别标识信息相同情况,则进行初步去重处理;分别提取所有初步去重完成后的待聚合文本中的文本标题和文本正文;对所述初步去重完成后的待聚合文本进行文本正文预处理,获得文本正文预处理完成后的待聚合文本,其中,所述进行文本正文预处理的方式,具体包括对文本正文中的标点

空白

中英文

简繁体进行清洗和整理;根据预设的
Hash
编码算法对所有文本正文预处理完成后的待聚合文本逐一进行
hash
编码值计算,获得所述待聚合文本所对应的
hash
编码值;通过所述
hash
编码值

所述区别标识信息

所述文本标题

所述文本正文和预设的第二筛选策略对所述待聚合文本进行聚合处理,获得文本聚合结果,完成对相似文本的筛选聚合,其中,所述第二筛选策略具体为:按照预设的分段参数对目标
hash
编码值进行分段处理,获得目标
hash
编码值分别对应的编码分段以及编码分段区别标识;根据所述编码分段区别标识和预设的距离算法计算待对比
hash
编码值间的编码距离,获得编码距离计算结果;根据预设的编码距离阈值和所述编码距离计算结果,筛选出符合预设第一要求的待聚合文本,构建文本对比组,所述预设第一要求具体为待对比
hash
编码值间的编码距离满足所述预设的编码距离阈值;将所述文本对比组中满足预设第二要求的待聚合文本作为相似文本进行聚合处理,所述预设第二要求具体为待聚合文本的文本标题相同,或者,待聚合文本的文本正文中前
N
个文字字符相同,
N
为大于1的正整数
。2.
根据权利要求1所述的相似文本聚合方法,其特征在于,所述根据所述区别标识信息和预设的第一筛选策略对所述待聚合文本进行初步去重处理,获得初步去重完成后的待聚合文本的步骤,具体包括:根据预设的拆分组件对所述区别标识信息进行拆分处理,获得所有待聚合文本分别对应的来源标识和文本标识;基于所述来源标识,获得相同来源标识所对应的所有待聚合文本,生成相同来源文本集;根据所述文本标识,识别相同来源文本集中是否存在文本标识相同的文本;若相同来源文本集中存在文本标识相同的文本,则从所述相同来源文本集中获取文本标识相同的文本,构建待初步去重文本集;从所述待初步去重文本集中任选一个文本作为目标文本,删除其他文本,完成初步去重处理
。3.
根据权利要求1所述的相似文本聚合方法,其特征在于,所述预设的
Hash
编码算法包括
simHash
编码算法,所述根据预设的
Hash
编码算法对所有文本正文预处理完成后的待聚合文本逐一进行
hash
编码值计算,获得相应的
hash
编码值的步骤,具体包括:逐一将所有文本正文预处理完成后的待聚合文本输入到预设的
Hash
编码算法组件,其
中,所述
Hash
编码算法组件中内置了所述
simHash
编码算法;根据所述
Hash
编码算法组件中内置的所述
simHash
编码算法对所述待聚合文本的文本标题和文本正文分别进行
hash
编码值计算,生成文本标题对应的
hash
编码值和文本正文对应的
hash
编码值,其中,所述
hash
编码值由编码字符0和编码字符1共同构成,且所述
hash
编码值的编码字符位数为
64
位;获取所有待聚合文本的文本标题对应的
hash
编码值,构建第一
hash
编码值集,并根据所有待聚合文本的区别标识信息为所述第一
hash
编码值集中元素设置区别标识信息;获取所有待聚合文本的文本正文对应的
hash
编码值,构建第二
hash
编码值集,并根据所有待聚合文本的区别标识信息为所述第二
hash
编码值集中元素设置区别标识信息
。4.
根据权利要求3所述的相似文本聚合方法,其特征在于,所述按照预设的分段参数对目标
hash
编码值进行分段处理,获得目标
hash
编码值分别对应的编码分段以及编码分段区别标识的步骤,具体包括:根据所述分段参数将目标
hash
编码值等分为
M
段编码分段,其中,所述
M
为所述分段参数的参数值,所述
M
为大于1的正整数且能够被所述
hash
编码值的编码字符位数整除;基于所述
M
段编码分段在目标
hash
编码值中位置信息,按照从左至右或者从右至左方式为所述
M
段编码分段分别设置编码分段区别标识
。5.
根据权利要求4所述的相似文本聚合方法,其特征在于,所述根据所述编码分段区别标识和预设的距离算法计算待对比
hash
编码值间的编码距离,获得编码距...

【专利技术属性】
技术研发人员:姜桂林贵照众贺泽州聂萼辉
申请(专利权)人:湖南财信数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1