一种标讯内容去重方法、系统、设备及存储介质技术方案

技术编号:35818992 阅读:12 留言:0更新日期:2022-12-03 13:43
本发明专利技术公开了一种标讯内容去重方法、系统、设备及存储介质,方法包括取初始标讯文本集合;对初始标讯文本集合中的每一个标讯文本进行拆分处理,根据拆分单元对每一个标讯文本进行哈希运算,确定哈希编码值;根据哈希编码值对初始标讯文本集合进行对比去重处理,确定第一去重标讯文本集合;根据字段实体提取模型对第一去重标讯文本集合进行字段实体提取处理,确定键值对集合;根据关联规则对键值对集合进行差异计算,确定键值对差异结果;根据键值对差异结果对第一去重标讯文本集合进行对比去重处理,确定目标去重标讯文本集合;本发明专利技术能够对标讯内容进行哈希编码值和字段对比去重,提高了标讯内容去重的准确度,可广泛应用于数据处理技术领域。用于数据处理技术领域。用于数据处理技术领域。

【技术实现步骤摘要】
一种标讯内容去重方法、系统、设备及存储介质


[0001]本专利技术涉及数据处理
,尤其是一种标讯内容去重方法、系统、设备及存储介质。

技术介绍

[0002]不同招标单位的招投标数据往往会被不同的站点作为公开信息进行公开发布,而通过海量的监控并采集标讯内容时通常会遇到重复采集的问题。如何鉴别重复的标讯内容是业界的强烈需求,由于标讯内容在不同的站点进行发布时也会对标讯内容进行处理产生差异,因此在对标讯内容进行对比的过程中,会发现标讯内容之间的差异参差不齐。对于差异较小的不同的标讯内容或相同标讯内容在不同站点呈现较小差异的情况,依靠现有的文本查重方法会存在漏去重或误去重的问题。

技术实现思路

[0003]有鉴于此,本专利技术实施例提供一种精准高效的标讯内容去重方法、系统、设备及存储介质。
[0004]一方面,本专利技术提供了一种标讯内容去重方法,包括:
[0005]获取初始标讯文本集合;
[0006]对所述初始标讯文本集合中的每一个标讯文本进行拆分处理,根据拆分单元对每一个标讯文本进行哈希运算,确定哈希编码值;
[0007]根据所述哈希编码值对所述初始标讯文本集合进行对比去重处理,确定第一去重标讯文本集合;
[0008]根据字段实体提取模型对所述第一去重标讯文本集合进行字段实体提取处理,确定键值对集合;
[0009]根据关联规则对所述键值对集合进行差异计算,确定键值对差异结果;
[0010]根据所述键值对差异结果对所述第一去重标讯文本集合进行对比去重处理,确定目标去重标讯文本集合。
[0011]可选地,在所述获取初始标讯文本集合之前,包括:
[0012]通过数据抓取处理获取来自不同平台的标讯文本;
[0013]对所述标讯文本进行数据清洗处理,确定初始标讯文本集合。
[0014]可选地,所述对所述初始标讯文本集合中的每一个标讯文本进行拆分处理,根据拆分单元对每一个标讯文本进行哈希运算,确定哈希编码值,包括:
[0015]对所述初始标讯文本集合中的每一个标讯文本进行拆分处理,确定拆分单元,所述拆分单元包括句子单元、词语单元和字符单元;
[0016]根据所述句子单元的长度、所述词语单元和所述字符单元的频次计算确定所述拆分单元的权重;
[0017]根据哈希算法对所述拆分单元进行编码处理,并结合所述拆分单元的权重,确定
哈希编码值,所述哈希编码值用于标识所述初始标讯文本集合中的每一个标讯文本。
[0018]可选地,所述根据所述哈希编码值对所述初始标讯文本集合进行对比去重处理,确定第一去重标讯文本集合,包括:
[0019]提取所述初始标讯文本集合中每一个标讯文本的所述哈希编码值,确定哈希编码值表;
[0020]根据所述哈希编码值表对带有相同所述哈希编码值的标讯文本进行去重处理,确定第一去重标讯文本集合。
[0021]可选地,所述根据字段实体提取模型对所述第一去重标讯文本集合进行字段实体提取处理,确定键值对集合,包括:
[0022]对训练标讯文本进行文本标记处理,确定标记字段;
[0023]根据预训练的语言表征模型和条件随机场模型对标记字段进行命名实体识别深度学习,确定字段实体提取模块;
[0024]根据所述字段实体提取模型提取所述第一去重标讯文本集合中每一个标讯文本的字段实体,确定键值对集合,所述键值对集合中的每一个键值对包括字段头和字段实体。
[0025]可选地,所述根据关联规则对所述键值对集合进行差异计算,确定键值对差异结果,包括:
[0026]根据关键规则对所述键值对集合进行匹配处理,确定匹配键值对;
[0027]对所述匹配键值对中的交集长度和并集长度进行差异计算,确定键值对差异结果。
[0028]可选地,所述根据所述键值对差异结果对所述第一去重标讯文本集合进行对比去重处理,确定目标去重标讯文本集合,包括:
[0029]将所述键值对差异结果与预设阈值进行对比处理,当所述差异结果少于预设阈值时,对所述第一去重标讯文本集合进行去重,确定目标去重标讯文本集合。
[0030]另一方面,本专利技术实施例还公开了一种标讯内容去重系统,包括:
[0031]第一模块,用于获取初始标讯文本集合;
[0032]第二模块,用于对所述初始标讯文本集合中的每一个标讯文本进行拆分处理,根据拆分单元对每一个标讯文本进行哈希运算,确定哈希编码值;
[0033]第三模块,用于根据所述哈希编码值对所述初始标讯文本集合进行对比去重处理,确定第一去重标讯文本集合;
[0034]第四模块,用于根据字段实体提取模型对所述第一去重标讯文本集合进行字段实体提取处理,确定键值对集合;
[0035]第五模块,用于根据关联规则对所述键值对集合进行差异计算,确定键值对差异结果;
[0036]第六模块,用于根据所述键值对差异结果对所述第一去重标讯文本集合进行对比去重处理,确定目标去重标讯文本集合。
[0037]另一方面,本专利技术实施例还公开了一种电子设备,包括处理器以及存储器;
[0038]所述存储器用于存储程序;
[0039]所述处理器执行所述程序实现如前面所述的方法。
[0040]另一方面,本专利技术实施例还公开了一种计算机可读存储介质,所述存储介质存储
有程序,所述程序被处理器执行实现如前面所述的方法。
[0041]另一方面,本专利技术实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
[0042]本专利技术采用以上技术方案与现有技术相比,具有以下技术效果:本专利技术实施例通过获取初始标讯文本集合,对初始标讯文本集合中的每一个标讯文本进行拆分处理,根据拆分单元对每一个标讯文本进行哈希运算,得到哈希编码;本专利技术实施例能够通过哈希编码对标讯文本进行标识,根据哈希编码对初始标讯文本集合进行对比去重处理,提高了对标讯文本的识别准确度;另外,本专利技术实施例根据字段实体提取模型对第一去重标讯文本集合进行字段实体提取处理,得到键值对集合;根据关联规则对键值对集合进行差异计算,得到键值对差异结果;根据键值对差异结果对第一去重标讯文本集合进行对比去重处理,得到目标去重标讯文本集合,能够从字段实体级别对标讯文本进行去重检查,提高了内容去重的准确率。
附图说明
[0043]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0044]图1为本专利技术实施例的一种标讯内容去重方法流程图。
具体实施方式
[0045]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标讯内容去重方法,其特征在于,包括:获取初始标讯文本集合;对所述初始标讯文本集合中的每一个标讯文本进行拆分处理,根据拆分单元对每一个标讯文本进行哈希运算,确定哈希编码值;根据所述哈希编码值值对所述初始标讯文本集合进行对比去重处理,确定第一去重标讯文本集合;根据字段实体提取模型对所述第一去重标讯文本集合进行字段实体提取处理,确定键值对集合;根据关联规则对所述键值对集合进行差异计算,确定键值对差异结果;根据所述键值对差异结果对所述第一去重标讯文本集合进行对比去重处理,确定目标去重标讯文本集合。2.根据权利要求1所述的一种标讯内容去重方法,其特征在于,在所述获取初始标讯文本集合之前,包括:通过数据抓取处理获取来自不同平台的标讯文本;对所述标讯文本进行数据清洗处理,确定初始标讯文本集合。3.根据权利要求1所述的一种标讯内容去重方法,其特征在于,所述对所述初始标讯文本集合中的每一个标讯文本进行拆分处理,根据拆分单元对每一个标讯文本进行哈希运算,确定哈希编码值,包括:对所述初始标讯文本集合中的每一个标讯文本进行拆分处理,确定拆分单元,所述拆分单元包括句子单元、词语单元和字符单元;根据所述句子单元的长度、所述词语单元和所述字符单元的频次计算确定所述拆分单元的权重;根据哈希算法对所述拆分单元进行编码处理,并结合所述拆分单元的权重,确定哈希编码值,所述哈希编码值用于标识所述初始标讯文本集合中的每一个标讯文本。4.根据权利要求1所述的一种标讯内容去重方法,其特征在于,所述根据所述哈希编码值对所述初始标讯文本集合进行对比去重处理,确定第一去重标讯文本集合,包括:提取所述初始标讯文本集合中每一个标讯文本的哈希编码值,确定哈希编码值表;根据所述哈希编码值表对带有相同哈希编码值的标讯文本进行去重处理,确定第一去重标讯文本集合。5.根据权利要求1所述的一种标讯内容去重方法,其特征在于,所述根据字段实体提取模型对所述第一去重标讯文本集合进行字段实体提取处理,确定键值对集合,包括:对训练标讯文本进行文本标记处理,确定标记字段;根...

【专利技术属性】
技术研发人员:郑珂余戈磊
申请(专利权)人:广州众成大数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1