数据去重的方法、装置、计算机设备制造方法及图纸

技术编号:37121428 阅读:16 留言:0更新日期:2023-04-01 05:16
本申请涉及一种数据去重的方法。所述方法包括:获取资源数据,所述资源数据包括标题、正文;将所述标题输入搜索器,得到多个文本数据,所述搜索器用于获取与资源数据匹配的文本数据;获取所述资源数据与所述文本数据中的关键词,若所述关键词相匹配,根据所述标题生成正则表达式,若所述文本数据标题与所述正则表达式匹配,比较所述资源数据与所述文本数据之间的时间跨度是否大于第一阈值;若所述时间跨度大于所述第一阈值,根据自然语言处理工具对所述正文与所述文本数据进行分词处理,若分词数据的相似度大于第二阈值,根据优先级排序得到去重后的数据。采用本方法能够通过多维度的分析,将去重的错误率与丢失率降低。将去重的错误率与丢失率降低。将去重的错误率与丢失率降低。

【技术实现步骤摘要】
数据去重的方法、装置、计算机设备


[0001]本申请涉及数据处理分析
,特别是涉及一种数据去重的方法、装5置、计算机设备。

技术介绍

[0002]随着招投标数量的增加,在进行搜索时可能会存在许多重复的招投标数据,重复的招投标数据降低了工作人员的处理效率。
[0003]0相关技术中,通过训练人工智能模型,标注招投标数据的招标标题、招标
[0004]内容、招标编号、招标单位名称和招标阶段等关键字段,对关键字段标注,进行招投标数据的去重。

技术实现思路

[0005]5基于此,有必要针对上述技术问题,提供了一种数据去重的方法,可以通过搜索器获取多个与资源数据匹配的文本数据,比较资源数据与文本数据中的关键词,再分别对标题、正文进行分词处理,可以根据优先级排序得到去重后的数据。
[0006]第一方面,本申请提供了一种数据去重的方法。所述方法包括:0获取资源数据,所述资源数据包括标题、正文;
[0007]将所述标题输入搜索器,得到多个文本数据,所述搜索器用于获取与资源数据匹配的文本数据;
[0008]获取所述资源数据与所述文本数据中的关键词,若所述关键词相匹配,根据所述标题生成正则表达式,若所述文本数据标题与所述正则表达式匹配,比5较所述资源数据与所述文本数据之间的时间跨度是否大于第一阈值;
[0009]若所述时间跨度大于所述第一阈值,根据自然语言处理工具对所述正文与所述文本数据进行分词处理,若分词数据的相似度大于第二阈值,根据优先级排序得到去重后的数据。/>[0010]在其中一个实施例中,所述根据自然语言处理工具对所述正文与所述文本数据进行分词处理之后,还包括:
[0011]对所述分词数据进行噪点去除,计算处理后的分词数据的相似度,所述相似度表示为式中,x表示为分词数据出现的次数,表示为分词数据出现次数的二次幂,表示为预设词库中数据出现次数的二次幂。
[0012]在其中一个实施例中,所述根据优先级排序得到去重后的数据包括:
[0013]获取所述分词数据与所述文本数据,根据所述分词数据与所述文本数据生成第一数据表;
[0014]基于优先级规则确定所述第一数据表的优先级顺序,根据所述优先级顺序中优先级最高的数据对所述第一数据表进行合并去重,得到去重后的数据。
[0015]在其中一个实施例中,所述方法还包括:
[0016]获取所述标题,所述标题包括中文字符部分、字母部分、符号、数字部分,将所述中文字符部分作为第一去重对象,若所述标题与所述文本数据的第一去重对象匹配,将所述数字部分、字母部分作为第二去重对象。
[0017]在其中一个实施例中,所述将所述标题输入搜索器之后,还包括:
[0018]对所述搜索器输出的文本数据进行预处理,对处理后的文本数据进行分词,得到多个分词集合;
[0019]对所述分词集合进行评分,过滤评分为负数的分词集合,根据分词集合的分数对所述分词集合排序。
[0020]第二方面,本申请还提供了一种数据去重的装置,所述装置包括:
[0021]数据获取模块,用于获取资源数据,所述资源数据包括标题、正文;
[0022]匹配模块,用于将所述标题输入搜索器,得到多个文本数据,所述搜索器用于获取与资源数据匹配的文本数据;
[0023]标题比较模块,用于获取所述资源数据与所述文本数据中的关键词,若所述关键词相匹配,根据所述标题生成正则表达式,若所述文本数据标题与所述正则表达式匹配,比较所述资源数据与所述文本数据之间的时间跨度是否大于第一阈值;
[0024]正文比较模块,用于若所述时间跨度大于所述第一阈值,根据自然语言处理工具对所述正文与所述文本数据进行分词处理,若分词数据的相似度大于第二阈值,根据优先级排序得到去重后的数据。
[0025]在其中一个实施例中,所述根据自然语言处理工具对所述正文与所述文本数据进行分词处理之后,还包括:
[0026]对所述分词数据进行噪点去除,计算处理后的分词数据的相似度,所述相似度表示为式中,x表示为分词数据出现的次数,表示为分词数据出现次数的二次幂,表示为预设词库中数据出现次数的二次幂。
[0027]在其中一个实施例中,所述根据优先级排序得到去重后的数据包括:
[0028]获取所述分词数据与所述文本数据,根据所述分词数据与所述文本数据生成第一数据表;
[0029]基于优先级规则确定所述第一数据表的优先级顺序,根据所述优先级顺序中优先级最高的数据对所述第一数据表进行合并去重,得到去重后的数据。
[0030]在其中一个实施例中,所述装置还包括:
[0031]获取所述标题,所述标题包括中文字符部分、字母部分、符号、数字部分,将所述中文字符部分作为第一去重对象,若所述标题与所述文本数据的第一去重对象匹配,将所述数字部分、字母部分作为第二去重对象。
[0032]在其中一个实施例中,所述将所述标题输入搜索器之后,还包括:
[0033]对所述搜索器输出的文本数据进行预处理,对处理后的文本数据进行分词,得到多个分词集合;
[0034]对所述分词集合进行评分,过滤评分为负数的分词集合,根据分词集合的分数对所述分词集合排序。
[0035]第三方面,本公开还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现数据去重的方法的步骤。
[0036]第四方面,本公开还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现数据去重的方法的步骤。
[0037]第五方面,本公开还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现数据去重的方法的步骤。
[0038]上述数据去重的方法,至少包括以下有益效果:
[0039]本公开提供的实施例方案,可以通过搜索器获取与资源数据匹配的文本数据,比较资源数据与文本数据中的关键词的匹配程度,再对标题生成正则表达式,与文本数据对标题相匹配,如果资源数据与文本数据之间的时间跨度大于第一阈值,可以对正文与文本数据进行分词处理,可以根据优先级排序得到去重后的数据。
[0040]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0041]为了更清楚地说明本公开实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0042]图1为一个实施例中数据去重的方法的应用环境图;
[0043]图2为一个实施例中数据去重的方法的流程示意图;
[0044]图3为一个实施例中数据去重的方法的流程示意图;
[00本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据去重的方法,其特征在于,所述方法包括:获取资源数据,所述资源数据包括标题、正文;将所述标题输入搜索器,得到多个文本数据,所述搜索器用于获取与资源数据匹配的文本数据;获取所述资源数据与所述文本数据中的关键词,若所述关键词相匹配,根据所述标题生成正则表达式,若所述文本数据标题与所述正则表达式匹配,比较所述资源数据与所述文本数据之间的时间跨度是否大于第一阈值;若所述时间跨度大于所述第一阈值,根据自然语言处理工具对所述正文与所述文本数据进行分词处理,若分词数据的相似度大于第二阈值,根据优先级排序得到去重后的数据。2.根据权利要求1所述的方法,其特征在于,所述根据自然语言处理工具对所述正文与所述文本数据进行分词处理之后,还包括:对所述分词数据进行噪点去除,计算处理后的分词数据的相似度,所述相似度表示为式中,x表示为分词数据出现的次数,表示为分词数据出现次数的二次幂,表示为预设词库中数据出现次数的二次幂。3.根据权利要求1所述的方法,其特征在于,所述根据优先级排序得到去重后的数据包括:获取所述分词数据与所述文本数据,根据所述分词数据与所述文本数据生成第一数据表;基于优先级规则确定所述第一数据表的优先级顺序,根据所述优先级顺序中优先级最高的数据对所述第一数据表进行合并去重,得到去重后的数据。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述标题,所述标题包括中文字符部分、字母部分、符号、数字部分,将所述中文字符部分作为第一去重对象,若所述标题与所述文本数据的第一去重对象匹配,将所述数字部分、字母部分作为第二去重对象。5.根据权利要求1所述的方法,其特征在于,所述将所述标题输入搜索器之后,还包括:对所述搜索器输出的文本数据进行预处理,对处理后的文本数据进行分词,得到多个分词集合;对所述分词集合进行评分,过滤评分为负数的分词集合,根据分词集合的分数对所述分词集合排序。6.一种数据去重的装置,其特征在于,所述装置包括:数据获取模块,用于获取资源数据,所述资源数据包括标题、正文;匹配模块,用于将所述标题输入搜索器,得到多个文本数据,所述搜索器用于获取与资源数据匹配的文本数据;标题比较模块,用于获取所述资源数据与所述文本数据...

【专利技术属性】
技术研发人员:胡高翔王帅邵倩倩郭胜男
申请(专利权)人:企查查科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1