一种数据处理方法及装置制造方法及图纸

技术编号:22330064 阅读:21 留言:0更新日期:2019-10-19 12:16
本申请实施例提供了一种数据处理方法及装置,在获取到对待存储数据的数据存储请求后,可以对待存储数据进行分词,得到第一分词结果,根据第一分词结果判断目标数据库中是否存在与待存储设备匹配的目标数据,目标数据具有第二分词结果,第二分词结果与第一分词结果的匹配值大于或等于第一预设值,若是,说明待存储数据是目标数据的重复数据,则可以拒绝响应数据存储请求,由于重复数据是根据分词结果的匹配值确定的,具有一定的准确性,从而有效防止目标数据库中重复数据的增加,提高数据库的利用率。

A data processing method and device

【技术实现步骤摘要】
一种数据处理方法及装置
本专利技术涉及计算机领域,特别是涉及一种数据处理方法及装置。
技术介绍
随着信息化时代的到来,人们面临越来越多的数据,通过数据库可以对数据进行存储和管理,用户可以向数据库中存储数据,也可以通过检索词查询与检索词相关的数据,例如可以查找包括检索词的数据作为查找结果。目前,在用户向数据库中存储数据时,可以通过数据库对数据的唯一性限制,防止完全匹配的数据的增加,例如待存储数据的名称与已有数据的名称一致,则可以不进行该数据的存储。然而,这种方式并不能有效防止重复数据的增加,容易导致数据库中存在冗余数据。
技术实现思路
为解决上述技术问题,本申请实施例提供一种数据处理方法及装置,降低数据库中的重复数据,提高数据库的利用率。本申请实施例提供了一种数据处理方法,包括:获取对待存储数据的数据存储请求,所述数据存储请求指示将所述待存储数据存储至目标数据库;对所述待存储数据进行分词,得到第一分词结果;根据所述第一分词结果,判断所述目标数据库中是否存在与所述待存储数据匹配的目标数据,所述目标数据具有第二分词结果,所述第二分词结果与所述第一分词结果的匹配值大于或等于第一预设值;若是,则拒绝响应所述数据存储请求。可选的,所述第一分词结果是对所述待存储数据的数据名称进行分词得到的,所述第二分词结果是对所述目标数据的数据名称进行分词得到的;或,所述第一分词结果是对所述待存储数据的数据名称和数据内容进行分词得到的,所述第二分词结果是对所述目标数据的数据名称和数据内容进行分词得到的。可选的,所述第一分词结果包括多个第一词,所述第二分词结果包括多个第二词;则,所述第一分词结果和所述第二分词结果的匹配值根据与所述第二词匹配的第一词的数量确定;或,各个所述第一词具有权重,所述第一分词结果和所述第二分词结果的匹配值根据与所述第二词匹配的第一词的数量和权重确定。可选的,所述方法还包括:若否,则向所述目标数据库存储所述待存储数据。可选的,所述拒绝响应所述数据存储请求,包括:显示所述目标数据;根据用户触发的对所述待存储数据的取消存储请求,拒绝响应所述数据存储请求。可选的,所述显示所述目标数据,包括:确定所述目标数据库中的匹配数据,所述匹配数据具有第四分词结果,所述第四分词结果与所述第一分词结果的匹配值大于或等于第二预设值,所述第二预设值小于或等于所述第一预设值;按照所述第四分词结果与所述第一分词结果的匹配值从高到低,显示所述匹配数据。本申请实施例提供了一种数据处理装置,所述装置包括:请求获取单元,用于获取对待存储数据的数据存储请求,所述数据存储请求指示将所述待存储数据存储至目标数据库;分词单元,用于对所述待存储数据进行分词,得到第一分词结果;判断单元,用于根据所述第一分词结果,判断所述目标数据库中是否存在与所述待存储数据匹配的目标数据,所述目标数据具有第二分词结果,所述第二分词结果与所述第一分词结果的匹配值大于或等于第一预设值;若判断结果为是,则激活拒绝单元;所述拒绝单元,用于拒绝响应所述数据存储请求。可选的,所述第一分词结果是对所述待存储数据的数据名称进行分词得到的,所述第二分词结果是对所述目标数据的数据名称进行分词得到的;或,所述第一分词结果是对所述待存储数据的数据名称和数据内容进行分词得到的,所述第二分词结果是对所述目标数据的数据名称和数据内容进行分词得到的。可选的,所述第一分词结果包括多个第一词,所述第二分词结果包括多个第二词,则,所述第一分词结果和所述第二分词结果的匹配值根据与所述第二词匹配的第一词的数量确定;或,各个所述第一词具有权重,所述第一分词结果和所述第二分词结果的匹配值根据与所述第二词匹配的第一词的数量和权重确定。可选的,所述装置还包括:存储单元,用于向所述目标数据库存储所述待存储数据;所述判断单元还用于,若判断结果为否,则激活所述存储单元。可选的,所述拒绝单元,包括:显示单元,用于显示所述目标数据;拒绝子单元,用于根据用户触发的对所述待存储数据的取消存储请求,拒绝响应所述数据存储请求。可选的,所述显示单元,包括:数据确定单元,用于确定所述目标数据库中的匹配数据,所述匹配数据具有第四分词结果,所述第四分词结果与所述第一分词结果的匹配值大于或等于第二预设值,所述第二预设值小于或等于所述第一预设值;显示子单元,用于按照所述第四分词结果与所述第一分词结果的匹配值从高到低,显示所述匹配数据。本申请实施例提供了一种数据处理方法及装置,在获取到对待存储数据的数据存储请求后,可以对待存储数据进行分词,得到第一分词结果,根据第一分词结果判断目标数据库中是否存在与待存储设备匹配的目标数据,目标数据具有第二分词结果,第二分词结果与第一分词结果的匹配值大于或等于第一预设值,若是,说明待存储数据是目标数据的重复数据,则可以拒绝响应数据存储请求,由于重复数据是根据分词结果的匹配值确定的,具有一定的准确性,从而有效防止目标数据库中重复数据的增加,提高数据库的利用率。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种数据处理方法的流程图;图2为本申请实施例提供的一种数据处理装置的结构框图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。目前,在用户向数据库中存储数据时,可以通过数据库对数据的唯一性限制,防止完全匹配的数据的增加,例如待存储数据的名称与已有数据的名称一致,此时,可认为待存储数据与已有数据是重复数据,则可以不进行该数据的存储。然而,这种方式仅能阻止完全一致的数据的增加,若两个数据之间的文字表述不完全一致,但含义一致,则不能识别这两个数据为重复数据,例如,“山西省地税局”和“山西地税”表示同一家公司,是重复数据,但是通过数据库对数据的唯一性限制,不能识别出该重复数据,因此这种方式并不能有效防止重复数据的增加,容易导致数据库中存在冗余数据。为了解决上述技术问题,本申请实施例提供了一种数据处理方法及装置,在获取到对待存储数据的数据存储请求后,可以对待存储数据进行分词,得到第一分词结果,根据第一分词结果判断目标数据库中是否存在与待存储设备匹配的目标数据,目标数据具有第二分词结果,第二分词结果与第一分词结果的匹配值大于或等于第一预设值,若是,说明待存储数据是目标数据的重复数据,则可以拒绝响应数据存储请求,由于重复数据是根据分词结果的匹配值确定的,具有一定的准确性,从而有效防止目标数据库中重复数据的增加,提高数据库的利用率。下面结合附图,通过实施例来详细说明本申请实施例提供的一种数据处理方法及装置的具体实现方式。参考图1所示,为本申请实施例提供的一种数据处理方法的流程图,可以包括以下步骤:S101,获取对待存储数据的数据存储请求。在本申请实施例中,用户可以向数据库中存储数本文档来自技高网
...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:获取对待存储数据的数据存储请求,所述数据存储请求指示将所述待存储数据存储至目标数据库;对所述待存储数据进行分词,得到第一分词结果;根据所述第一分词结果,判断所述目标数据库中是否存在与所述待存储数据匹配的目标数据,所述目标数据具有第二分词结果,所述第二分词结果与所述第一分词结果的匹配值大于或等于第一预设值;若是,则拒绝响应所述数据存储请求。

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取对待存储数据的数据存储请求,所述数据存储请求指示将所述待存储数据存储至目标数据库;对所述待存储数据进行分词,得到第一分词结果;根据所述第一分词结果,判断所述目标数据库中是否存在与所述待存储数据匹配的目标数据,所述目标数据具有第二分词结果,所述第二分词结果与所述第一分词结果的匹配值大于或等于第一预设值;若是,则拒绝响应所述数据存储请求。2.根据权利要求1所述的方法,其特征在于,所述第一分词结果是对所述待存储数据的数据名称进行分词得到的,所述第二分词结果是对所述目标数据的数据名称进行分词得到的;或,所述第一分词结果是对所述待存储数据的数据名称和数据内容进行分词得到的,所述第二分词结果是对所述目标数据的数据名称和数据内容进行分词得到的。3.根据权利要求1所述的方法,其特征在于,所述第一分词结果包括多个第一词,所述第二分词结果包括多个第二词;则,所述第一分词结果和所述第二分词结果的匹配值根据与所述第二词匹配的第一词的数量确定;或,各个所述第一词具有权重,所述第一分词结果和所述第二分词结果的匹配值根据与所述第二词匹配的第一词的数量和权重确定。4.根据权利要求1-3任意一项所述的方法,其特征在于,所述方法还包括:若否,则向所述目标数据库存储所述待存储数据。5.根据权利要求1-3任意一项所述的方法,其特征在于,所述拒绝响应所述数据存储请求,包括:显示所述目标数据;根据用户触发的对所述待存储数据的取消存储请求,拒绝响应所述数据存储请求。6.根据权利要求5所述的方法,其特征在于,所述显示所述目标数据,包括:确定所述目标数据库中的匹配数据,所述匹配数据具有第四分词结果,所述第四分词结果与所述第一分词结果的匹配值大于或等于第二预设值,所述第二预设值小于或等于所述第一预设值;按照所述第四分词结果与所述第一分词结果的匹配值从高到低,显示所述匹配数据。7.一种数据处理装置,其特征在于,所述装置包括:请求获取单元,用于获取对待存储数据的数据存储请求,...

【专利技术属性】
技术研发人员:孟宾
申请(专利权)人:浙江齐治科技股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1