用于对数据库中的信息进行修正及补充的方法及系统技术方案

技术编号:11607840 阅读:65 留言:0更新日期:2015-06-17 06:36
本发明专利技术提供了一种用于对数据库中的信息进行修正及补充的方法,每个数据库信息条目与一个对象相关,所述方法包括:从预先选定的目标网站将与所述数据库中的信息相关的网页页面爬取到本地;从所述网页页面中提取与所述对象相关的互联网信息;将所述数据库中的信息与所述互联网信息进行匹配;以及根据所述匹配的结果对所述数据库中的信息进行修正及补充。另一方面,本发明专利技术还提供了一种能够执行上述方法的系统。

【技术实现步骤摘要】

本专利技术一般地涉及信息处理
,并且具体地涉及一种用于对数据库中的信 息进行修正及补充的方法及系统。
技术介绍
随着计算机技术的日益普及,各式各样的信息越来越多地以数据库的形式被电子 化地进行存储或归档。对于一些数据库而言,其信息通常唯一地来源于与信息关联的主体 对象,例如由主体对象向系统输入信息,或者由第三方向系统输入采集自主体对象的信息。 在这种情况下,往往会存在各种缺陷,例如信息不完整或不准确,最终导致当数据库信息被 使用时产生错误或无法得到所希望的结果。 在银行系统中,交易收单结构一般地可以通过银行卡联合组织的商户管理系统进 行商户信息注册。因为在注册过程中的疏忽或信息过期等原因,该管理系统中登记的商户 信息经常会出现缺失和不准确。例如商户固定电话号码或地址缺失,或者由于商户搬迁而 导致原先注册的固定电话或地址信息失效。另一方面,原始提交的商户信息本身也可能是 不准确的,例如地址信息中存在错别字或者固定电话号码格式不对或是无效的号码。另外, 在目前的商户管理系统中登记的都是工商注册名,有时从工商注册名上很难确定商户分 类。对于一些异地收单的商户或临时商户,就更难确定其信息的准确性和有效性。同样地, 对于一些产品管理数据库也存在类似的问题。 传统的信息完善集中在信息校对方法上,通常利用规则对数据库中的数据格式进 行限定。这能在数据格式上保证数据的完整性,但在智能识别数据的准确性等方面无能为 力。例如,对固定电话号码设定规则,必须为7-8位的数字。但是在信息管理系统进行输入 时,随便输入7个9就可以绕过规则。或者在输入的过程中不小心将某一位由3输成了 4, 这都是规则方式无法检测出来的。若需要对数据库中的对象进行类别检查,规则式的方法 可能根据对象名称中是否有特征词来检查。这种方法错误率较高,因为特征词通常是人为 总结出来,容易有遗漏或者导致错误归类。总的来说,现有方法大多局限于被检查的信息本身,无法有效地解决类似商户管 理系统的数据库所面临的问题。
技术实现思路
鉴于上述情况,本专利技术旨在提供有效准确的数据库信息完善方法以及系统。具体地,本专利技术提供了一种用于对数据库中的信息进行修正及补充的方法,在所 述数据库中每个数据库信息条目与一个对象相关,所述方法包括:所述方法包括:从预先 选定的目标网站将与所述数据库中的信息相关的网页页面爬取到本地;从所述网页页面中 提取与所述对象相关的互联网信息;将所述数据库中的信息与所述互联网信息进行匹配; 以及根据所述匹配的结果对所述数据库中的信息进行修正及补充。 根据本专利技术的一些实施例,每个所述数据库信息条目包括至少一个精确标识字段 和至少一个模糊标识字段;并且从网页页面提取互联网信息包括:从所述网页页面提取与 所述对象相关的特征字段并且按对象将所述特征字段存储为互联网信息条目,其中所述特 征字段包括所述至少一个精确标识字段和所述至少一个模糊标识字段。 根据本专利技术的一些实施例,所述匹配包括:将每个数据库信息条目中的所述至少 一个精确标识字段与所有所述互联网信息条目中的所述至少一个精确标识字段进行匹配; 当对于该数据库信息条目存在精确标识字段相同的互联网信息条目时,计算该数据库信息 条目中的所述至少一个模糊标识字段与所有精确标识字段相同的互联网信息条目中的所 述至少一个模糊标识字段的相似度;以及将所述相似度最高并且超过相似度预定阈值的互 联网信息条目确定为与该数据库信息条目匹配的互联网信息条目;并且所述方法还包括根 据该匹配的互联网信息条目对该数据库信息条目进行修正及补充。 根据本专利技术的一些实施例,所述匹配还包括:当对于所述数据库信息条目不存在 精确标识字段相同的互联网信息条目时,将该数据库信息条目中的两个或更多个模糊标识 字段合并为第一匹配字段;计算该第一匹配字段与由每个互联网信息条目中对应的模糊标 识字段同样地构成的第二匹配字段的相似度;以及将相似度最高并且超过相似度预定阈值 的互联网信息条目确定为与所述数据库信息条目匹配的互联网信息条目;并且所述方法还 包括根据该匹配的互联网信息条目对所述对象的数据库信息条目进行修正及补充。 根据本专利技术的一些实施例,对所述数据库中的信息进行修正及补充包括在数据库 信息条目中的所述至少一个精确标识字段为空时将所述与其匹配的互联网信息条目中的 所述至少一个精确标识字段信息填入该数据库信息条目中。 根据本专利技术的一些实施例,对所述数据库中的信息进行修正及补充包括从未匹配 的互联网信息条目中选择数据库中尚未包含的对象,并且根据所选定对象的互联网信息条 目为该对象在所述数据库中创建相应的数据库信息条目。 根据本专利技术的一些实施例,所述互联网信息条目还包括数据库信息条目所没有的 其他信息字段,并且对所述数据库中的信息进行修改及补充包括将与数据库信息条目匹配 的互联网信息条目中的所述其他信息字段添加到该数据库信息条目中。 根据本专利技术的一些实施例,每个对象在数据库中被标识为一种数据库类别,所述 方法还包括:在匹配完成之后,确定每种数据库类别的对象在匹配的互联网信息中被标识 的互联网类别;计算该数据库类别的对象被标识为每种互联网类别的概率;以及对于所述 概率小于预定阈值的、数据库类别与互联网类别的匹配,将相应的数据库信息条目判断为 分类错误。 根据本专利技术的一些实施例,所述对象为商户,并且所述至少一个精确标识字段包 括商户的通信号码,而所述至少一个模糊标识字段包括商户名称以及商户地址。 根据本专利技术的一些实施例,所述对象为产品,并且所述至少一个精确标识字段包 括产品的型号,而所述至少一个模糊标识字段包括产品名称以及产品描述。 根据本专利技术的一些实施例,从预先选定的目标网站爬取网页页面包括使用针对不 同的目标网站定制的网页爬取器。 另一方面,本专利技术还提供了一种用于对数据库中的信息进行修正及补充的系统, 在所述数据库中每个数据库信息条目与一个主体对象相关联,所述系统包括:页面爬取模 块,其被配置用于从预先选定的目标网站将与所述数据库中的信息相关的网页页面爬取到 本地;信息提取模块,其被配置用于从所述网页页面中提取与所述对象相关的互联网信息; 信息匹配模块,其被配置用于将所述数据库中的信息与所述互联网信息进行匹配;以及修 正补充模块,其被配置用于根据所述匹配的结果对所述数据库中的信息进行修正及补充。 根据本专利技术的一些实施例,所述页面爬取模块包括针对不同的目标网站定制的网 页爬取器。 本专利技术给出了一种利用互联网对数据库中的信息进行完善的方法,既能够发现已 有信息的错误也可以利用外部数据来进行修复和补充。借助于来自互联网的信息,可以更 为准确且及时地对本地维护的相对封闭的数据库进行更新。本专利技术所提供的方法及系统具 有显著降低人力成本、易于实现以及准确高效的特点。【附图说明】 本专利技术的前述和其他目标、特征和优点根据下面对本专利技术的实施例的更具体的说 明将是显而易见的,这些实施例在附图中被示意。 图1示意性地示出了根据本专利技术的第一实施例的方法的流程图。 图2示意性地示出了根据本专利技术的第二实施例的方法的流程图。 图3示意性地示出了根据本专利技术的一个实施例的系统的框图。【具体实施方式】 以下结合附图和【具体实施方式】进一步详细说明本专利技术。需要说明的本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/CN104714950.html" title="用于对数据库中的信息进行修正及补充的方法及系统原文来自X技术">用于对数据库中的信息进行修正及补充的方法及系统</a>

【技术保护点】
一种用于对数据库中的信息进行修正及补充的方法,每个数据库信息条目与一个对象相关,其特征在于,所述方法包括:从预先选定的目标网站将与所述数据库中的信息相关的网页页面爬取到本地;从所述网页页面中提取与所述对象相关的互联网信息;将所述数据库中的信息与所述互联网信息进行匹配;以及根据所述匹配的结果对所述数据库中的信息进行修正及补充。

【技术特征摘要】

【专利技术属性】
技术研发人员:冯兴周继恩刘军
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1