一种通过捕捉比对关键元素实现多系统信息关联的方法技术方案

技术编号:6839286 阅读:271 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种通过捕捉比对关键元素实现多系统信息关联的方法,其特征在于:所述方法的步骤为I、获取记录A和记录B中的关键元素;II、对记录A和记录B中的关键元素进行比对,只提取共有的关键元素;III、对所提取的关键元素的合理性进行分值评估;V、权重分值判定;采用X-MPI技术将大大减少对源系统数据手工校验的工作量,同时提高各系统间数据关联的命中率,最大程度减少原有系统的改造量,本系统所实现的方法相比现有技术而言具有突出的实质性特点和显著进步。

【技术实现步骤摘要】

本专利技术涉及计算机信息管理的
,具体的说是,特别涉及其终端连接结构和居民主索引方式。
技术介绍
目前各个行业都采用大型数据库存储业务数据。根据行业自身特点,开发不同的行业系统。虽然这些系统满足各行业本身业务要求,但将这些信息关联起来却成了一个非常大的难题。没有统一的技术标准、不精确的业务用词、存在偏差的数据等都会对信息关联产生影响。比如一位叫“张三”的居民,在系统A中登记为“张三”,而在系统B中由于某些原因被登记为“张叁”,当这2个系统需要做信息关联时,会被认为2个不同的居民。除了对人的信息关联外,其他需要关联的信息也存在这一问题,比如企事业单位、商品信息等。目前解决这一问题的主要方法是制定标准的技术接口,并对现有系统进行改造, 同时采用人工或半人工的方式核对数据正确性。这种解决方案的缺点显而易见,当相关联的系统数量越多,需要制定的标准技术接口就越复杂,需要改造的系统数量就越多,需要核对的数据量也越多,实施成本成指数级增长。
技术实现思路
本专利技术的目的在于提供,从根本上解决多系统间的数据交互问题,将各系统的关键元素设置到 X-MPI (Cross-Platform Master Personal hdex,跨平台信息主索引,简称X-MPI)系统中, 通过对各个系统中关键元素的采样分析,通过各种权重配比,完成数据关联,准克服了现有技术中存在的缺点和不足。为了实现上述目的,本专利技术的技术方案是一种通过捕捉比对关键元素实现多系统信息关联的,其特征在于所述方法的步骤为I、获取记录A和记录B中的关键元素,关键元素的内容可由系统自动生成,也可由用户自定义生成;II、对记录A和记录B中的关键元素进行比对,只提取共有的关键元素;III、对所提取的关键元素的合理性进行分值评估;i、对其中任意一个关键元素进行合理性评估,若判定为“合理”则继续下个关键元素的合理性评估;ii、对其中任意一个关键元素进行合理性评估,若判定为“不合理”,则降低合理性分值,再继续下个关键元素的合理性评估;IV、对所提取的关键元素的相似度进行分值评估;i、对其中任意一个关键元素进行相似度评估,若判定为“相似”则继续下个关键元素的相似度评估;ii、对其中任意一个关键元素进行相似度评估,若判定为“相似”,则降低相似度分3值,再继续下个关键元素的相似度评估;V、权重分值判定;i、权重分值=合理性分值X相似度分值;ii、权重分值与预设分值进行判定;iii、权重分值达到预设分值,则判定记录A和记录B为同一件事物;iv、若权重分值没有达到预设分值,则对比一般元素及参考元素,再累加权重分值,如果总分值达到预设分值,则则判定记录A和记录B为同一件事物,若总分值没有达到预设分值,则结束程序。本专利技术公开了,采用 X-MPI技术将大大减少对源系统数据手工校验的工作量,同时提高各系统间数据关联的命中率,最大程度减少原有系统的改造量,本系统所实现的方法相比现有技术而言具有突出的实质性特点和显著进步。附图说明图1为本专利技术流程框图; 具体实施例方式下面参照附图,对本专利技术进一步进行描述本专利技术为,其区别于现有技术在于所述方法的步骤为I、获取记录A和记录B中的关键元素;II、对记录A和记录B中的关键元素进行比对,只提取共有的关键元素;III、对所提取的关键元素的合理性进行分值评估;i、对其中任意一个关键元素进行合理性评估,若判定为“合理”则继续下个关键元素的合理性评估;ii、对其中任意一个关键元素进行合理性评估,若判定为“不合理”,则降低合理性分值,再继续下个关键元素的合理性评估;IV、对所提取的关键元素的相似度进行分值评估;i、对其中任意一个关键元素进行相似度评估,若判定为“相似”则继续下个关键元素的相似度评估;ii、对其中任意一个关键元素进行相似度评估,若判定为“相似”,则降低相似度分值,再继续下个关键元素的相似度评估;V、权重分值判定;i、权重分值=合理性分值X相似度分值;ii、权重分值与预设分值进行判定;iii、权重分值达到预设分值,则判定记录A和记录B为同一件事物;iv、若权重分值没有达到预设分值,则对比一般元素及参考元素,再累加权重分值,如果总分值达到预设分值,则判定记录A和记录B为同一件事物,若总分值没有达到预设分值,则结束程序。所述记录A和记录B中一项关键元素内的信息内容包含有其它项关键元素的内容,相互之间可实现交叉验证。X-MPI技术是通过对多系统中关键元素的特征值采样分析来关联数据的。这里以多个系统中的居民信息关联为例实施例假定以姓名、性别、出生年月和身份证号作为首要关键元素,系统首先会对其进行有效性判定,比如性别、出生年月和身份证号的相互校验(将出生年月与身份证的7到14位做正确性校验,判断日期是否一致;将性别与身份证的17位做校验,奇数为男偶数为女);15位18位身份证号的转换(系统会将15位的老身份证转换为18位新身份证);18位身份证有效性校验(将身份证前17位进行一个固定的运算,获得0、或者X的校验位,判断计算获得的校验位与身份证第18位是否一致);姓名合理性判定(系统首先会对姓名字符串做前后去空格操作,然后识别字符串中的每个字符,当同时存在中文、英文字母、数字、符号中的2个及以上时,会降低该姓名的关键程度,系统会认为该姓名“不可信”) 等。对于不合理或错误的元素降低其关键程度。再将需要关联两个或多个系统中居民的信息进行比对,对每个元素进行权重打分。根据分值判断是否为同一居民。对于分值不足的, 采用其他关键元素采样分析。举例说明关键元素设置姓名、性别、出生年月、身份证,性别和出生年月对身份证有依赖关系(身份证可以替换性别和出生年月,当身份证不存在时,出生年月和性别的有效性都会降低一个等级),每个元素权重分25分。合理性设置满分5分,部分有效3分,空值0分;相似度设置满分5分,相邻3分,相隔2分,单个包含1分,不同0分,允许信息分段比较;权重分设置满分100,60分及以上认为可以执行关联;权重公式有效性X相似度。记录A 姓名(张三),性别(男),出生年月(1982-6-26),身份证 (310103820726403)记录B 姓名(张三a),性别(男),出生年月(820726),身份证 (310103198207264032)1.判定各元素有效性a)姓名由于记录B中姓名同时存在中英文,不符合使用习惯,降低有效度(3 分);b)身份证长度合理,15位验证年月日通过,18位验证年月日及性别通过,18位验证校验位通过,有效性5分;c)出生年月记录A中出生年月与身份证的年月日不一致,但相似程度超过60%, 认为部分有效,有效性3分;d)性别通过与身份证的比对,有效性5分。2.判断相似度a)姓名记录A包含记录B中,且为相邻位置完全包含,相似性3分;b)性别完全相同,相似性5分;c)出生年月当前年份最近的82年为1982年,因此年份相同,07月等同于7月,与6月份不相同,日期都为沈日,日期相同。由于年份占据出生日期中较高的重要性,我们将日期分成年、月、日3段,分别划分为40<%、30%、30%,3段日期中月份不同,我们认为有 70%的相似性,因此得3. 5分;d)身份证将15位身份证转换为18为,两者相同,相似性5分;3.权重打分(3 X 3) +本文档来自技高网...

【技术保护点】
1.一种通过捕捉比对关键元素实现多系统信息关联的方法,其特征在于:所述方法的步骤为I、获取记录A和记录B中的关键元素;II、对记录A和记录B中的关键元素进行比对,只提取共有的关键元素;III、对所提取的关键元素的合理性进行分值评估;i、对其中任意一个关键元素进行合理性评估,若判定为“合理”则继续下个关键元素的合理性评估;ii、对其中任意一个关键元素进行合理性评估,若判定为“不合理”,则降低合理性分值,再继续下个关键元素的合理性评估;IV、对所提取的关键元素的相似度进行分值评估;i、对其中任意一个关键元素进行相似度评估,若判定为“相似”则继续下个关键元素的相似度评估;ii、对其中任意一个关键元素进行相似度评估,若判定为“相似”,则降低相似度分值,再继续下个关键元素的相似度评估;V、权重分值判定;i、权重分值=合理性分值×相似度分值;ii、权重分值与预设分值进行判定;iii、权重分值达到预设分值,则判定记录A和记录B为同一件事物;iv、若权重分值没有达到预设分值,则对比一般元素及参考元素,再累加权重分值,如果总分值达到预设分值,则判定记录A和记录B为同一件事物,若总分值没有达到预设分值,则结束程序。...

【技术特征摘要】

【专利技术属性】
技术研发人员:董鸣雁
申请(专利权)人:上海百果信息科技有限公司董鸣雁
类型:发明
国别省市:31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1