信息处理装置及方法制造方法及图纸

技术编号:14776101 阅读:36 留言:0更新日期:2017-03-09 12:58
本发明专利技术提供了一种信息处理装置及方法。信息处理装置包括:确定单元,确定来自数据源的数据中的异常数据元;以及异常处理单元,异常处理单元包括:获取模块,用于获取与异常数据元相关的多个候选数据项;以及第一排序模块,用于根据与异常数据元相关联的主数据区域的数据元和多个候选数据项共同出现的概率对多个候选数据项进行排序,以便基于排序结果减少异常数据元,其中主数据区域是在该主数据区域中每个数据元的内容互不相同的数据区域。根据本发明专利技术信息处理装置及方法,通过计算用于修正异常数据元的多个候选数据项与相关联的主数据区域的数据元的共现概率,来对这些候选数据项排序,可以更加有效地处理各种异常信息。

【技术实现步骤摘要】

本专利技术涉及一种信息处理装置及方法,更具体地,涉及一种处理信息整合过程中的异常信息的装置及方法。
技术介绍
随着信息技术的发展,必定会产生很多与特定的对象,例如企业相关的数据信息,但这些信息都是分散在各数据源中的,例如,包含在多个数据表中。每个独立的数据源都只展示了对象的一部分信息。想要更好的了解数据的全貌,最好能提供一个整合的对象信息的视图,信息整合技术刚好满足了这种需求。但在整合过程中,对于同一对象来说,在各数据源中存储的信息可能会存在一些异常信息,比如数据冲突、数据失配或数据缺失。为了解决这些异常信息,一种已有的方法是引入本体的理论,将所有独立的数据源都映射到一个统一的本体上。本体的理论在解决语义及语法的不一致时非常有效,但无法解决数据基本的冲突。此外,几乎没有涉及到数据失配及数据缺失的有效解决的现有技术。
技术实现思路
鉴于现有技术的上述状况,本专利技术的目的之一在于提供一种信息处理装置。根据本专利技术的一个方面,提供了一种信息处理装置,包括:确定单元,确定来自数据源的数据中的异常数据元;以及异常处理单元,异常处理单元包括:获取模块,用于获取与异常数据元相关的多个候选数据项;以及第一排序模块,用于根据与异常数据元相关联的主数据区域的数据元和多个候选数据项共同出现的概率对多个候选数据项进行排序,以便基于排序结果减少异常数据元,其中主数据区域是在该主数据区域中每个数据元的内容互不相同的数据区域。根据本专利技术的另一个方面,提供了一种信息处理方法,包括:确定来自数据源的数据中的异常数据元;获取与异常数据元相关的多个候选数据项;根据与异常数据元相关联的主数据区域的数据元和多个候选数据项共同出现的概率对多个候选数据项进行排序,以便基于排序结果减少异常数据元,其中主数据区域是在该主数据区域中每个数据元的内容互不相同的数据区域。依据本专利技术的其它方面,本专利技术的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。根据本专利技术实施例的方法和装置,通过计算用于修正异常数据元的多个候选数据项与相关联的主数据区域的数据元的共现概率,来对这些候选数据项排序,可以更加有效地处理各种异常信息。通过以下结合附图对本专利技术的最佳实施例的详细说明,本专利技术的这些以及其它优点将更加明显。附图说明本专利技术可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件,其中图1示意性地示出了信息整合过程中出现的异常信息;图2是根据本专利技术一个实施例的信息处理装置的示意图;图3是根据本专利技术另一个实施例的信息处理装置的示意图;图4是根据本专利技术又一实施例的信息处理装置的示意图;图5示意性地示出了信息整合时基于异常数据元所属的数据区域的类型获取的各异常数据元的候选数据项的列表;图6是根据本专利技术再一个实施例的信息处理装置的示意图;图7示意性地示出了根据本专利技术的一个实施例的信息处理方法的流程图;以及图8是其中可以实现根据本专利技术的实施例的方法和/或装置的通用个人计算机的示例性结构的框图。具体实施例下面参照附图来说明本专利技术的实施例。在本专利技术的一个附图或一种实施例中描述的元素和特征可以与一个或更多个其它附图或实施例中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本专利技术无关的、本领域普通技术人员已知的部件和处理的表示和描述。本领域技术人员可以理解,本专利技术中的“第一”、“第二”等术语仅用于区别不同单元、模块或步骤等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序和重要性程度。图1示意性地示出了信息整合过程中出现的异常信息,以下首先结合图1介绍信息处理中异常信息的概念及分类。通常,原始的数据是分散于不同的数据源的数据,例如,不同的数据库、Excel表格、CSV纯文本数据等。在数据源中包括多项数据,每一项数据在下文中被称为数据元。具有相同类型和/或类似信息的多项数据元组成的数据元组在本文中被称为数据区域。此外,待整合信息也可以是来自同一数据源的、具有不同内容和/或形式的信息。例如,来自同一Excel文件的不同工作表。例如,在图1中,以企业信息为例,表a、b、c分别表示从多个数据源获取的待整合信息的片段,分别表示企业信息的不同方面。应理解,在本实施例中仅示例性的示出了从三个不同的数据源获取的待整合信息,而在实际中,可以从更多个数据源获取待整合信息。表中的每一列,诸如企业名称、组织机构代码等,即为数据区域,表示企业信息的一个属性。在表a中包括“企业名称”、“组织机构代码”和“所在区域”三个数据区域,在表b中包括“人才姓名”、“毕业院校”和“创办企业”三个数据区域,在表c中包括“企业名称”、“组织结构代码”、“自主知识产权数”三个数据区域。表a中的“企业名称”这一数据区域包括多个企业名称的数据,例如“天平科技”,每一个企业名称对应一个数据元。而记录在表(从数据源获取)中的每一条信息通常由相关联的不同数据区域的数据元构成,例如,在表a中,企业名称“天平科技”、组织机构代码“751421981”以及所在地区“高新区”这三个相关联的数据元构成一条企业信息。在信息整合过程中,由于记录错误或人为变更等因素,记载在各个分散的数据源中的数据必定会存在一些异常信息。在对待整合信息进行了预处理后,异常信息通常分为三类:数据缺失、数据冲突和数据失配。异常信息在本专利技术中的有些地方也称为异常数据元。数据缺失是指某一数据元中并不存在相应的数据,如图1中表c所示,在与“天平科技”有关的信息中,属于数据区域“自主知识产权数”的数据元并不存在相应的数据,因此该数据元存在数据缺失。数据冲突是指在一个或更多个待整合信息中描述同一对象的数据元的信息不一致。如图1中表a和表c所示,在表a中,与组织机构代码“552530122”对应的企业名称为“华微电子”,而在表c中,与同一组织机构代码“552530122”对应的企业名称则为“华微科技”。也就是说,在表a中“华微电子”对应的数据元与表c中“华微科技”对应的数据元存在数据冲突。数据失配则是指数据元的数据与所属数据区域的其它数据元的数据的不匹配。这种不匹配既可以是类型上的,也可以是形式或内容上的。如图1所示,在表a中,数据区域“所在地区”中的各个数据元均应为地区名称,而数据元“创业中心”则不属于地区名称,即数据元“创业中心”与该数据区域的其它数据元在内容上不匹配。因此,数据元“创业中心”属于数据失配。在表b中,数据区域“毕业院校”中的数据元均应为大学名称,而数据元“北大”不是完整的大学名称,其只是“北京大学”的缩写,即数据元“北大”与该数据区域的其它数据元在形式上不匹配。因此,数据元“北大”属于数据失配。在表c中,数据区域“自主知识产权数”中的数据元均应是数值型数据,而数据元“销售管理系统”则不是数值型数据,即数据元“销售管理系统”与该数据区域的其它数据元在类型上不匹配。因此,数据元“销售管理系统”属于数据失配。应理解,数据失配的形式并不局限于以上描述的情形。图2是根据本专利技术一个实施例的信息处理装置1000的示意图。信息处理装置1000包括:确定单元1100,用于确定来自数据源的数据中的异常数据元;以及异常处理单元本文档来自技高网...
信息处理装置及方法

【技术保护点】
一种信息处理装置,包括:确定单元,用于确定来自数据源的数据中的异常数据元;以及异常处理单元,所述异常处理单元包括:获取模块,用于获取与所述异常数据元相关的多个候选数据项;以及第一排序模块,用于根据与所述异常数据元相关联的主数据区域的数据元和所述多个候选数据项共同出现的概率对所述多个候选数据项进行排序,以便基于排序结果减少异常数据元,其中所述主数据区域是在该主数据区域中每个数据元的内容互不相同的数据区域。

【技术特征摘要】
1.一种信息处理装置,包括:确定单元,用于确定来自数据源的数据中的异常数据元;以及异常处理单元,所述异常处理单元包括:获取模块,用于获取与所述异常数据元相关的多个候选数据项;以及第一排序模块,用于根据与所述异常数据元相关联的主数据区域的数据元和所述多个候选数据项共同出现的概率对所述多个候选数据项进行排序,以便基于排序结果减少异常数据元,其中所述主数据区域是在该主数据区域中每个数据元的内容互不相同的数据区域。2.根据权利要求1所述的信息处理装置,其中,所述异常处理单元还包括:第二排序模块,用于根据所述多个候选数据项中的每一个在所述数据源中的出现次数对所述多个候选数据项进行排序。3.根据权利要求1或2所述的信息处理装置,其中,所述异常处理单元还包括:第三排序模块,用于根据所述异常数据元的更新时间对所述多个候选数据项进行排序。4.根据权利要求1-3其中之一所述的信息处理装置,其中,所述确定单元还被配置成确定所述异常数据元的异常类型。5.根据权利要求4所述的信息处理装置,其中,所述获取模块还被配置成至少根据所述异常数据元的异常类型来获取与所述异常数据元相关的所述多个候选数据项。6.根据权利要求5所述的信息处理装置,其中,所述获取模块被配置成根据所述异常数据元的异常类型以及所述异常数据元所属的数据区
\t域的类型来获取与所述异常数据元相关的所述多个候选数据项。7.根据权利要求6所述的信息处理装置,其中,针对所述异常类型为数据失配的所述异常数据元,所述获取模块被配置成根据下述方式至少之一来获取与所...

【专利技术属性】
技术研发人员:皮冰锋钟朝亮孙俊
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1