基于元数据的数据抽取方法技术

技术编号:10243573 阅读:104 留言:0更新日期:2014-07-23 17:12
本发明专利技术公开了一种基于元数据的数据抽取方法,属于数据抽取领域。该方法在业务模型公用元数据模型的基础上建立数据抽取模型,从业务模型中抽取制定业务数据。与现有技术相比,本发明专利技术的基于元数据的数据抽取方法基于行业标准规范数据元,通过对业务模型的提炼梳理,整理出元数据模型,并将业务数据与元数据对应。针对这些元数据进行业务归类,并映射到已建立的数据抽取模型,从而形成基于元数据的数据抽取模型,达到灵活的业务数据抽取目标,具有良好地推广应用价值。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种,属于数据抽取领域。该方法在业务模型公用元数据模型的基础上建立数据抽取模型,从业务模型中抽取制定业务数据。与现有技术相比,本专利技术的基于行业标准规范数据元,通过对业务模型的提炼梳理,整理出元数据模型,并将业务数据与元数据对应。针对这些元数据进行业务归类,并映射到已建立的数据抽取模型,从而形成基于元数据的数据抽取模型,达到灵活的业务数据抽取目标,具有良好地推广应用价值。【专利说明】
本专利技术涉及数据抽取领域,具体地说是一种。
技术介绍
在卫生行业的各个业务条线,都有诸多量大且复杂的业务模型,对应的数据模型具有表结构复杂、字段繁多等业务特点。在现有的数据抽取模型中,大多数是针对各条线业务模型或某个独立的业务模型进行有针对性的数据抽取模型设计。这种设计不仅设计复杂,且应变能力差。当因行业标准规范发生变化或在不同区域而出现区域化形态时,就会产生繁琐而复杂的变更,带来巨大的维护工作量,且不易扩展。
技术实现思路
本专利技术的技术任务是针对上述现有技术的不足,提供一种。本专利技术的技术任务是按以下方式实现的:,其特点是在业务模型公用元数据模型的基础上建立数据抽取模型,从业务模型中抽取制定业务数据。所述元数据模型由业务模型中提炼出,建立业务模型与元数据模型的关联关系。所述数据抽取模型包含模型定义、数据抽取项定义、每一项数据的更新来源定义,以及数据抽取分类逻辑处理,通过数据抽取项与元数据的关联和元数据与业务数据的关联建立三者的关系,达到通过元数据的数据抽取模型抽取业务数据的目标。上述方法的实现包括数据抽取模型定义、数据抽取项定义、数据更新来源定义及数据抽取分类逻辑处理: 所述数据抽取模型定义指定义数据抽取模型的框架,从不同的切面、不同的维度、不同的点对要抽取的数据归类汇总,每个模型定义包括:模型内码、名称、描述基本属性,以及模型的处理方式、是否需要跳转标识、存储详细信息的表名定义; 所述数据抽取项定义包括数据抽取项对应字段值的处理方式、数据类型、长度、精度、处理类型的抽取属性定义; 所述数据更新来源定义是针对数据抽取项的数据来源进行定义,用于确定每一个数据抽取项的数据在什么情况下,从哪些元数据中进行更新,包括来源算法定义、元数据标识、以及计算的数据集定义; 所述数据抽取分类逻辑处理包括累计类数据抽取处理、基本信息类数据抽取处理及更新汇总类数据抽取处理。与现有技术相比,本专利技术的方法基于行业标准规范数据元,通过对业务模型的提炼梳理,整理出元数据模型,并将业务数据与元数据对应。针对这些元数据进行业务归类,并映射到已建立的数据抽取模型,从而形成基于元数据的数据抽取模型,达到灵活的业务数据抽取目标,具有以下突出地有益效果: (I)抽取模型建立在底层元数据模型上,不会因业务模型的变化而进行大量的模型变动和维护。(2)数据抽取模型对应元数据,可按照元数据的版本,建立数据抽取的版本管理,有益于管理抽取模型的版本。(3)通过数据更新来源定义,有效的处理已抽取数据的更新机制。(4)通过不同类型的处理逻辑,有针对性的处理不同抽取模型在业务数据发生变化时而做的操作,且模型统一,便于管理和扩展。【专利附图】【附图说明】附图1是本专利技术方法中数据抽取模型图; 附图2是实施例中数据抽取模型的样例; 附图3是实施例中数据抽取项定义的样例; 附图4是实施例中数据更新来源定义的样例; 附图5是实施例中数据抽取模型的简要类图。【具体实施方式】参照说明书附图以具体实施例对本专利技术的作以下详细地说明。实施例: 本专利技术包括数据抽取模型定义、数据抽取项定义、数据更新来源定义、数据抽取分类逻辑处理。以下进一步说明: (一)、数据抽取模型定义 根据业务需求,定义数据抽取模型的框架,从不同的切面、不同的维度、不同的点对要抽取的数据归类汇总。每个模型定义包括:模型内码、名称、描述基本属性,以及模型的处理方式、是否需要跳转标识、存储详细信息的表名定义。通过这些方面的定义,能够确定一种数据抽取模型的抽取过程及方式。【权利要求】1.,其特征在于:在业务模型公用元数据模型的基础上建立数据抽取模型,从业务模型中抽取制定业务数据。2.根据权利要求1所述的,其特征在于:所述元数据模型由业务模型中提炼出。3.根据权利要求2所述的,其特征在于:所述数据抽取模型包含模型定义、数据抽取项定义、每一项数据的更新来源定义,以及数据抽取分类逻辑处理,通过数据抽取项与元数据的关联和元数据与业务数据的关联建立三者的关系,达到通过元数据的数据抽取模型抽取业务数据的目标。4.根据权利要求3所述的,其特征在于包括数据抽取模型定义、数据抽取项定义、数据更新来源定义及数据抽取分类逻辑处理: 所述数据抽取模型定义指定义数据抽取模型的框架,从不同的切面、不同的维度、不同的点对要抽取的数据归类汇总,每个模型定义包括:模型内码、名称、描述基本属性,以及模型的处理方式、是否需要跳转标识、存储详细信息的表名定义; 所述数据抽取项定义包括数据抽取项对应字段值的处理方式、数据类型、长度、精度、处理类型的抽取属性定义; 所述数据更新来源定义是针对数据抽取项的数据来源进行定义,用于确定每一个数据抽取项的数据在什么情况下,从哪些元数据中进行更新,包括来源算法定义、元数据标识、以及计算的数据集定义; 所述数据抽取分类逻辑处理包括累计类数据抽取处理、基本信息类数据抽取处理及更新汇总类数据抽取处理。【文档编号】G06F17/30GK103942245SQ201410055786【公开日】2014年7月23日 申请日期:2014年2月19日 优先权日:2014年2月19日 【专利技术者】胡顺杰, 王刚, 张立勇 申请人:浪潮软件股份有限公司本文档来自技高网...

【技术保护点】
基于元数据的数据抽取方法,其特征在于:在业务模型公用元数据模型的基础上建立数据抽取模型,从业务模型中抽取制定业务数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:胡顺杰王刚张立勇
申请(专利权)人:浪潮软件股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1