一种医疗数据处理方法及装置制造方法及图纸

技术编号:18258032 阅读:37 留言:0更新日期:2018-06-20 09:18
本发明专利技术提供了一种医疗数据处理方法及装置,该方法包括:针对每一类医疗数据均执行:利用当前医疗数据的数据类型所对应的预设数据采集方式,将当前医疗数据采集到该数据类型对应的关系型数据库;将各关系型数据库中的医疗数据导入到一分布式数据库时,根据预设数据清洗规则对采集到的医疗数据进行清洗处理;根据预设数据处理规则,对清洗后的医疗数据进行汇总处理。基于大数据技术以自动处理海量医疗数据,故本方案能够解决现有医疗数据处理费时费力的问题。

A medical data processing method and device

The present invention provides a medical data processing method and device. The method includes: executing the medical data for each class: using the presupposition data collection method corresponding to the data types of the current medical data, collecting the current medical data to the relational database corresponding to the data type, and in the relational databases. When the medical data is introduced into a distributed database, the medical data collected are cleaned and processed according to the presupposed data cleaning rules, and the medical data after cleaning are collected and processed according to the rules of presupposition data processing. Based on big data technology to automatically process massive medical data, this scheme can solve the problem of time-consuming and laborious medical data processing.

【技术实现步骤摘要】
一种医疗数据处理方法及装置
本专利技术涉及计算机
,特别涉及一种医疗数据处理方法及装置。
技术介绍
在现今社会,医疗和健康数据呈几何级增长趋势急剧扩容,使得医疗数据数量庞大。目前,工作人员可以按需查询分析部分特定医疗数据,以从中获得有用信息。但是,当医疗数据数量庞大时,现有实现方式费时费力。
技术实现思路
本专利技术提供了一种医疗数据处理方法及装置,能够解决现有医疗数据处理费时费力的问题。为了达到上述目的,本专利技术是通过如下技术方案实现的:一方面,本专利技术提供了一种医疗数据处理方法,包括:针对至少一类医疗数据中的每一类医疗数据均执行:根据当前医疗数据的数据类型,利用所述数据类型对应的预设数据采集方式,将所述当前医疗数据采集到所述数据类型对应的关系型数据库;将每一个所述关系型数据库中的医疗数据导入到一分布式数据库时,根据预设数据清洗规则,对采集到的所述医疗数据进行清洗处理;根据预设数据处理规则,对清洗后的所述医疗数据进行汇总处理。进一步地,所述数据类型为结构化数据时,所述预设数据采集方式包括:利用kettle中的输入组件以进行医疗数据的输入,并采用正则表达式对输入的医疗数据进行匹配;其中,所述输入组件包括Access输入、CSV(Comma-SeparatedValues,逗号分隔值)文件输入、数据库表输入、OLAP(OnlineAnalyticalProcessing,联机分析处理)输入、RSS(ReallySimpleSyndication,简易信息聚合)输入、Cube输入中的任意一种;所述数据类型为半结构化数据,且所述医疗数据来源于网页时,所述预设数据采集方式包括:采用机器学习技术、交互式元数据知识模型建模、引导学习方法对xml(ExtensibleMarkupLanguage,可扩展标记语言)文件中的医疗数据进行抽取;所述数据类型为非结构化数据时,所述预设数据采集方式包括:使用3种线型模型来表示表格,并采用模糊匹配方法识别表格中直线行上的字段;针对手写汉字文件中的医疗数据,使用引力搜索算法识别并抽取表格中的汉字。进一步地,所述预设数据清洗规则包括:通过维护源数据文件相关的元数据,利用信息复写方法进行数据映射转换,以将医疗数据复写为具有预设数据格式的医疗数据;利用kettle中的转换组件,对源数据库中不存在的医疗数据,进行拆分字段、字段选择、剪切字符串中的任一处理操作;利用所述转换组件,基于NGrams距离法、快速过滤法、基本近邻排序方法、多趟排序近邻方法和优先队列策略中的任一方法,检测待清洗医疗数据中的重复数据,并对检测出的重复数据进行去重处理;利用kettle执行多进程、多线程、流水、多处理器中的任一技术,以进行医疗数据的并行增量处理;其中,所述转换组件包括排序记录、去除重复记录、哈希值计算中的任意一种。进一步地,所述预设数据处理规则包括:基于物理数据模型定义的表结构,将医疗数据装入预设数据库内部数据表中,其中,所述预设数据库与所述分布式数据库处于同一系统中时,使用kettle中的输出组件执行医疗数据装入,其中,所述输出组件包括SQL(StructuredQueryLanguage,结构化查询语言)文件输出、数据库表输出、Access输出、删除、RSS输出中的任意一种;所述预设数据库与所述分布式数据库不处于同一系统中时,通过元数据定义的数据规则和格式检查,更新对应数据库内的医疗数据,以及保存原有的医疗数据。进一步地,所述至少一类医疗数据包括:医疗影像数据、病历数据、检验检查结果、诊疗费用数据中的任意一类或多类。另一方面,本专利技术提供了一种医疗数据处理装置,包括:数据采集单元,用于针对至少一类医疗数据中的每一类医疗数据均执行:根据当前医疗数据的数据类型,利用所述数据类型对应的预设数据采集方式,将所述当前医疗数据采集到所述数据类型对应的关系型数据库;数据清洗单元,用于将每一个所述关系型数据库中的医疗数据导入到一分布式数据库时,根据预设数据清洗规则,对采集到的所述医疗数据进行清洗处理;数据处理单元,用于根据预设数据处理规则,对清洗后的所述医疗数据进行汇总处理。进一步地,所述数据类型为结构化数据时,所述预设数据采集方式包括:利用kettle中的输入组件以进行医疗数据的输入,并采用正则表达式对输入的医疗数据进行匹配;其中,所述输入组件包括Access输入、CSV文件输入、数据库表输入、OLAP输入、RSS输入、Cube输入中的任意一种;所述数据类型为半结构化数据,且所述医疗数据来源于网页时,所述预设数据采集方式包括:采用机器学习技术、交互式元数据知识模型建模、引导学习方法对xml文件中的医疗数据进行抽取;所述数据类型为非结构化数据时,所述预设数据采集方式包括:使用3种线型模型来表示表格,并采用模糊匹配方法识别表格中直线行上的字段;针对手写汉字文件中的医疗数据,使用引力搜索算法识别并抽取表格中的汉字。进一步地,所述预设数据清洗规则包括:通过维护源数据文件相关的元数据,利用信息复写方法进行数据映射转换,以将医疗数据复写为具有预设数据格式的医疗数据;利用kettle中的转换组件,对源数据库中不存在的医疗数据,进行拆分字段、字段选择、剪切字符串中的任一处理操作;利用所述转换组件,基于NGrams距离法、快速过滤法、基本近邻排序方法、多趟排序近邻方法和优先队列策略中的任一方法,检测待清洗医疗数据中的重复数据,并对检测出的重复数据进行去重处理;利用kettle执行多进程、多线程、流水、多处理器中的任一技术,以进行医疗数据的并行增量处理;其中,所述转换组件包括排序记录、去除重复记录、哈希值计算中的任意一种。进一步地,所述预设数据处理规则包括:基于物理数据模型定义的表结构,将医疗数据装入预设数据库内部数据表中,其中,所述预设数据库与所述分布式数据库处于同一系统中时,使用kettle中的输出组件执行医疗数据装入,其中,所述输出组件包括SQL文件输出、数据库表输出、Access输出、删除、RSS输出中的任意一种;所述预设数据库与所述分布式数据库不处于同一系统中时,通过元数据定义的数据规则和格式检查,更新对应数据库内的医疗数据,以及保存原有的医疗数据。进一步地,所述至少一类医疗数据包括:医疗影像数据、病历数据、检验检查结果、诊疗费用数据中的任意一类或多类。本专利技术提供了一种医疗数据处理方法及装置,该方法包括:针对每一类医疗数据均执行:利用当前医疗数据的数据类型所对应的预设数据采集方式,将当前医疗数据采集到该数据类型对应的关系型数据库;将各关系型数据库中的医疗数据导入到一分布式数据库时,根据预设数据清洗规则对采集到的医疗数据进行清洗处理;根据预设数据处理规则,对清洗后的医疗数据进行汇总处理。基于大数据技术以自动处理海量医疗数据,故本专利技术能够解决现有医疗数据处理费时费力的问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例提供的一种医疗数据处理方法的流程图;图2是本专利技术一实施例提供的一种医疗数据处理本文档来自技高网...
一种医疗数据处理方法及装置

【技术保护点】
1.一种医疗数据处理方法,其特征在于,包括:针对至少一类医疗数据中的每一类医疗数据均执行:根据当前医疗数据的数据类型,利用所述数据类型对应的预设数据采集方式,将所述当前医疗数据采集到所述数据类型对应的关系型数据库;将每一个所述关系型数据库中的医疗数据导入到一分布式数据库时,根据预设数据清洗规则,对采集到的所述医疗数据进行清洗处理;根据预设数据处理规则,对清洗后的所述医疗数据进行汇总处理。

【技术特征摘要】
1.一种医疗数据处理方法,其特征在于,包括:针对至少一类医疗数据中的每一类医疗数据均执行:根据当前医疗数据的数据类型,利用所述数据类型对应的预设数据采集方式,将所述当前医疗数据采集到所述数据类型对应的关系型数据库;将每一个所述关系型数据库中的医疗数据导入到一分布式数据库时,根据预设数据清洗规则,对采集到的所述医疗数据进行清洗处理;根据预设数据处理规则,对清洗后的所述医疗数据进行汇总处理。2.根据权利要求1所述的方法,其特征在于,所述数据类型为结构化数据时,所述预设数据采集方式包括:利用kettle中的输入组件以进行医疗数据的输入,并采用正则表达式对输入的医疗数据进行匹配;其中,所述输入组件包括Access输入、逗号分隔值CSV文件输入、数据库表输入、联机分析处理OLAP输入、简易信息聚合RSS输入、Cube输入中的任意一种;所述数据类型为半结构化数据,且所述医疗数据来源于网页时,所述预设数据采集方式包括:采用机器学习技术、交互式元数据知识模型建模、引导学习方法对可扩展标记语言xml文件中的医疗数据进行抽取;所述数据类型为非结构化数据时,所述预设数据采集方式包括:使用3种线型模型来表示表格,并采用模糊匹配方法识别表格中直线行上的字段;针对手写汉字文件中的医疗数据,使用引力搜索算法识别并抽取表格中的汉字。3.根据权利要求1所述的方法,其特征在于,所述预设数据清洗规则包括:通过维护源数据文件相关的元数据,利用信息复写方法进行数据映射转换,以将医疗数据复写为具有预设数据格式的医疗数据;利用kettle中的转换组件,对源数据库中不存在的医疗数据,进行拆分字段、字段选择、剪切字符串中的任一处理操作;利用所述转换组件,基于NGrams距离法、快速过滤法、基本近邻排序方法、多趟排序近邻方法和优先队列策略中的任一方法,检测待清洗医疗数据中的重复数据,并对检测出的重复数据进行去重处理;利用kettle执行多进程、多线程、流水、多处理器中的任一技术,以进行医疗数据的并行增量处理;其中,所述转换组件包括排序记录、去除重复记录、哈希值计算中的任意一种。4.根据权利要求1所述的方法,其特征在于,所述预设数据处理规则包括:基于物理数据模型定义的表结构,将医疗数据装入预设数据库内部数据表中,其中,所述预设数据库与所述分布式数据库处于同一系统中时,使用kettle中的输出组件执行医疗数据装入,其中,所述输出组件包括结构化查询语言SQL文件输出、数据库表输出、Access输出、删除、RSS输出中的任意一种;所述预设数据库与所述分布式数据库不处于同一系统中时,通过元数据定义的数据规则和格式检查,更新对应数据库内的医疗数据,以及保存原有的医疗数据。5.根据权利要求1至4中任一所述的方法,其特征在于,所述至少一类医疗数据包括:医疗影像数据、病历数据、检验检查结果、诊疗费用数据中的任意一类或多类。6.一种医疗数据处理装置,其特征在于,包括:数据采集...

【专利技术属性】
技术研发人员:崔金梦崔乐乐
申请(专利权)人:山东浪潮云服务信息科技有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1