当前位置: 首页 > 专利查询>济南大学专利>正文

疾病就诊数据的预处理方法、系统、设备及介质技术方案

技术编号:22566784 阅读:60 留言:0更新日期:2019-11-16 12:46
本公开公开了疾病就诊数据的预处理方法、系统、设备及介质,包括:从医院服务器获取患者就诊记录;对获取的患者就诊记录进行数据清洗;对数据单位不统一的数据,转换到同一个数据单位;将名称不同但是含义相同的数据名称,转换到同一个数据名称;将汉字进行数值化处理;采用最大最小值归一化处理算法,对数据进行归一化处理;对患者就诊记录所对应的医院地理位置进行处理,得到预处理后的疾病就诊数据。计算机处理数据时,对分类型数据不敏感甚至出错,通过科学性的方法把具有多种分类型数据维度的医疗数据转化为机器可处理的数据,对后续数据挖掘出有价值信息具有重要意义。

Preprocessing method, system, equipment and media of disease data

The present disclosure discloses the preprocessing method, system, equipment and medium of the disease treatment data, including: obtaining the patient treatment record from the hospital server; cleaning the acquired patient treatment record; converting the data with different data units to the same data unit; converting the data names with different names but the same meanings to the same data name; and converting the Chinese to the same data name The words are processed numerically; the maximum and minimum normalization algorithm is used to normalize the data; the hospital location corresponding to the patient's visit record is processed to get the disease visit data after preprocessing. When the computer processes the data, it is not sensitive to the classified data or even makes mistakes. It is of great significance for the subsequent data mining to transform the medical data with multiple classified data dimensions into machine processable data through scientific methods.

【技术实现步骤摘要】
疾病就诊数据的预处理方法、系统、设备及介质
本公开涉及疾病就诊数据处理
,特别是涉及疾病就诊数据的预处理方法、系统、设备及介质。
技术介绍
本部分的陈述仅仅是提到了与本公开相关的
技术介绍
,并不必然构成现有技术。对历年患者就诊记录得到的数据进行数据预处理和数据挖掘,可以得出传染病的传染规律和传染走向,对于医疗卫生机构来说可以提早做好准备和预防;对于疾病控制中心来说,也可以做到防患于未然。在实现本公开的过程中,专利技术人发现现有技术中存在以下技术问题:(1)现有的患者就诊记录不规范不完整,因为医生在写诊断记录的过程中有自己的习惯用语和一些缩写词,导致从不同医院不同医师那里采集过来的就诊记录不规范不完整。(2)患者就诊记录存在缺失值和异常值。有一些文字型的记录不能直接进行数值计算。有一些数值型记录因为单位不统一,导致从不同医院采集的数据也是存在差异性。
技术实现思路
为了解决现有技术的不足,本公开提供了疾病就诊数据的预处理方法、系统、设备及介质;解决了从不同医院不同医师那里采集的数据不规范不完整的问题,为后续的数据挖掘工作奠定良好的数据基础。第一方面,本公开提供了疾病就诊数据的预处理方法;疾病就诊数据的预处理方法,包括:从医院服务器获取患者就诊记录;对获取的患者就诊记录进行数据清洗;对数据单位不统一的数据,转换到同一个数据单位;将名称不同但是含义相同的数据名称,转换到同一个数据名称;将汉字进行数值化处理;采用最大最小值归一化处理算法,对数据进行归一化处理;对患者就诊记录所对应的医院地理位置进行处理,得到预处理后的疾病就诊数据。第二方面,本公开还提供了疾病就诊数据的预处理系统;疾病就诊数据的预处理系统,包括:获取模块,其被配置为:从医院服务器获取患者就诊记录;数据清洗模块,其被配置为:对获取的患者就诊记录进行数据清洗;数据统一模块,其被配置为:对数据单位不统一的数据,转换到同一个数据单位;将名称不同但是含义相同的数据名称,转换到同一个数据名称;数值化处理模块,其被配置为:将汉字进行数值化处理;归一化处理模块,其被配置为:采用最大最小值归一化处理算法,对数据进行归一化处理;地理位置处理模块,其被配置为:对患者就诊记录所对应的医院地理位置进行处理,得到预处理后的疾病就诊数据。第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述方法的步骤。第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述方法的步骤。与现有技术相比,本公开的有益效果是:处理后的数据更加规范和完整,对于医生的缩写词会统一转换成疾病诊断标准名称。处理后的数据不存在缺失值和异常值,因为缺失值通过补全的技术手段实现数据补全;异常值通过数据清洗的形式进行数据异常值剔除。为了使地理位置类的分类较多的分类型数据数值化,我们按照行政区域等级设置初始值,是为了在加权计算时有差异性体现,能够根据实际情况进行权值的调整,而非初始值。计算机处理数据时,对分类型数据不敏感甚至出错,通过科学性的方法把具有多种分类型数据维度的医疗数据转化为机器可处理的数据,对后续数据挖掘出有价值信息具有重要意义。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为第一个实施例的方法流程图。具体实施方式应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。实施例一,本实施例提供了疾病就诊数据的预处理方法;如图1所示,疾病就诊数据的预处理方法,包括:S1:从医院服务器获取患者就诊记录;S2:对获取的患者就诊记录进行数据清洗;S3:对数据单位不统一的数据,转换到同一个数据单位;将名称不同但是含义相同的数据名称,转换到同一个数据名称;S4:将汉字进行数值化处理;S5:采用最大最小值归一化处理算法,对数据进行归一化处理;S6:对患者就诊记录所对应的医院地理位置进行处理,得到预处理后的疾病就诊数据。作为一个或多个实施例,所述数据清洗包括:删除重复数据、对缺失数据进行补全和异常值剔除;对缺失数据进行补全,采用拉格朗日插值算法进行插值补全。作为一个或多个实施例,将汉字进行数值化处理,具体步骤包括:对于分类明显的汉字采用0-1独热编码的方式进行数值化处理;分类明显的汉字,例如性别(男、女)、治疗分类(初治、诊治)、诊断结果(阳性、阴性);对于不能使用0-1独热编码方式进行数值化处理的汉字,设定N个离散点,每个离散点表示一个数值。例如:不能使用0-1独热编码方式进行数值化处理的汉字,包括:民族、职业。作为一个或多个实施例,对患者就诊记录所对应的医院地理位置进行处理,包括:S61:根据患者就诊记录所对应的医院地理位置,按照省市区县四个等级进行划分,每个等级均对应初始值r;S62:设置每个医院某个设定时间段内就诊人数为加权因子;S63:计算出每一种类型就诊人群对应的医院地理位置权值,计算医院地理位置加权半径;其中,wi表示第i个医院地理位置权值,表示第i个医院某个设定时间段内平均就诊人数,某个设定时间段例如一个月或一个季度;zi表示第i个医院某个设定时间段内的就诊人数;Ri表示医院地理位置加权半径;r表示医院地理位置等级的初始值;分类型数据,例如:按照性别将人口分为男、女两类;按照经济性质将企业分为国有、集体、私营、其他经济等。S64:医院地理位置的加权半径即为医院地理位置预处理后对应的数值。初始值r根据行政区域等级划分,将省级市级医院设为0.5,区和县级医院设为1.0,根据wi灵活调整最终数值化的结果Ri,在计算Ri时,会有大于1的数值出现,我们统一将它设为最高值1.0。作为一个或多个实施例,所述对缺失数据进行补全,采用拉格朗日插补方法进行插值补全。实施例二,本实施例还提供了疾病就诊数据的预处理系统;疾病就诊数据的预处理系统,包括:获取模块,其被配置为:从医院服务器获取患者就诊记本文档来自技高网
...

【技术保护点】
1.疾病就诊数据的预处理方法,其特征是,包括:/n从医院服务器获取患者就诊记录;/n对获取的患者就诊记录进行数据清洗;/n对数据单位不统一的数据,转换到同一个数据单位;将名称不同但是含义相同的数据名称,转换到同一个数据名称;/n将汉字进行数值化处理;/n采用最大最小值归一化处理算法,对数据进行归一化处理;/n对患者就诊记录所对应的医院地理位置进行处理,得到预处理后的疾病就诊数据。/n

【技术特征摘要】
1.疾病就诊数据的预处理方法,其特征是,包括:
从医院服务器获取患者就诊记录;
对获取的患者就诊记录进行数据清洗;
对数据单位不统一的数据,转换到同一个数据单位;将名称不同但是含义相同的数据名称,转换到同一个数据名称;
将汉字进行数值化处理;
采用最大最小值归一化处理算法,对数据进行归一化处理;
对患者就诊记录所对应的医院地理位置进行处理,得到预处理后的疾病就诊数据。


2.如权利要求1所述的方法,其特征是,所述数据清洗包括:删除重复数据、对缺失数据进行补全和异常值剔除。


3.如权利要求1所述的方法,其特征是,将汉字进行数值化处理,具体步骤包括:
对于分类明显的汉字采用0-1独热编码的方式进行数值化处理;
对于不能使用0-1独热编码方式进行数值化处理的汉字,设定N个离散点,每个离散点表示一个数值。


4.如权利要求1所述的方法,其特征是,对患者就诊记录所对应的医院地理位置进行处理,包括:
S61:根据患者就诊记录所对应的医院地理位置,按照省市区县四个等级进行划分,每个等级均对应初始值r;
S62:设置每个医院某个设定时间段内就诊人数为加权因子;
S63:计算出每一种类型就诊人群对应的医院地理位置权值,计算医院地理位置加权半径;
S64:医院地理位置的加权半径即为医院地理位置预处理后对应的数值。


5.如权利要求4所述的方法,其特征是,计算出每一种类型就诊人群对应的医院地理位置权值,计算医院地理位置加权半径;


【专利技术属性】
技术研发人员:杜韬桑垚垚曲守宁米改娜
申请(专利权)人:济南大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1