The present disclosure discloses the preprocessing method, system, equipment and medium of the disease treatment data, including: obtaining the patient treatment record from the hospital server; cleaning the acquired patient treatment record; converting the data with different data units to the same data unit; converting the data names with different names but the same meanings to the same data name; and converting the Chinese to the same data name The words are processed numerically; the maximum and minimum normalization algorithm is used to normalize the data; the hospital location corresponding to the patient's visit record is processed to get the disease visit data after preprocessing. When the computer processes the data, it is not sensitive to the classified data or even makes mistakes. It is of great significance for the subsequent data mining to transform the medical data with multiple classified data dimensions into machine processable data through scientific methods.
【技术实现步骤摘要】
疾病就诊数据的预处理方法、系统、设备及介质
本公开涉及疾病就诊数据处理
,特别是涉及疾病就诊数据的预处理方法、系统、设备及介质。
技术介绍
本部分的陈述仅仅是提到了与本公开相关的
技术介绍
,并不必然构成现有技术。对历年患者就诊记录得到的数据进行数据预处理和数据挖掘,可以得出传染病的传染规律和传染走向,对于医疗卫生机构来说可以提早做好准备和预防;对于疾病控制中心来说,也可以做到防患于未然。在实现本公开的过程中,专利技术人发现现有技术中存在以下技术问题:(1)现有的患者就诊记录不规范不完整,因为医生在写诊断记录的过程中有自己的习惯用语和一些缩写词,导致从不同医院不同医师那里采集过来的就诊记录不规范不完整。(2)患者就诊记录存在缺失值和异常值。有一些文字型的记录不能直接进行数值计算。有一些数值型记录因为单位不统一,导致从不同医院采集的数据也是存在差异性。
技术实现思路
为了解决现有技术的不足,本公开提供了疾病就诊数据的预处理方法、系统、设备及介质;解决了从不同医院不同医师那里采集的数据不规范不完整的问题,为后续的数据挖掘工作奠定良好的数据基础。第一方面,本公开提供了疾病就诊数据的预处理方法;疾病就诊数据的预处理方法,包括:从医院服务器获取患者就诊记录;对获取的患者就诊记录进行数据清洗;对数据单位不统一的数据,转换到同一个数据单位;将名称不同但是含义相同的数据名称,转换到同一个数据名称;将汉字进行数值化处理;采用最 ...
【技术保护点】
1.疾病就诊数据的预处理方法,其特征是,包括:/n从医院服务器获取患者就诊记录;/n对获取的患者就诊记录进行数据清洗;/n对数据单位不统一的数据,转换到同一个数据单位;将名称不同但是含义相同的数据名称,转换到同一个数据名称;/n将汉字进行数值化处理;/n采用最大最小值归一化处理算法,对数据进行归一化处理;/n对患者就诊记录所对应的医院地理位置进行处理,得到预处理后的疾病就诊数据。/n
【技术特征摘要】 【专利技术属性】
1.疾病就诊数据的预处理方法,其特征是,包括:
从医院服务器获取患者就诊记录;
对获取的患者就诊记录进行数据清洗;
对数据单位不统一的数据,转换到同一个数据单位;将名称不同但是含义相同的数据名称,转换到同一个数据名称;
将汉字进行数值化处理;
采用最大最小值归一化处理算法,对数据进行归一化处理;
对患者就诊记录所对应的医院地理位置进行处理,得到预处理后的疾病就诊数据。
2.如权利要求1所述的方法,其特征是,所述数据清洗包括:删除重复数据、对缺失数据进行补全和异常值剔除。
3.如权利要求1所述的方法,其特征是,将汉字进行数值化处理,具体步骤包括:
对于分类明显的汉字采用0-1独热编码的方式进行数值化处理;
对于不能使用0-1独热编码方式进行数值化处理的汉字,设定N个离散点,每个离散点表示一个数值。
4.如权利要求1所述的方法,其特征是,对患者就诊记录所对应的医院地理位置进行处理,包括:
S61:根据患者就诊记录所对应的医院地理位置,按照省市区县四个等级进行划分,每个等级均对应初始值r;
S62:设置每个医院某个设定时间段内就诊人数为加权因子;
S63:计算出每一种类型就诊人群对应的医院地理位置权值,计算医院地理位置加权半径;
S64:医院地理位置的加权半径即为医院地理位置预处理后对应的数值。
5.如权利要求4所述的方法,其特征是,计算出每一种类型就诊人群对应的医院地理位置权值,计算医院地理位置加权半径;
技术研发人员:杜韬,桑垚垚,曲守宁,米改娜,
申请(专利权)人:济南大学,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。