【技术实现步骤摘要】
基于电子病历的传染病自动检测方法
[0001]本专利技术涉及计算机领域,主要用于解决基于电子病历的传染病自动检测,尤其涉及基于电子病历的传染病自动检测方法。
技术介绍
[0002]在传染病的防控过程中,尽快定位风险人群,对患者进行及时可靠的诊断是一个持续的挑战。目前,基于电子病历的自动感染检测的相关研究比较有限,主要原因是电子病历的特征维度较大而且数据质量较差,数据的高维性、不完整性和不一致性极大地影响了下游模型的性能。为了解决上述问题,研究人员致力于开发出有效的特征选择算法,但现有研究主要关注单个特征的有效性,这种方式无法找到有效的特征集合,因为许多特征是通过关联发挥作用的。
技术实现思路
[0003]本说明书实施方式的目的是提供一种基于电子病历的传染病自动检测方法,包括电子病历的预处理方法、特征表示方法、特征选择方法以及下游分类算法,用以快速高效地对传染病进行分类诊断并预测其流行趋势。本说明书实施方式提供的电子病历的预处理方法可以对数据进行有效的清洗和填充;本说明书实施方式提供的特征表示方法以两种不同的形 ...
【技术保护点】
【技术特征摘要】
1.一种基于电子病历的传染病自动检测方法,其特征在于,包括:对获取到的电子病历进行预处理;对预处理后的电子病历进行特征表示得到特征集合;通过特征选择方法从所述特征集合中筛选出有效的特征子集;对提取出的所述有效特征子集对样本进行分类,输出分类结果,计算评估指标的值作为特征选择算法的优化指标。2.根据权利要求1所述的基于电子病历的传染病自动检测方法,其特征在于,步骤“对获取到的电子病历进行预处理”包括删除缺失值、填充缺失值,使符号统一。3.根据权利要求2所述的基于电子病历的传染病自动检测方法,其特征在于,步骤“删除缺失值”包括:如果电子病历某列缺失值超出预设值,删除该列。4.根据权利要求2所述的基于电子病历的传染病自动检测方法,其特征在于,步骤“填充缺失值”包括:如果某列缺失值未超出预设值,用新值对缺失值进行填充;和/或,如果空值完全随机缺失,就用该列的平均值或众数进行填充如果空值和其他特征相关,则根据其他特征对应填充;和/或,对于类别特征缺失值,全部用None进行填充。5.根据权利要求2所述的基于电子病历的传染病自动检测方法,其特征在于,步骤“使符号统一”包括:在类别变量中将“是”和“有”统一记作“有”,将“否”和“无”统一记作“无”。6.根据权利要求1所述的基于电子病历的传染病自动检测方法,其特征在于,步骤对预处理后的电子病历进行特征表示中的特征表示方法包括独热编码和/或分布式表示,其中独热编码包括将类别变量表示为二进制向量,使用N位状态寄存器来对类别特征的N个状态进行编码,每个状态只有0和1两种取值,并且在任意时候这个二进制向量只有一位有效;其中分布式表示包括将类别特征的值映射到唯一的数字;为每个类别特征构建一个嵌入层,为保证降维效果,每个嵌入曾的输出维度为原始维度的一半;随机初始化嵌入向量,将其...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。