基于机器学习的病例聚类分析方法及系统技术方案

技术编号:39846452 阅读:22 留言:0更新日期:2023-12-29 16:43
本发明专利技术涉及病例数据处理技术领域,尤其涉及一种基于机器学习的病例聚类分析方法及系统,包括病例导入模块导入若干病例样本

【技术实现步骤摘要】
基于机器学习的病例聚类分析方法及系统


[0001]本专利技术涉及病例数据处理
,尤其涉及一种基于机器学习的病例聚类分析方法及系统


技术介绍

[0002]聚类是一种数据提炼与归纳的技术,有助于发掘数据集的组成,潜在分类与内部的关系

当我们对样本分类与深化分析的需求时就可以寻求聚类的帮助

聚类分析可用的领域非常广泛

在医学

生物学

市场

心理学等等领域均出现其身影

医学研究者会用聚类分析流行病的病例,寻找疾病的分类与亚种,以找到更有针对性的治疗方法

[0003]中国专利申请公开号:
CN115331824A
公开了一种时序病例数据分析方法及装置,方法包括:从各时序病例数据的采样频率中确定固定采样频率,对于采样频率高于固定采样频率的时序病例数据,从其中去除冗余数据,对于采样频率低于固定采样频率的时序病例数据,在其中进行缺失值补全,从而获得完整时序病例数据;将完本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于机器学习的病例聚类分析方法,其特征在于,包括:步骤
S1
,病例导入模块导入若干病例样本
,
以获取病例数据;步骤
S2
,数据处理模块对所述病例数据进行预处理;步骤
S3
,特征提取模块依次提取各所述病例数据中的特征词,统计各特征词出现的频次以确定聚类分析的关键词;步骤
S4
,中控模块确定所述关键词的种类分布,所述关键词的种类包括症状关键词种类

诊断关键词种类以及信息关键词种类;步骤
S5
,所述中控模块计算各关键词种类的占比并根据各关键词种类的占比确定聚类分析的依据,聚类分析模块以确定的聚类分析依据进行聚类分析;步骤
S6
,在完成聚类分析后,检测模块检测聚类分析结果中症状信息或诊断信息的离散值,所述中控模块根据检测结果对所述关键词的确定标准进行修正
。2.
根据权利要求1所述的基于机器学习的病例聚类分析方法,其特征在于,在所述步骤
S3
中,所述特征提取模块依次提取各所述病例数据中的特征词,统计各特征词出现的频次,当任一特征词出现的频次大于频次预设值时,将对应的特征词作为聚类分析的关键词
。3.
根据权利要求2所述的基于机器学习的病例聚类分析方法,其特征在于,在所述步骤
S5
中,所述中控模块确定所述关键词的种类分布,中控模块计算症状关键词种类的占比并判定症状关键词种类的占比是否符合标准以进行聚类分析,若不符合标准,根据所述诊断关键词种类的占比与所述信息关键词种类的占比的比对结果重新确定作为聚类分析依据的关键词种类,或,计算任意两个关键词种类的占比之间的占比差值以补充病例样本;其中,判定重新确定聚类分析依据满足的条件为所述症状关键词种类的占比小于第一预设占比,判定补充病例样本满足的条件为所述症状关键词种类的占比大于等于第一预设占比且小于第二预设占比
。4.
根据权利要求3所述的基于机器学习的病例聚类分析方法,其特征在于,所述中控模块根据所述诊断关键词种类的占比与所述信息关键词种类的占比的比对结果重新确定作为聚类分析依据的关键词种类,若诊断关键词种类的占比大于等于信息关键词种类的占比,则将诊断关键词种类作为聚类分析依据进行聚类分析,否则,所述中控模块选取属于信息关键词种类的特征词总数与属于诊断关键词种类的特征词总数中的较大值对应的关键词种类作为聚类分析依据进行聚类分析
。5.
根据权利要求4所述的基于机器学习的病例聚类分析方法,其特征在于,所述聚类分析模块基于任一关键词种类的聚类分析后,所述检测模块针对单个关键词的聚类结果,检测该关键词的聚类结果中症状信息或诊断信息的离散值以确定聚类结果是否符合标准,若离散值不符合标准,则对该...

【专利技术属性】
技术研发人员:姚远翟曙春师亚勇毛丽
申请(专利权)人:中国人民解放军总医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1