The invention relates to an electronic patient record feature selection method based on intra class distribution and inter class distribution of words. This invention first constructs a dictionary of disease and medicine. Secondly, it summarizes the three characteristics of the distribution of symptom words in Chinese medical records, and then preprocesses the patient's records collected, and saves the result of the participle to the database. The present invention calculates the representation of words to different diseases according to the distribution of the key symptoms in the disease and the distribution of the disease. And when considering the distribution of the disease, the influence of the association between disease and disease on the selection of the features is analyzed, and the characteristics of the diseases with high relevance are guaranteed in the selection of the features. Similarly, the characteristics of diseases with low correlation are excluded as far as possible.
【技术实现步骤摘要】
基于单词的类内分布与类间分布的电子病历特征选择方法
本专利技术涉及在疾病智能诊断和中文文本特征选择领域,基于单词在同类病人和异类病人间的分布情况,来实现疾病特征提取过程,并基于提取的特征利用SVM(支持向量机)实现疾病智能诊断。
技术介绍
疾病诊断具有很大的不确定性,给诊断决策过程增加了难度;同时,随着医学科学的发展,临床分科越来越细,临床医师的知识面也越来越窄,他们往往只关注于自己的专科,很难将病人作为一个有机整体进行全面的考虑,这给诊断过程带来了一定的风险。疾病智能诊断研究的问题主要为如何让计算机模拟医学专家诊断病人的过程,根据病人电子病历自动准确地判断病人的患病情况,做出智能化诊断支持。智能诊断的结果虽然不能代替医师给出最终的诊断结论,但是在诊断过程中起到了一个重要的参考作用,可以有效提高医师的诊断效率。特征选择也称特征子集选择,或属性选择,是指从已有的M个特征中选择N个特征(M>N)使得系统的特定指标(如分类准确率等)最优化,是从原始特征中选择出一组最有效的特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据 ...
【技术保护点】
1.基于单词的类内分布与类间分布的电子病历特征选择方法,利用症状词在疾病内的分布情况及疾病间的分布情况对病历文本进行特征选择,其特征在于,首先,针对病历文本包含大量的医学专用词语,且否定性词语或短语频繁出现的特点,利用国家食品药品监督局的药品信息和ICD‑10编码中的疾病信息构建了疾病、药品词典,利用该词典提高分词质量,保证在进行特征选择时关键症状词不会被错误切割,并通过总结医生或护士常用否定词语构建否定词列表,过滤病历中的否定性词语或短语,排除无用信息;其次,通过对中文电子病历的分析,总结病历文本中关键症状词分布的特点,即1)特征词重复次数低,关键的症状及体征信息不会多次 ...
【技术特征摘要】
1.基于单词的类内分布与类间分布的电子病历特征选择方法,利用症状词在疾病内的分布情况及疾病间的分布情况对病历文本进行特征选择,其特征在于,首先,针对病历文本包含大量的医学专用词语,且否定性词语或短语频繁出现的特点,利用国家食品药品监督局的药品信息和ICD-10编码中的疾病信息构建了疾病、药品词典,利用该词典提高分词质量,保证在进行特征选择时关键症状词不会被错误切割,并通过总结医生或护士常用否定词语构建否定词列表,过滤病历中的否定性词语或短语,排除无用信息;其次,通过对中文电子病历的分析,总结病历文本中关键症状词分布的特点,即1)特征词重复次数低,关键的症状及体征信息不会多次出现;2)患同类疾病的病人病历中包含的关键症状词重叠度高;3)疾病间的关联性会影响疾病间关键症状的相似性;然后,对收集到的病人病历进行预处理,将病历中的否定性短语过滤,作为噪音直接消除;利用分词工具词典添加功能将疾病、药品名称导入词典并对病历进行分词,将病历中的专业疾病、药品名称准确地提取出来,最后将分词结果保存到数据库中;在计算每个单词对于每种疾病的代表度时,共包括N类疾病,分别为X1、X2…、XN,对于疾病Xi,为计算其中的每个单词对于Xi的代表度,需分别统计Xi中的病人数量,记为Ri,统计Ri位病人的病...
【专利技术属性】
技术研发人员:彭访,方胜群,蔡志平,吴喜军,孙文成,
申请(专利权)人:湖南省蓝蜻蜓网络科技有限公司,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。