【技术实现步骤摘要】
基于M
‑
N+模型的慢性疼痛特征识别系统
[0001]本专利技术涉及一种基于M
‑
N+模型的慢性疼痛特征识别技术,实现慢性疼痛特征高效率的精准辨析。
技术介绍
[0002]慢性疼痛疾病特征是医生用来诊断疼痛类别和级别的主要依据,它主要包含在病历的主诉和各项检查内容里,如何高效地从海量电子病历中找出慢性疼痛疾病特征从而辅助诊断一直以来都是慢痛数据挖掘的研究热点。
[0003]慢痛特征识别就是指从数据集中识别出某类事物最具代表性特征子集的过程,其原理主要是通过度量不同特征与类别的相关程度,实现在高维特征中选取与类别相关度高的特征子集。一般特征识别的方法包括三类:过滤法(Filter)、嵌入法(Embeded)和包装法(Wrapper)。过滤法与学习算法相互独立,通过过滤数据集来识别特征子集。嵌入法把特征识别与学习过程同时进行,在训练过程中,选择最优特征。包装法将学习算法作为特征选择的一部分。过滤法是最常用的特征识别方法,它的主要原理是通过样本数据的内在联系来评价特征的权重,如信息增益、相关系数等。虽然这些方法在麻痛疾病特征提取方面起到了一定的作用,但是由于慢性疼痛患者病历数据离散化程度高,描述语言标准不统一,给疾病特征的提取带来了一定的困难,降低了疾病特征识别准确率。
技术实现思路
[0004]本专利技术要解决的技术问题是:目前基于病历的慢性疼痛疾病特征提取方法有很多,但是这些方法存在病历数据离散化程度高、描述语言标准不统一、疾病特征的提取困难等问题。
...
【技术保护点】
【技术特征摘要】
1.一种基于M
‑
N+模型的慢性疼痛特征识别系统,其特征在于,包括:数据预处理模块,用于将电子病历文档进行预处理及分词后存入文本文件中;M
‑
N+模型:在文本文件上运行M
‑
N+模型后,得到病历-疾病分布和疾病-特征分布两个分布矩阵,通过疾病-特征分布得到疾病的特征分布,其中,贝叶斯方法来统计电子病历文档中最优的疾病数量K,将计算得到的疾病数量K作为M
‑
N+模型的输入参数,疾病数量K的计算公式如下式所示:量K的计算公式如下式所示:式中:P(w|s)表示病历-疾病分布概率;β表示超参数,Γ(Wβ)表示假词的共轭二项分布;Γ(β)表示假词的先验二项分布;表示自循环变量,表示假词的离散函数;n
i
表示拟态变量,Γ(n
i
+β)表示真词的离散函数;M表示吉布斯采样次数;P(w|K)表示疾病-特征分布;s
()
表示特异性阈值范畴,p(w|s
()
)表示特异性分布。2.表示如权利要求1所述的一种基于M
‑
N+模型的慢性疼痛特征识别系统,其特征在于,所述数据预处理模块包括:数据过滤单元:用于去除电子病历文档中的隐私信息以及无用信息,仅保留包含疾病特征密度大的信息内容;数据离散化单元:用于将经过数据过滤单元处理的数据中的连续性数据进行离散化处理;分词单元:基于医学词表对经过数据离散化单元处理的数据进行分词处理,将分词后的结果存放在文本文件中,其中,对经过数据离散化单元处理的电子病历文档进行人工标注,以获得电子病历文档中出现的完整的医学用语,基于所获得的医学用语建立医学用语词表。3.如权利要求1所述的一种基于M
‑
N+模型的慢性疼痛特征识别系统,其特征在于,在所述M
‑
N+模型中,建立文档、疾病、词汇三者之间的联合概率公式,如下式所示:式(1)中:P(θ,S,W|α,β)表示文档、疾病、词汇三者之间的联合概率;...
【专利技术属性】
技术研发人员:缪长虹,陈万坤,吴晗,陈昭媛,蒋怡,高沈佳,
申请(专利权)人:复旦大学附属中山医院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。