基于M-N+模型的慢性疼痛特征识别系统技术方案

技术编号：37086500 阅读：23 留言：0更新日期：2023-03-29 20:01

本发明专利技术公开了一种基于M

全部详细技术资料下载

【技术实现步骤摘要】
基于M
‑
N+模型的慢性疼痛特征识别系统

[0001]本专利技术涉及一种基于M
‑
N+模型的慢性疼痛特征识别技术，实现慢性疼痛特征高效率的精准辨析。

技术介绍

[0002]慢性疼痛疾病特征是医生用来诊断疼痛类别和级别的主要依据，它主要包含在病历的主诉和各项检查内容里，如何高效地从海量电子病历中找出慢性疼痛疾病特征从而辅助诊断一直以来都是慢痛数据挖掘的研究热点。
[0003]慢痛特征识别就是指从数据集中识别出某类事物最具代表性特征子集的过程，其原理主要是通过度量不同特征与类别的相关程度，实现在高维特征中选取与类别相关度高的特征子集。一般特征识别的方法包括三类：过滤法(Filter)、嵌入法(Embeded)和包装法(Wrapper)。过滤法与学习算法相互独立，通过过滤数据集来识别特征子集。嵌入法把特征识别与学习过程同时进行，在训练过程中，选择最优特征。包装法将学习算法作为特征选择的一部分。过滤法是最常用的特征识别方法，它的主要原理是通过样本数据的内在联系来评价特征的权重，如信息增益、...

【技术保护点】

【技术特征摘要】
1.一种基于M
‑
N+模型的慢性疼痛特征识别系统，其特征在于，包括：数据预处理模块，用于将电子病历文档进行预处理及分词后存入文本文件中；M
‑
N+模型：在文本文件上运行M
‑
N+模型后，得到病历－疾病分布和疾病－特征分布两个分布矩阵，通过疾病－特征分布得到疾病的特征分布，其中，贝叶斯方法来统计电子病历文档中最优的疾病数量K，将计算得到的疾病数量K作为M
‑
N+模型的输入参数，疾病数量K的计算公式如下式所示：量K的计算公式如下式所示：式中：P(w|s)表示病历－疾病分布概率；β表示超参数，Γ(Wβ)表示假词的共轭二项分布；Γ(β)表示假词的先验二项分布；表示自循环变量，表示假词的离散函数；n
i
表示拟态变量，Γ(n
i
+β)表示真词的离散函数；M表示吉布斯采样次数；P(w|K)表示疾病－特征分布；s
()
表示特异性阈值范畴，p(w|s
()
)表示特异性分布。2.表示如权利要求1所述的一种基于M
‑
N+模型的慢性疼痛特征识别系统，其特征在于，所述数据预处理模块包括：数据过滤单元：用于去除电子病历文档中的隐私信息以及无用信息，仅保留包含疾病特征密度大的信息内容；数据离散化单元：用于将经过数据过滤单元处理的数据中的连续性数据进行离散化处理；分词单元：基于医学词表对经过数据离散化单元处理的数据进行分词处理，将分词后的结果存放在文本文件中，其中，对经过数据离散化单元处理的电子病历文档进行人工标注，以获得电子病历文档中出现的完整的医学用语，基于所获得的医学用语建立医学用语词表。3.如权利要求1所述的一种基于M
‑
N+模型的慢性疼痛特征识别系统，其特征在于，在所述M
‑
N+模型中，建立文档、疾病、词汇三者之间的联合概率公式，如下式所示：式(1)中：P(θ,S,W|α,β)表示文档、疾病、词汇三者之间的联合概率；...

【专利技术属性】
技术研发人员：缪长虹，陈万坤，吴晗，陈昭媛，蒋怡，高沈佳，
申请(专利权)人：复旦大学附属中山医院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人