基于M-N+模型的慢性疼痛特征识别系统技术方案

技术编号:37086500 阅读:12 留言:0更新日期:2023-03-29 20:01
本发明专利技术公开了一种基于M

【技术实现步骤摘要】
基于M

N+模型的慢性疼痛特征识别系统


[0001]本专利技术涉及一种基于M

N+模型的慢性疼痛特征识别技术,实现慢性疼痛特征高效率的精准辨析。

技术介绍

[0002]慢性疼痛疾病特征是医生用来诊断疼痛类别和级别的主要依据,它主要包含在病历的主诉和各项检查内容里,如何高效地从海量电子病历中找出慢性疼痛疾病特征从而辅助诊断一直以来都是慢痛数据挖掘的研究热点。
[0003]慢痛特征识别就是指从数据集中识别出某类事物最具代表性特征子集的过程,其原理主要是通过度量不同特征与类别的相关程度,实现在高维特征中选取与类别相关度高的特征子集。一般特征识别的方法包括三类:过滤法(Filter)、嵌入法(Embeded)和包装法(Wrapper)。过滤法与学习算法相互独立,通过过滤数据集来识别特征子集。嵌入法把特征识别与学习过程同时进行,在训练过程中,选择最优特征。包装法将学习算法作为特征选择的一部分。过滤法是最常用的特征识别方法,它的主要原理是通过样本数据的内在联系来评价特征的权重,如信息增益、相关系数等。虽然这些方法在麻痛疾病特征提取方面起到了一定的作用,但是由于慢性疼痛患者病历数据离散化程度高,描述语言标准不统一,给疾病特征的提取带来了一定的困难,降低了疾病特征识别准确率。

技术实现思路

[0004]本专利技术要解决的技术问题是:目前基于病历的慢性疼痛疾病特征提取方法有很多,但是这些方法存在病历数据离散化程度高、描述语言标准不统一、疾病特征的提取困难等问题。
[0005]为了解决上述技术问题,本专利技术的技术方案是提供了一种基于M

N+模型的慢性疼痛特征识别系统,其特征在于,包括:
[0006]数据预处理模块,用于将电子病历文档进行预处理及分词后存入文本文件中;
[0007]M

N+模型:在文本文件上运行M

N+模型后,得到病历-疾病分布和疾病-特征分布两个分布矩阵,通过疾病-特征分布得到疾病的特征分布,其中,贝叶斯方法来统计电子病历文档中最优的疾病数量K,将计算得到的疾病数量K作为M

N+模型的输入参数,疾病数量K的计算公式如下式所示:
[0008][0009][0010]式中:P(w|s)表示病历

疾病分布概率;β表示超参数,Γ(Wβ)表示假词的共轭二项分布;Γ(β)表示假词的先验二项分布;表示自循环变量,表示假词的离散函
数;n
i
表示拟态变量,Γ(n
i
+Wβ)表示真词的离散函数;M表示吉布斯采样次数;P(w|K)表示疾病

特征分布;s
(i)
表示特异性阈值范畴,p(w|s
(i)
)表示特异性分布。
[0011]优选地,所述数据预处理模块包括:
[0012]数据过滤单元:用于去除电子病历文档中的隐私信息以及无用信息,仅保留包含疾病特征密度大的信息内容;
[0013]数据离散化单元:用于将经过数据过滤单元处理的数据中的连续性数据进行离散化处理;
[0014]分词单元:基于医学词表对经过数据离散化单元处理的数据进行分词处理,将分词后的结果存放在文本文件中,其中,对经过数据离散化单元处理的电子病历文档进行人工标注,以获得电子病历文档中出现的完整的医学用语,基于所获得的医学用语建立医学用语词表。
[0015]优选地,在所述M

N+模型中,建立文档、疾病、词汇三者之间的联合概率公式,如下式所示:
[0016][0017]式(1)中:P(θ,S,W|α,β)表示文档、疾病、词汇三者之间的联合概率;θ表示文档属性,S表示疾病特征属性,W表示词汇属性,α、β为超参数;P(θ|α)表示文档属性的偏离率;s
n
表示疾病特征的离散量,P(s
n
|θ)表示文档属性与疾病特征拟合度;w
n
表示偏倚变量,P(w
n
|s
n
,β)表示特征拟合度的偏倚率;
[0018]遍历病历文档d中的每个词汇w,计算词汇w的边缘概率,得到病历文档d生成词汇w的概率,如公式(2)所示:
[0019][0020]式中,P(w|α,β)表示特征拟合或然率。
[0021]优选地,所述M

N+模型训练病历

疾病分布和疾病

特征分布时,采用如下式所示的吉布斯采样:
[0022][0023]式中:s
i
表示疾病特征属性,w
i
表示偏倚变量,d
i
表示病例文档,k表示吉布斯模型常量,P(s
i
=k|s
i
,w
i
,d
i
)表示吉布斯模型;表示动态审敛矩阵;K表示疾病数量;表示静态审敛矩阵;W表示词汇属性;
[0024]对病历

疾病分布和疾病一特征分布进行m
×
n次迭代,最终得到稳定的病历

疾病分布和疾病

特征分布
[0025]优选地,每次吉布斯采样中,病历

疾病分布中的隐马尔科夫链都会动态更新,更新公式如下式所示:
[0026][0027][0028]式中:θ
m,s
表示病历

疾病隐马尔科夫分布;表示s维度下的豫解核变量;α
s
表示正向超参数序列,表示疾病

特征隐马尔科夫分布;表示n维度下的豫解核变量;β
n
表示负向超参数序列;V表示随机最优控制常数。
[0029]本专利技术能够通过自反馈的形式形成数据闭环,并基于既定场景设定瀑布流对高维的慢性疼痛相关因素集进行清洗、提取和标化,最终实现慢性疼痛特征高效率的精准辨析。本专利技术能同时建模慢痛患者病历、慢性疼痛、慢痛患者特征三者之间的关系,得出病历

疾病和疾病

特征两个分布矩阵,从而达到疾病特征识别的目的。实验表明,本专利技术的疾病特征识别准确率高于ID3算法和C4.5算法,达到了良好的慢性疼痛疾病特征识别效果。
[0030]与现有技术相比,本专利技术具有如下有益效果:
[0031]一)能从疼痛患者病例档案和多源多模态采集终端获取高维海量数据,对获取的数据进行管理、整合、分析和利用,通过数据挖掘和分析,探寻不同风险疼痛患者的差异化干预节点,制定个体化组合干预优化策略和持续改进的方案;
[0032]二)从多个不同等级业务系统中采集海量数据进行清洗、实现虚拟化存储,并构建慢性疼痛疾病管理机器人专有数据DWH;
[0033]三)通过数据挖掘技术从大量的多源数据中通过算法探索隐藏于其中的靶点信息。
附图说明
[0034]图1示意了概率生成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于M

N+模型的慢性疼痛特征识别系统,其特征在于,包括:数据预处理模块,用于将电子病历文档进行预处理及分词后存入文本文件中;M

N+模型:在文本文件上运行M

N+模型后,得到病历-疾病分布和疾病-特征分布两个分布矩阵,通过疾病-特征分布得到疾病的特征分布,其中,贝叶斯方法来统计电子病历文档中最优的疾病数量K,将计算得到的疾病数量K作为M

N+模型的输入参数,疾病数量K的计算公式如下式所示:量K的计算公式如下式所示:式中:P(w|s)表示病历-疾病分布概率;β表示超参数,Γ(Wβ)表示假词的共轭二项分布;Γ(β)表示假词的先验二项分布;表示自循环变量,表示假词的离散函数;n
i
表示拟态变量,Γ(n
i
+β)表示真词的离散函数;M表示吉布斯采样次数;P(w|K)表示疾病-特征分布;s
()
表示特异性阈值范畴,p(w|s
()
)表示特异性分布。2.表示如权利要求1所述的一种基于M

N+模型的慢性疼痛特征识别系统,其特征在于,所述数据预处理模块包括:数据过滤单元:用于去除电子病历文档中的隐私信息以及无用信息,仅保留包含疾病特征密度大的信息内容;数据离散化单元:用于将经过数据过滤单元处理的数据中的连续性数据进行离散化处理;分词单元:基于医学词表对经过数据离散化单元处理的数据进行分词处理,将分词后的结果存放在文本文件中,其中,对经过数据离散化单元处理的电子病历文档进行人工标注,以获得电子病历文档中出现的完整的医学用语,基于所获得的医学用语建立医学用语词表。3.如权利要求1所述的一种基于M

N+模型的慢性疼痛特征识别系统,其特征在于,在所述M

N+模型中,建立文档、疾病、词汇三者之间的联合概率公式,如下式所示:式(1)中:P(θ,S,W|α,β)表示文档、疾病、词汇三者之间的联合概率;...

【专利技术属性】
技术研发人员:缪长虹陈万坤吴晗陈昭媛蒋怡高沈佳
申请(专利权)人:复旦大学附属中山医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1