平行智能病例推荐模型的建模方法技术

技术编号:17196113 阅读:58 留言:0更新日期:2018-02-03 22:49
本发明专利技术涉及一种平行智能病例推荐模型的建模方法,其步骤如下:从电子病例数据库中获取已有的患者病例,对患者病例进行去噪处理、聚类处理、分词处理后,建立患者病例语料数据库;定义TFIDFi,j表示一个字或词语在患者病例语料数据库中的一份病例的重要程度,根据TFIDFi,j建立LSI向量空间模型,同时根据患者病例语料数据库中的所有字和词语建立BOW词袋模型;通过LSI向量空间模型和BOW词袋模型计算患者病例语料数据库中的历史病例向量和待处理病例向量;计算历史患者病例间的余弦相似度,并进行存储;计算待处理病例向量与历史患者病例向量之间的余弦相似度,根据余弦相似度寻找待处理病例的相似病例。采用本发明专利技术方法建立的模型的准确性高、误差小,推荐结果质量高。

【技术实现步骤摘要】
平行智能病例推荐模型的建模方法
本专利技术涉及医学数据挖掘
,涉及一种用于辅助诊断的病例推荐模型,具体地说,涉及一种病例推荐模型的建模方法。
技术介绍
医生在日常工作中,常常需要根据当前患者的症状参考已有病例的治疗方案。患者的体征数据和检验检查数据共同构成了多维的疾病特征向量,相似病例的搜索意味着从庞大的病例数据库中找到相匹配的特征向量,显然传统的基于关键词的搜索方式无法满足多维特征快速匹配并进行推荐的需求。另一方面,数据挖掘技术作为数据库知识发现的重要过程,已被广泛应用在诸多领域,例如:电子商务、社交网络、广告推荐、搜索引擎等,通过建立相应的挖掘模型,可以解决现实中的分类、预测、推荐等各类问题。现有的挖掘模型采用的推荐算法大多数为基于协同过滤的推荐算法,该算法具有以下几个显著的优点:(1)不需要对物品或者用户进行严格的建模,而且不要求物品的描述是机器可以理解的,因此,该方法与
无关;(2)该算法计算出来的推荐时开放的,可以共用他人的经验,很好的支持用户发现潜在的兴趣偏好。同时,基于协同过滤的推荐算法存在的缺点也十分明显,具体表现为:(1)用户的行为数据存在较大稀疏性,准确性差;(2)很难对用户新行为进行快速响应,如果要响应用户新的行为记录,就必须重新计算user-user或者item-item相似度矩阵,而这两个矩阵的计算时间复杂度是非常高的,需要遍历整个user-item矩阵;(3)可扩展性差,由于随着user或者item数量的增大,user-item矩阵不断增大,相似度矩阵也不断增大,最终推荐系统会因为空间不足或者计算时间太长而无法继续使用;(4)质量取决于历史数据,协同过滤算法依赖的是用例历史行为记录,当历史数据缺乏或者噪声比较大的时候,协同过滤算法就会失效;(5)由于缺乏充足而准确的历史数据,系统开始时推荐质量差。
技术实现思路
本专利技术的目的在于克服现有技术存在的数据准确性差、对用户新行为响应速度慢、模型推荐质量差等上述缺陷和不足,提供了一种平行智能病例推荐模型的建模方法,采用该方法建立的平行智能病例推荐模型用于辅助医师诊断,不仅能够有效解决普通病例的推荐问题,同时也能够有效解决特殊病例的推荐问题。为了达到上述目的,本专利技术提供了一种平行智能病例推荐模型的建模方法,含有以下步骤:步骤1:从电子病例数据库中获取已有的患者病例,对患者病例进行去噪处理后,对患者病例中的检验检查指标数据进行聚类处理,并同时将患者病例中的文本信息进行分词处理,获得患者病例数据,根据获得的患者病例数据建立患者病例语料数据库;步骤2:定义TFIDFi,j表示一个字或词语在患者病例语料数据库中的一份病例的重要程度,按照下述公式计算TFIDFi,j:TFIDFi,j=TFi,j×IDFi式中,TFi,j表示患者病例语料数据库的词频,指一个字或词语在一份病例中出现的频率;IDFi表示患者病例语料数据库的逆向文件频率,指一个字或词语普遍重要性的度量;i表示一份病例中一个语句所在的行,j表示一份病例中一个字或词语所在的列;根据TFIDFi,j建立LSI向量空间模型;同时根据患者病例语料数据库中的所有字和词语建立BOW词袋模型;通过LSI向量空间模型和BOW词袋模型计算患者病例语料数据库中的历史病例向量和待处理病例向量;步骤3:计算患者病例语料数据库中的每一个历史患者病例向量与其他病例向量的余弦相似度,并进行存储;计算待处理病例向量与患者病例语料数据库中历史患者病例向量之间的余弦相似度,根据余弦相似度寻找待处理病例的相似病例,平行智能病例推荐模型建立完成。ACP平行理论为采用人工社会+计算实验+平行执行的方式将理论与实际相结合,把“虚”和“软”的理论部分建立标准模型,并通过实施的计算化、实时化,使之“硬化”,真正用于解决实际的问题。本专利技术基于ACP平行理论,通过从电子病例数据库中获取已有的患者病例(即人工社会),建立LSI向量空间模型和BOW词袋模型(即计算实验),根据待处理病例向量与患者病例语料数据库中历史患者病例向量之间的余弦相似度寻找待处理病例的相似病例(即平行执行),从而建立平行智能病例推荐模型,将该方法建立的推荐模型应用到临床中,可以快速给医生提供历史相似病例,作为临床诊断参考,能够有效地减少医生的诊断时间,提高诊断效率。优选的,步骤1中,去噪处理的方法为:删除无效的信息不全的患者病例。优选的,步骤1中,对检验检查指标数据进行聚类处理的方法为:根据检验检查指标的正常标准将检验检查指标数据分为至少三个数值区间,按照数值区间对检验检查数据进行分类,并添加数值区间的标签。优选的,根据检验检查指标的正常标准将检验检查指标数据分为五个数值区间,分别为低数值区间、偏低数值区间、正常数值区间、偏高数值区间、高数值区间。优选的,步骤1中,对文本信息分词处理的方法为:将句子拆分成词语,并删除停用词,引入word2vec模型进行相似词替换处理,将相似词统一替换为同一词语;所述停用词为与患者病症无关的词语。优选的,步骤2中,建立LSI向量空间模型的方法为:将患者病例语料数据库中的所有患者病例表示为一m*n的文档标引项矩阵A,其中m表示所有患者病例中包含的所有不同的关键词个数,n表示患者病例语料数据库中的病例数量,即每一个词对应于矩阵A的一行,每一份病例对应于矩阵A的一列,矩阵A表示为:A=[TFIDFi,j]m*n;利用奇异值分解计算矩阵A的r秩近似矩阵Ar,r≤min(m,n),经奇异值分解的矩阵A表示为三个矩阵的乘积,即:A=U*V*VT式中,U为矩阵A对应的左奇异向量矩阵,V为矩阵A对应的右奇异向量矩阵;矩阵A的奇异值按递减顺序排列构成对角矩阵W,取W最前面的r个奇异值构成对角矩阵Wr,取U最前面的r列向量构成矩阵Ur,取V最前面的r行向量构成矩阵Vr,构建A的r秩近似矩阵Ar,表示为:式中,Ur的列向量为关键词向量,每一行表示意思相关的一类词,其中的非零元素表示这一类词中每个词的相关性,数值越大越相关;Vr的行向量为文本向量,每一列分别表示不同病种的病例,其中的每个元素表示本病种中每份病例的相关性;Wr中的每个奇异值表示类词与病例类别之间的相关性,奇异值的个数表示类别空间的维度;矩阵Ar即LSI向量空间模型。优选的,步骤2中,TFi,j的计算公式为:式中,ni,j为一个字或词语在一份病例中的出现次数,k表示一份病例中所有字或词语的个数;IDFi,j的计算公式为:式中,|D|为患者病例语料数据库中的文件总数,|{j:ti∈dj}|为包含词语ti的文件数目。优选的,步骤2中,建立BOW词袋模型的方法为:将患者病例语料数据库中出现的所有词汇去重后进行编号,构成具有n个词汇的历史患者病例词典,分别统计每份病例中所述n个词汇的出现次数,每份病例构成一个n维向量,生成BOW词袋模型。步骤3中,余弦相似度计算公式表示为:式中,计算患者病例语料数据库中的每一个历史患者病例向量与其他病例向量的余弦相似度时,xi表示患者病例语料数据库中的一份历史患者病例向量,yi表示患者病例语料数据库中的其他任意一份历史患者病例向量;计算待处理病例向量与患者病例语料数据库中历史患者病例向量之间的余弦相似度时,xi表示待处理病例的向量,yi表示患者病例语料数本文档来自技高网
...
平行智能病例推荐模型的建模方法

【技术保护点】
一种平行智能病例推荐模型的建立方法,其特征在于,含有以下步骤:步骤1:从电子病例数据库中获取已有的患者病例,对患者病例进行去噪处理后,对患者病例中的检验检查指标数据进行聚类处理,并同时将患者病例中的文本信息进行分词处理,获得患者病例数据,根据获得的患者病例数据建立患者病例语料数据库;步骤2:定义TFIDFi,j表示一个字或词语在患者病例语料数据库中的一份病例的重要程度,按照下述公式计算TFIDFi,j:TFIDFi,j=TFi,j×IDFi式中,TFi,j表示患者病例语料数据库的词频,指一个字或词语在一份病例中出现的频率;IDFi表示患者病例语料数据库的逆向文件频率,指一个字或词语普遍重要性的度量;i表示一份病例中一个语句所在的行,j表示一份病例中一个字或词语所在的列;根据TFIDFi,j建立LSI向量空间模型;同时根据患者病例语料数据库中的所有字和词语建立BOW词袋模型;通过LSI向量空间模型和BOW词袋模型计算患者病例语料数据库中的历史病例向量和待处理病例向量;步骤3:计算患者病例语料数据库中的每一个历史患者病例向量与其他病例向量的余弦相似度,并进行存储;计算待处理病例向量与患者病例语料数据库中历史患者病例向量之间的余弦相似度,根据余弦相似度寻找待处理病例的相似病例。...

【技术特征摘要】
1.一种平行智能病例推荐模型的建立方法,其特征在于,含有以下步骤:步骤1:从电子病例数据库中获取已有的患者病例,对患者病例进行去噪处理后,对患者病例中的检验检查指标数据进行聚类处理,并同时将患者病例中的文本信息进行分词处理,获得患者病例数据,根据获得的患者病例数据建立患者病例语料数据库;步骤2:定义TFIDFi,j表示一个字或词语在患者病例语料数据库中的一份病例的重要程度,按照下述公式计算TFIDFi,j:TFIDFi,j=TFi,j×IDFi式中,TFi,j表示患者病例语料数据库的词频,指一个字或词语在一份病例中出现的频率;IDFi表示患者病例语料数据库的逆向文件频率,指一个字或词语普遍重要性的度量;i表示一份病例中一个语句所在的行,j表示一份病例中一个字或词语所在的列;根据TFIDFi,j建立LSI向量空间模型;同时根据患者病例语料数据库中的所有字和词语建立BOW词袋模型;通过LSI向量空间模型和BOW词袋模型计算患者病例语料数据库中的历史病例向量和待处理病例向量;步骤3:计算患者病例语料数据库中的每一个历史患者病例向量与其他病例向量的余弦相似度,并进行存储;计算待处理病例向量与患者病例语料数据库中历史患者病例向量之间的余弦相似度,根据余弦相似度寻找待处理病例的相似病例。2.根据权利要求1所述的平行智能病例推荐模型的建立方法,其特征在于,步骤1中,去噪处理的方法为:删除无效的信息不全的患者病例。3.根据权利要求1或2所述的平行智能病例推荐模型的建立方法,其特征在于,步骤1中,对检验检查指标数据进行聚类处理的方法为:根据检验检查指标的正常标准将检验检查指标数据分为至少三个数值区间,按照数值区间对检验检查数据进行分类,并添加数值区间的标签。4.根据权利要求3所述的平行智能病例推荐模型的建立方法,其特征在于,根据检验检查指标的正常标准将检验检查指标数据分为五个数值区间,分别为低数值区间、偏低数值区间、正常数值区间、偏高数值区间、高数值区间。5.根据权利要求1、2、4任意一项所述的平行智能病例推荐模型的建立方法,其特征在于,步骤1中,对文本信息分词处理的方法为:将句子拆分成词语,并删除停用词,引入word2vec模型进行相似词替换处理,将相似词统一替换为同一词语;所述停用词为与患者病症无关的词语。6.根据权利要求1所述的平行智能病例推荐模型的建立方法,其特征在于,步骤2中,建立LSI向量空间模型的方法为:将患者病例语料数据库中的所有患者病例表示为一m*n的文档标引项矩阵A,其中m表示所有患者病例中包含的所有不同的关键词个数,n表示患者病例语料数据库中的病例数量,即每一个词对应于矩阵A的一行,每一份病例对应于矩阵A的一列,矩阵A表示为:A=[TFIDFi,j]m*n;利用奇异值分解计算矩阵A的r秩近似矩阵Ar,r≤min(m,n),经奇...

【专利技术属性】
技术研发人员:娄乾施小博国元元王飞跃尚永涛
申请(专利权)人:青岛中科慧康科技有限公司青岛智能产业技术研究院
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1