【技术实现步骤摘要】
平行智能病例推荐模型的建模方法
本专利技术涉及医学数据挖掘
,涉及一种用于辅助诊断的病例推荐模型,具体地说,涉及一种病例推荐模型的建模方法。
技术介绍
医生在日常工作中,常常需要根据当前患者的症状参考已有病例的治疗方案。患者的体征数据和检验检查数据共同构成了多维的疾病特征向量,相似病例的搜索意味着从庞大的病例数据库中找到相匹配的特征向量,显然传统的基于关键词的搜索方式无法满足多维特征快速匹配并进行推荐的需求。另一方面,数据挖掘技术作为数据库知识发现的重要过程,已被广泛应用在诸多领域,例如:电子商务、社交网络、广告推荐、搜索引擎等,通过建立相应的挖掘模型,可以解决现实中的分类、预测、推荐等各类问题。现有的挖掘模型采用的推荐算法大多数为基于协同过滤的推荐算法,该算法具有以下几个显著的优点:(1)不需要对物品或者用户进行严格的建模,而且不要求物品的描述是机器可以理解的,因此,该方法与
无关;(2)该算法计算出来的推荐时开放的,可以共用他人的经验,很好的支持用户发现潜在的兴趣偏好。同时,基于协同过滤的推荐算法存在的缺点也十分明显,具体表现为:(1)用户的行为数据存在较大稀疏性,准确性差;(2)很难对用户新行为进行快速响应,如果要响应用户新的行为记录,就必须重新计算user-user或者item-item相似度矩阵,而这两个矩阵的计算时间复杂度是非常高的,需要遍历整个user-item矩阵;(3)可扩展性差,由于随着user或者item数量的增大,user-item矩阵不断增大,相似度矩阵也不断增大,最终推荐系统会因为空间不足或者计算时间太长而无法继续使 ...
【技术保护点】
一种平行智能病例推荐模型的建立方法,其特征在于,含有以下步骤:步骤1:从电子病例数据库中获取已有的患者病例,对患者病例进行去噪处理后,对患者病例中的检验检查指标数据进行聚类处理,并同时将患者病例中的文本信息进行分词处理,获得患者病例数据,根据获得的患者病例数据建立患者病例语料数据库;步骤2:定义TFIDFi,j表示一个字或词语在患者病例语料数据库中的一份病例的重要程度,按照下述公式计算TFIDFi,j:TFIDFi,j=TFi,j×IDFi式中,TFi,j表示患者病例语料数据库的词频,指一个字或词语在一份病例中出现的频率;IDFi表示患者病例语料数据库的逆向文件频率,指一个字或词语普遍重要性的度量;i表示一份病例中一个语句所在的行,j表示一份病例中一个字或词语所在的列;根据TFIDFi,j建立LSI向量空间模型;同时根据患者病例语料数据库中的所有字和词语建立BOW词袋模型;通过LSI向量空间模型和BOW词袋模型计算患者病例语料数据库中的历史病例向量和待处理病例向量;步骤3:计算患者病例语料数据库中的每一个历史患者病例向量与其他病例向量的余弦相似度,并进行存储;计算待处理病例向量与患者病 ...
【技术特征摘要】
1.一种平行智能病例推荐模型的建立方法,其特征在于,含有以下步骤:步骤1:从电子病例数据库中获取已有的患者病例,对患者病例进行去噪处理后,对患者病例中的检验检查指标数据进行聚类处理,并同时将患者病例中的文本信息进行分词处理,获得患者病例数据,根据获得的患者病例数据建立患者病例语料数据库;步骤2:定义TFIDFi,j表示一个字或词语在患者病例语料数据库中的一份病例的重要程度,按照下述公式计算TFIDFi,j:TFIDFi,j=TFi,j×IDFi式中,TFi,j表示患者病例语料数据库的词频,指一个字或词语在一份病例中出现的频率;IDFi表示患者病例语料数据库的逆向文件频率,指一个字或词语普遍重要性的度量;i表示一份病例中一个语句所在的行,j表示一份病例中一个字或词语所在的列;根据TFIDFi,j建立LSI向量空间模型;同时根据患者病例语料数据库中的所有字和词语建立BOW词袋模型;通过LSI向量空间模型和BOW词袋模型计算患者病例语料数据库中的历史病例向量和待处理病例向量;步骤3:计算患者病例语料数据库中的每一个历史患者病例向量与其他病例向量的余弦相似度,并进行存储;计算待处理病例向量与患者病例语料数据库中历史患者病例向量之间的余弦相似度,根据余弦相似度寻找待处理病例的相似病例。2.根据权利要求1所述的平行智能病例推荐模型的建立方法,其特征在于,步骤1中,去噪处理的方法为:删除无效的信息不全的患者病例。3.根据权利要求1或2所述的平行智能病例推荐模型的建立方法,其特征在于,步骤1中,对检验检查指标数据进行聚类处理的方法为:根据检验检查指标的正常标准将检验检查指标数据分为至少三个数值区间,按照数值区间对检验检查数据进行分类,并添加数值区间的标签。4.根据权利要求3所述的平行智能病例推荐模型的建立方法,其特征在于,根据检验检查指标的正常标准将检验检查指标数据分为五个数值区间,分别为低数值区间、偏低数值区间、正常数值区间、偏高数值区间、高数值区间。5.根据权利要求1、2、4任意一项所述的平行智能病例推荐模型的建立方法,其特征在于,步骤1中,对文本信息分词处理的方法为:将句子拆分成词语,并删除停用词,引入word2vec模型进行相似词替换处理,将相似词统一替换为同一词语;所述停用词为与患者病症无关的词语。6.根据权利要求1所述的平行智能病例推荐模型的建立方法,其特征在于,步骤2中,建立LSI向量空间模型的方法为:将患者病例语料数据库中的所有患者病例表示为一m*n的文档标引项矩阵A,其中m表示所有患者病例中包含的所有不同的关键词个数,n表示患者病例语料数据库中的病例数量,即每一个词对应于矩阵A的一行,每一份病例对应于矩阵A的一列,矩阵A表示为:A=[TFIDFi,j]m*n;利用奇异值分解计算矩阵A的r秩近似矩阵Ar,r≤min(m,n),经奇...
【专利技术属性】
技术研发人员:娄乾,施小博,国元元,王飞跃,尚永涛,
申请(专利权)人:青岛中科慧康科技有限公司,青岛智能产业技术研究院,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。