一种相似病历检索的系统及方法技术方案

技术编号:11371589 阅读:88 留言:0更新日期:2015-04-30 04:58
本发明专利技术涉及一种相似病历检索的系统及方法,尤其是在电子病历的统计检索中,相似病历搜索的系统及方法。检索者提供原始病历,从病历库中检索出相似的病历集并计算每一份病历的相似度的方法。包括了原始病历特征码提取方法、相似病历检索方法、相似度计算方法。相似病历检索,利用全文搜索技术和相似病历计算方法,为进一步的医学病历研究、分析提供技术基础。

【技术实现步骤摘要】
一种相似病历检索的系统及方法
本专利技术涉及一种相似病历检索的系统及方法,尤其是在电子病历的统计检索中,相似病历搜索的系统及方法。
技术介绍
在目前病历检索中,还是采用传统数据库字段全匹配的方式来检索病历,这种方式需要检索者提供准确的检索字段和准确的检索内容,并且需要原始数据录制准确,否则无法检索到期望的结果集。而病历统计也是通过准确字段进行统计,这局限了对病历数据的进一步研究分析。而另一方面,全文搜索技术已经相当成熟,可以应用到病历检索中,其提供了更加方便、快捷的检索方法,检索者不再需要提供检索字段、不需要提供准确的检索内容,就能检索到想要的病历集,并且通过不断的提供更多的检索内容词来缩小结果集,达到更精确的检索效果。检索相似病历还局限在传统的检索方法基础上,采用个别字段匹配的方式检索相似病历,这导致了检索的不完全性,可能还有很多相似病历,却无法检索出来,其次没有一个统一的相似度计算方法,导致检索出的病历需要人为的判断,这使得检索者的经验变得非常重要,不便于扩大应用和推广。而随着医院信息系统的应用和健全,电子病历数据越来越多,如何把这些病历数据应用于医学研究与分析变得越来越重要。本专利技术就是这样的背景下被提出来了。
技术实现思路
本专利技术提供一种相似病历的检索方法和相似度计算方法,为检索者进一步研究与分析提供一种基础方法。检索者提供原始病历,从病历库中检索出相似的病历集并计算每一份病历的相似度的方法。本专利技术的技术方案是:一种相似病历检索方法,它包括特征码字典库、全文索引库、原始病历特征码提取方法、相似病历检索方法、相似度计算方法。特征码字典库:包含疾病分类、检验检查结论;疾病分类采用世界卫生组织《疾病和有关健康问题的国际统计分类(ICD-10)》分类和命名方法;而检验检查结论,因为还没有一个统一的标准,在本方法中将采用统计方法对病历库中的检验检查结论进行统计并标准化。字典库还包含每一个特征码的基本评分A=(分类疾病名称为20,检验检查结论为10分)。全文索引库:对病历库中的所有病历建立全文索引,全文索引的建立方法采用当前成熟的全文索引技术,而不同的是索引类别分为:诊断索引、检验检查索引和病历索引。诊断索引对应病历中的所有诊断结果,检验检查索引对应病历中的检验检查结论,病历索引对应病历中的所有内容。原始病历特征码提取方法:计算待查病历的特征码以及评分。使用全特征码集合对原始病历反向检索,获取命中的特征码、索引类别、是否出现“疑似”字串的集合。获得特征码集合{An},并对该集合每一个特征码计算参考评分Ca和总参考分Fa。这种反向特征码提取方法也可以预先设置好。相似病历检索方法:使用从原始病历提取的特征码集合{An},从全文索引库中检索匹配的所有病历,并计算命中的每个特征码计算得分C和总分F。相似度计算方法:计算每个被检索到的病历的相似度。1)原始病历的每一个特征码的参考评分:Ca=A*(疑似?0.5),原始病历的总参考评分为:Fa=∑(Ca)=∑(A*(疑似?0.5)),A为特征码的基本评分,(疑似?0.5)为如果出现疑似则乘0.5。2)被检索到的病历,每个特征码命中的得分:C=Ca*(索引类别≠原始特征码索引类别?0.5)。3)被检索到的病历总得分:F=∑(C)=∑(A*(疑似?0.5)*(索引类别≠原始特征码索引类别?0.5)),(疑似?0.5)为如果出现疑似则乘0.5,(索引类别≠原始特征码索引类别?0.5)为两份病历中的特征码所在的索引类别不一致则乘0.5。相似度¢=F/Fa。一种相似病历检索系统,它包括以下步骤:如图1①为病历库中的所有病历建立全文索引库,全文索引库的建立方法采用目前成熟的全文索引技术,其不同的是建立诊断索引、检验检查索引和病历索引。诊断索引对应病历中的所有诊断结果,检验检查索引对应病历中的检验检查结论,病历索引对应病历中的所有内容。②根据特征码字典库提取待查原始病历特征码。③计算提取的特征码的参考评分,以及该待查病历的总参考评分。④相似病历检索,并计算相似度;使用提取的特征码从全文索引库中检索相似病历,并根据相似度计算方法计算匹配的病历的相似度。⑤从原始病历库中读取相应的病历并输出。⑥对搜索到的相似病历按照相似度排序,并返回相似病历集合。本专利技术的有益效果:相似病历检索,利用全文搜索技术和相似病历计算方法,为进一步的医学病历研究、分析提供技术基础。并可以在本专利技术基础上,进一步扩展到医嘱、用药的相似度检索上去。附图说明图1相似病历检索系统及方法流程图具体实施方法实施例一:1)目标:检索某冠心病伴心肌缺血病历H的相似病历集{Hn},以进一步统计分析发病年龄和性别的分布。2)预先建立特征码字典和病历库的全文索引。3)提取待检索病历H的特征码集合{Ah}={冠心病:20,心肌缺血病:10},病历H的参考评分为30。4)使用{Ah}作为关键词从全文索引库中搜索病历,搜索到病历H1其全文索引中包含{冠心病,心肌缺血病}、病历H2其全文索引中包含{冠心病,梗塞}和病历H3其全文索引中包含{心肌炎,心肌缺血病}。5)计算相似度,H1的相似度H1¢=30/30=1;H2的相似度H2¢=20/30=0.667;H3的相似度H3¢=10/30=0.333。6)排序并输出相似病历集合{Hn}={H1:1,H2:0.667,H3:0.333}。7)对检索结果做进一步的医学统计分析。本专利技术未涉及部分均与现有技术相同或可采用现有技术加以实现。本文档来自技高网...
一种相似病历检索的系统及方法

【技术保护点】
一种相似病历检索的系统及方法,其特征在于,它包括原始病历特征码提取方法、相似病历检索方法和相似度计算方法。

【技术特征摘要】
1.一种病历检索方法,其特征在于,包括原始病历特征码提取方法、相似病历检索方法和相似度计算方法;特征码字典包含:疾病分类名称和检验检查结论,疾病名称采用ICD-10标准,特征码字典还包含每一个特征码的基本评分,基本评分设定为:疾病分类名称为20,检验检查结论为10;所述原始病历特征码提取方法包括特征码提取,特征码的提取基于全文搜索,采用特征码字典对原始病历反向检索,获得命中的特征码和索引类别的一个集合,获取的特征码集合包括特征码和特征码的参考评分Ca,Ca=A*(疑似?0.5),A为特征码的基本评分;所述...

【专利技术属性】
技术研发人员:胡敏吴俊王鹏蒋永
申请(专利权)人:中国人民解放军南京军区南京总医院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1