【技术实现步骤摘要】
一种数据驱动的从电子病历中提取信息的方法
[0001]本专利技术涉及电子病历信息提取
,特别涉及一种数据驱动的从电子病历中提取信息的方法。
技术介绍
[0002]电子病历(Electronic Medical Records,EMRs)中记录着许多有用信息,比如,关于疾病的描述、检查结果、具体的治疗方案和疗效等,这些信息将有助于医学专家们更清楚得地了解疾病的发展进程,从而找到更有效的治疗方法或者发掘某些医学需求的不足,然后从非结构化的电子病历文本中自动提取这些有用信息是相当错综复杂的过程,电子病历中的描述都是医师在对病人诊疗过程中记录下来的,因此具有简洁和个性化的特点,尽管病历记录有相应的实用书写标准,但由于医师们书写习惯或者先验知识的不同,记录的形式也会显著不同有时甚至可能发生错误记录。
[0003]此外,中文相对英文在语言复杂性上是显著增加的,而中国的医师们还经历过传统中医(TCM)的训练,书写习惯甚至可能更接近古文,想从中文电子病历中有效地提取信息,将面临更大的挑战,因此,现有的用于从新闻或者一般文学作品 ...
【技术保护点】
【技术特征摘要】
1.一种数据驱动的从电子病历中提取信息的方法,其特征在于,包括以下步骤:S1、对收集的核心词汇库进行有效扩充,构建一个全面的跨领域的词汇库;S2、利用词汇库去电子病历中提取包含时间
‑
医学事件
‑
描述这个三元组的结构化信息。2.根据权利要求1所述的一种数据驱动的从电子病历中提取信息的方法,其特征在于,构建的词汇库由核心词汇库及其扩充部分组成,其包含六种类型的医学事件:疾病、症状、药物、身体部位名称、疗程信息以及临床检测信息。3.根据权利要求2所述的一种数据驱动的从电子病历中提取信息的方法,其特征在于,对核心词汇库进行扩充的方法包括识别模式迭代法、动态术语组合法和方向型或者扩展型前缀法。4.根据权利要求3所述的一种数据驱动的从电子病历中提取信息的方法,其特征在于,所述识别模式迭代法包括以下步骤:1)从核心词汇库开始,在每一次的非监督迭代过程中,首先对整个电子病历主体进行扫描并鉴别出当前词汇库中还未被识别或者未包含被的词汇,然后选出其中比较可信的添加到当前词汇库中;2)用这些词汇构建一系列候选的新识别模式,最后再从中筛选出较为可靠的模式用于下一次迭代中新词汇的搜索,如此循环直到没有新词汇被鉴别到为止。5.根据权利要求4所述的一种数据驱动的从电子病历中提取信息的方法,其特征在于,所述动态术语组合法识别的不是一个个单独的词汇,而是词汇的组合,组合中每个独立的词汇可能都已经被包含在核心词汇库里了,但是它们组合后的词汇组往往没有被核心词汇库收录,这样的词汇组很多都以身体的某个部位作为前缀。6.根据权利要求5所述的一种数据驱动的从电子病历中提取信息的方法,其特征在于,所述方向型或者扩展型前缀法为对于词汇库中的一个已知术语,如果它前面三个字符是方向性或者扩展性的词汇,则将这个新的组合也添加到词汇库中并以该已知术语作为其标签。7.根据权利要求6所述的一种数据驱动的从电子病历中提取信息的方法,其特征在于,利用词汇库去电子病历中提取结构化的三元组信息中,信息提取的过程为如下步骤:1)首先用一种医学事件标记算法和一系列时间识别规则从电子病历文本中鉴别出医学术语和时间词汇;2)剩下的文本则被视为关于这些医学术语的候选描述,首先按照如下规则将其中明显不属于医学事件描述的句子去掉:A、如果句子中包含着前面提到的非医学事件的术语,比如“非恶寒”等;B、如果句子中包含病历中的一些常见用语,比如“入院”、“出院”、“住院”、“就诊”和“治疗”等;3)然后建立所有可能的“时间
‑
医学事件
‑
描述”三元组,再用一种二元的支持向量机(SVM)模型将这些三元组分类...
【专利技术属性】
技术研发人员:韦嘉,叶翔赟,
申请(专利权)人:上海基绪康生物科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。