电子病历信息提取方法、装置和设备制造方法及图纸

技术编号:20047586 阅读:50 留言:0更新日期:2019-01-09 05:02
本申请提供了一种电子病历信息提取方法、装置和设备,涉及数据处理技术领域,其中,本申请提供的电子病历信息提取方法、装置和设备,对待处理电子病历进行分词和词性标注处理,得到各分词的词性;根据各分词的词性,采用特征模板分别对各分词进行上下文特征提取,得到各分词的上下文特征;根据各分词的上下文特征,采用BIEO标注方式分别对各分词进行命名实体标注,得到各分词的命名实体标注信息;根据各分词的命名实体标注信息,从待处理电子病历中提取出命名实体,使自由无序的电子病历得以进行规范得整理和记录,有利于参考者快速查阅。

【技术实现步骤摘要】
电子病历信息提取方法、装置和设备
本申请涉及数据处理
,尤其是涉及一种电子病历信息提取方法、装置和设备。
技术介绍
电子病历是在医疗活动过程中产生的重要临床信息资源,包含了大量与患者健康状况密切相关的医疗知识,从电子病历中抽取有用的信息将大大推动医疗事业的发展。电子病历记录了患者的疾病和症状、治疗过程和治疗效果,这些信息是重要的临床证据,为临床决策支持、循证医学实践和疾病监控等提供支持,从而提高医疗服务质量。由于目前大部分电子病历主要是医生根据自己的语言习惯对疾病问诊和治疗过程的记录,因此,现有的电子病历大都属于自由文本数据,不利于参考者进行快速查阅。
技术实现思路
有鉴于此,本申请的目的在于提供一种电子病历信息提取方法、装置和设备,可以提取出电子病历中的有效信息,保存至病历数据库中,使电子病历信息结构化,有利于参考者快速查阅。为了实现上述目的,本申请采用的技术方案如下:第一方面,本申请提供了一种电子病历信息提取方法,应用于加载有训练完成的CRF模型的设备,所述训练完成的CRF模型为预先采用电子病历训练语料依次对不同参数下的CRF模型进行训练,并采用电子病历测试语料对训练后的CRF本文档来自技高网...

【技术保护点】
1.一种电子病历信息提取方法,其特征在于,应用于加载有训练完成的CRF模型的设备,所述训练完成的CRF模型为预先采用电子病历训练语料依次对不同参数下的CRF模型进行训练,并采用电子病历测试语料对训练后的CRF模型进行测试,直至测试结果满足预设测试指标时得到的模型;所述方法包括:对待处理电子病历进行分词和词性标注处理,得到各分词的词性;根据各分词的词性,采用特征模板分别对各分词进行上下文特征提取,得到各分词的上下文特征,其中,一个分词的上下文特征与该一个分词的词性,该一个分词之前和/或之后的关联分词的词性相关联;根据各分词的上下文特征,采用BIEO标注方式分别对各分词进行命名实体标注,得到各分词...

【技术特征摘要】
1.一种电子病历信息提取方法,其特征在于,应用于加载有训练完成的CRF模型的设备,所述训练完成的CRF模型为预先采用电子病历训练语料依次对不同参数下的CRF模型进行训练,并采用电子病历测试语料对训练后的CRF模型进行测试,直至测试结果满足预设测试指标时得到的模型;所述方法包括:对待处理电子病历进行分词和词性标注处理,得到各分词的词性;根据各分词的词性,采用特征模板分别对各分词进行上下文特征提取,得到各分词的上下文特征,其中,一个分词的上下文特征与该一个分词的词性,该一个分词之前和/或之后的关联分词的词性相关联;根据各分词的上下文特征,采用BIEO标注方式分别对各分词进行命名实体标注,得到各分词的命名实体标注信息;根据各分词的命名实体标注信息,从所述待处理电子病历中提取出命名实体,其中,所述命名实体的类别至少包括以下任意一种或组合:疾病类、疾病诊断分类、症状类、检查类和治疗类。2.根据权利要求1所述的方法,其特征在于,所述采用电子病历训练语料依次对不同参数下的CRF模型进行训练,并采用电子病历测试语料对训练后的CRF模型进行测试,直至测试结果满足预设测试指标的步骤包括:对电子病历训练语料进行分词和词性标注,并根据预设的实体标注规范,标注电子病历训练语料,所述实体标注规范定义有命名实体的类别和命名实体标注方式;选择特征模板,并设置CRF模型的参数c和f的初始值;采用标注后的电子病历训练语料对CRF模型进行训练,得到训练后的CRF模型,并采用电子病历测试语料对训练后的CRF模型进行测试,得到测试结果;若测试结果不满足预设测试指标,则调整参数c和/或f值,再次执行上述训练和测试过程;若测试结果满足预设测试指标,则将此次训练后得到的CRF模型作为训练完成的CRF模型。3.根据权利要求2所述的方法,其特征在于,参数c的取值范围在1.3至1.7之间,参数f的取值范围在2至4之间。4.根据权利要求2或3所述的方法,其特征在于,所述预设测试指标包括以下指标中的任意一个或组合:准确率大于等于第一设定阈值,召回率大于等于第二设定阈值和F值大于等于第三阈值。5.根据权利要求1所述的方法,其特征在于,所述待处理电子病历为半结构化文本数据和/或非结构化文本数据的电子病历;所述特征模板为Unigram一元模板。6.一种电子病历信息提取装置,其特征在于,应用于加载有训练完成的CRF模型的设备,所述训练完成的CRF模型为预先采用电子病...

【专利技术属性】
技术研发人员:樊芳利
申请(专利权)人:新华三大数据技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1