当前位置: 首页 > 专利查询>东北大学专利>正文

一种支持自定义实体的电子病历检索系统及方法技术方案

技术编号:16546999 阅读:92 留言:0更新日期:2017-11-11 11:46
本发明专利技术提供一种支持自定义实体的电子病历检索系统及方法,包括电子病历文本预处理单元,用于对电子病历进行预处理抽取出部分结构化信息并获得正文内容集;自定义实体识别单元,用于自定义实体名和通用词性标注标准,并获得词性标注数据集;实体合并提取单元,用于定义病历复合实体的构建规则,提取词性标注数据的多种诊疗信息,并与结构化信息合并构成多元信息。本发明专利技术的方法通过自定义实体名和通用词性标注标准对正文内容进行标注,获得分词数据集和词性标注数据集,并从词性标注数据集中提取重要诊疗信息与结构化信息合并形成多元信息,将该多元信息用于检索系统中,可方便医生更快速的查询既往病历并了解患者病情。

An electronic medical record retrieval system and method supporting custom entities

The present invention provides an electronic medical record support custom entity retrieval system and method, including the pretreatment unit of electronic medical records for text, electronic medical records were pretreated to extract structured information and obtain the content part set; custom entity recognition unit for self definition and general entity name tagging standard, and POS tagging data sets the combined entity; an extraction unit for constructing rule of compound entity definition records, a variety of medical information data extraction part of speech tagging, and form multi information and structured information merging. The method of the invention by custom entity name and the general standard of POS tagging text tagging, word segmentation and POS tagging data sets obtained from the data set, and POS tagging data set to extract important medical information and structured information with the formation of multiple information, the information retrieval system for multi element, is convenient for doctors to more rapid query anamnesis and understand the patient's condition.

【技术实现步骤摘要】
一种支持自定义实体的电子病历检索系统及方法
本专利技术属于电子病历文本处理
,具体涉及一种支持自定义实体的电子病历检索系统及方法。
技术介绍
目前,用于医学领域的检索大都为图像检索,许多图像搜索方法在除医学以外的领域使用与图像相关的索引术语,而不是单独的图像数据,后一种类型的图像搜索是基于语义的。然而医学图像中还含有丰富多样的信息内容及其对解剖结构的隐含知识,用于检索的数据的类可以扩展到包括非图像数据,如实验报告、生理测量,等等。这种特定领域的数据很大程度上取决于放射科医师的观察。目前用于表示这些观察/解释的方法是非结构化的自由文本报告。非影像临床资料储存在电子病历系统中。这样的数据,当关联到图像时,可以用来将图像存档计通信系统数据与相应的电子病历相关联。发展至今,信息抽取技术已有较为成熟的发展,但由于没有严格的控制术语的执行,也没有统一的病历书写规范,医学电子病历术语以及其表达形式多且复杂,基于这些报告的内容抽取与搜索是有限的。因此需要有效的方法将电子病历中的重要信息抽取出来,用来注释和标注图像数据。
技术实现思路
本专利技术提供一种支持自定义实体的电子病历检索系统及方法,提取非本文档来自技高网...
一种支持自定义实体的电子病历检索系统及方法

【技术保护点】
一种支持自定义实体的电子病历检索系统,其特征在于,包括:电子病历文本预处理单元,用于将同一个患者电子病历系统中的文本内容提取出来合并成一个非结构化文本,并对该非结构化文本进行数据清洗以提取出部分结构化信息并获得正文内容集;自定义实体识别单元,用于自定义实体名和通用词性标注标准,并对正文内容集的部分内容进行标注获得训练语料,根据训练语料构建分词模型得到分词数据集,根据训练语料和分词后的数据集构建词性标注模型并得到词性标注数据集;实体合并提取单元,用于选取一组诊疗信息,根据诊疗信息定义病历复合实体的构建规则,提取词性标注数据的诊断信息的内容,并与电子病历文本预处理单元中抽取的结构化信息合并构成多元...

【技术特征摘要】
1.一种支持自定义实体的电子病历检索系统,其特征在于,包括:电子病历文本预处理单元,用于将同一个患者电子病历系统中的文本内容提取出来合并成一个非结构化文本,并对该非结构化文本进行数据清洗以提取出部分结构化信息并获得正文内容集;自定义实体识别单元,用于自定义实体名和通用词性标注标准,并对正文内容集的部分内容进行标注获得训练语料,根据训练语料构建分词模型得到分词数据集,根据训练语料和分词后的数据集构建词性标注模型并得到词性标注数据集;实体合并提取单元,用于选取一组诊疗信息,根据诊疗信息定义病历复合实体的构建规则,提取词性标注数据的诊断信息的内容,并与电子病历文本预处理单元中抽取的结构化信息合并构成多元信息;文本摘要检索单元,用于将多元信息构成患者的文本摘要,创建多个索引用于分类别、分科室存放患者的文本摘要,检索时返回文本摘要以供查看。2.如权利要求1所述的支持自定义实体的电子病历检索系统,其特征在于,所述电子病历文本预处理单元包括:文本内容提取器,用于从患者电子病历系统中抽取出文本内容,并将同一个患者的多个文本内容合并成一个非结构化文本,多个患者的非结构化文本构成非结构化文本集;文本数据清洗器,用于利用正则表达式和停用词词典将非结构化文本中的乱码和不需要的符号、文字清洗去除;结构化数据提取器,用于将清洗后的非结构化文本的一部分内容结构化,抽取出多个患者的就诊时间、病历号、性别以及正文内容构成结构化信息,多个患者的正文内容构成正文内容集。3.如权利要求1所述的支持自定义实体的电子病历检索系统,其特征在于,所述自定义实体识别单元包括:实体名自定义器,用于自定义病历实体名、制定肿瘤领域特定实体名以及自定义通用词性标注标准;自定义分词器,用于从正文内容集中提取部分正文内容,根据自定义实体名和通用词性标注标准进行分词和词性标注,获得训练语料;根据训练语料构建分词模型并对正文内容集进行分词得到分词数据集;自定义词性标注器,用于根据训练语料和HMM模型构建词性标注模型,将分词数据集输入到词性标注模型,通过viterbi算法得到词性标注数据集。4.如权利要求1所述的支持自定义实体的电子病历检索系统,其特征在于,所述实体合并提取单元包括:实体规则自定义器,用于选取一组诊疗信息,并根据诊疗信息定义病历复合实体的构建规则;复合实体合并提取器,用于提取词性标注数据集中每个词性标注数据的诊疗信息,将诊疗信息与结构化信息合并构成多元信息,多个患者的多元信息构成多元信息组。5.如权利要求1所述的支持自定义实体的电子病历检索系统,其特征在于,所述文本摘要检索单元包括:文本摘要生成器,用于将多元信息构成患者的文本摘要;搜索引擎,采用基于向...

【专利技术属性】
技术研发人员:信俊昌张锦辉张陈苗立坤赵越
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1