【技术实现步骤摘要】
一种将病历文本从自然语言转换为结构化元数据的方法
本专利技术属于医疗信息领域,具体涉及一种将病历文本从自然语言转换为结构化元数据的方法。
技术介绍
随着信息技术的发展和医疗信息化的建设,现在医院都在逐渐使用了结构化报告系统进行报告书写,但是输出到打印报告单上时,影像表现和诊断等信息显示形式单一,基本都是标签和值的形式,又或者是带数字和值的模式,显然这种形式不能应用于所有类型报告中,而国内的医院和各个系统需求又需要文本报告,那就需要医生再重新写一份报告,或者在标签和值的报告形式上进行修改,生成我们的自然语言报告,这样,就增加了医生的工作量,降低了效率。申请号为“CN201810375610.8”名称为“一种将预结构化数据生成医学报告的方法和系统”的专利采用封装模块进行文字替换达到生成不同结构化报告的目的,然而这种方法对于封装模块内的各字段文字描述无法单独编辑成医生惯用语句,对于医生体验而言仍不符合使用习惯。
技术实现思路
本专利技术的目的就是为了解决上述问题,提供这一种将病历文本从自然语言转化为结构化元数据的方法,为大数据分析提供基础的元数据支持。为了实现上述目的,本专 ...
【技术保护点】
1.一种将病历文本从自然语言转换为结构化元数据的方法,其特征在于,包括以下步骤:步骤一:从历史病例报告中提取该文本格式中具体器官、部位和术式的特征值文本,并对其进行特征值分析,得出特征字典;步骤二:从医院导出需要分析的历史检测报告,合并成为一个待处理数据集;步骤三:遍历该数据集患者病例,并根据特征值字典分词,截取该器官、部位或术式的说明;步骤四:将该部位截取的数据内容持久化至结构化的数据库中。
【技术特征摘要】
1.一种将病历文本从自然语言转换为结构化元数据的方法,其特征在于,包括以下步骤:步骤一:从历史病例报告中提取该文本格式中具体器官、部位和术式的特征值文本,并对其进行特征值分析,得出特征字典;步骤二:从医院导出需要分析的历史检测报告,合并成为一个待处理数据集;步骤三:遍历该数据集患者病例,并根据特征值字典分词,截取该器官、部位或术式的说明;步骤四:将该部位截取的数据内容持久化至结构化的数据库中。2.根据权利要求1所述的一种将病历文本从自然语言转换为结构化元数据的方法,其特征在于:所述步骤一特征值提取包括如下子步骤:1)导出一定量的检测报告,将检测报告合并后生成一个大的报告表格,表格内容中需要包括:内容,检查项目,病症,治疗方法;2)将每个检查项目对应的内容,进行中文分词处理,并将每个不重复的词语列出,并在其后对其统计出现次数后排序;3)将排序后得到的分词,经医生的删除和补充,得到该医院检查项目对应的内容的特征值字典;4)重复步骤2和3可以生成每一个检查项目对应的病症和治疗方法的特征值字典。3.根据权利要求1所述的一种将病历文本从自然语言转换为结构化元数据的方法,其特征在于:所述步骤二包括以下子步骤:5)导出历史数据,以合并的方式准备数据集;6)遍历数据集,并将导出的数据表合并,得到“住院号”、“患者姓名”、“患者年龄”、“就诊时间”、“内容”、“病症”、“检查项目”和“治疗方法”,其中“住院号”是患者本次检查的唯一标志,如果报告中的病症和治疗方法是写在一起的,治疗方法可以为空。4.根据权利要求1所述的一种将病历文本从自然语言转换为结构化元数据的方法,其特征在于:所述步骤三包括以下子步骤:7)生成检测报告“内容”的结构化数据内容:遍历数据集每位患者的检测报告,在遍历的每行数据中,取每条的“住院号”、“内容”和“检查项目”所在列的数据,根据“检测项目”,选择对应的特征值字典,根据特征值字典截取对应部位的说明;8)生成检测报告“病症”和“治疗方法”的结构化数据内容:遍历数据集每位患者的检测报告,在遍历的每行数据中,取每条的“住院号”、“病症”和“治疗方法”所在列的数据,如果出现了“术”字,且没有出现“术后”,则选择“病症”的特征值字典,...
【专利技术属性】
技术研发人员:曾凡,邰海军,黄锦,柯钦瑜,黄勇,段惠峰,
申请(专利权)人:河南通域医疗科技有限公司,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。