一种病历中主诉与现病史症状时间一致性检测方法技术

技术编号:21629245 阅读:27 留言:0更新日期:2019-07-17 11:11
本发明专利技术实施例提出一种病历中主诉与现病史症状时间一致性检测方法,涉及医疗信息化技术领域。通过规则结合统计模型的方法,优化纯规则提取时间在有较长上下文依赖的情况下确定的准确率,在病历数据有限的状况下,传统统计模型对数据量依赖少于深度学习的模型方法。规则结合统计模型的方法在系统时间响应性能上优于复杂模型方法。具有时间一致性高、准确率高和效率高的优点。

A Method for Detecting the Time Consistency of Symptoms of Main Complaint and Current History in Medical Records

【技术实现步骤摘要】
一种病历中主诉与现病史症状时间一致性检测方法
本专利技术涉及医疗信息化
,具体而言,涉及一种病历中主诉与现病史症状时间一致性检测方法。
技术介绍
病历中主诉是患者自述的症状、体征、性质,以及持续时间等内容。现病史是围绕主诉的发生时间和特点描述病后全过程。主诉和现病史是住院病历或入院记录的重要部分,因此主诉和现病史中症状时间的检测是病历质量检查的重要内容。一般通用的做法,用规则或者模型提取症状和时间部分,然后基于规则将时间赋值给对应的症状,进行时间一致性比较。由于目前可获取的病历资源有限,病历中存在大量的专业术语,对单纯用统计模型的方法带来了限制。主诉和现病史中时间和症状的确定可以通过一系列句式模板进行提取,(类似模板:(时间)因(症状)入我院)),但是主诉和现病史中存在多种症状,每种症状对应的时间的确定可能会受其他症状时间的干扰。而且现病史描述详细,有些症状时间的确定依赖较长的上下文,对于单纯通过规则模板来确定时间的方法带来了一定困难。
技术实现思路
本专利技术的目的在于提供一种病历中主诉与现病史症状时间一致性检测方法,具有时间一致性高、准确率高和效率高的优点。为了实现上述目的,本专利技术实施例采用的技术方案如下:一种病历中主诉与现病史症状时间一致性检测方法,所述方法执行以下步骤:步骤1:对主诉中的症状关键词和时间关键词采固定的句式模板进行分词抽取;步骤2:通过CRF序列标注的方法确定现病史文本中存在的症状关键词和时间关键词,对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系;步骤3:对文本中的绝对时间和相对时间根据病历的记录时间计算出持续时间;步骤4:检测主诉和现病史中的症状是不是缺少时间,在都有时间的前提下,对主诉中的症状在现病史的症状中遍历,采用“身体部位+描述性+症状”的模板结合词向量相似度的方法,匹配最相似的症状,进行症状对齐,进而判断时间是否一致。进一步的,所述步骤1中:对主诉中的症状关键词和时间关键词采固定的句式模板进行分词抽取的方法执行以下步骤:利用预先构建的实体词典,在待抽取关键词的文档中进行匹配,得到实体词表;利用所述待抽取关键词的文档中各词条之间的共现关系,构建所述待抽取关键词的文档中各词条之间的关联关系矩阵;根据所述关联关系矩阵调整所述实体词表中各实体词的权重,得到关键词表;以及从所述关键词表中抽取关键词。进一步的,所述利用所述待抽取关键词的文档中各词条之间的共现关系,构建所述待抽取关键词的文档中各词条之间的关联关系矩阵之前,还包括:从与所述待抽取关键词的文档不同的其它文档中挖掘各词条的关联,得到所述其它文档词条间的关联权重;所述利用所述待抽取关键词的文档中各词条之间的共现关系,构建所述待抽取关键词的文档中各词条之间的关联关系矩阵的步骤包括:利用所述待抽取关键词的文档中所述各词条之间的共现关系,以及所述其它文档词条间的关联权重中与所述待抽取关键词的文档中的词条对应的词条间的关联权重构建所述关联关系矩阵。进一步的,所述步骤2中:通过CRF序列标注的方法确定现病史文本中存在的症状关键词和时间关键词,对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系的方法执行以下步骤:将待拆分文件拆分成标题文本和正文文本两部分并分别保存;采用CRF文本处理方式对所述标题文本进行处理得到文件名和分类分本之间的对应关系,根据每个分类目录下存储的文件名进行三级分词处理并对分词结果进行分类标注,并采用CRFlearn方法进行标题分类建模得到CRF模型;采用DEC文本处理方式对所述正文文本进行处理得到分词文本和分类分本之间的对应关系,根据每个分类目录下存储分词文本进行三级分词处理并对分词结果构建DEC张量并进行DEC类处理得到DEC模型;获取待分类文件并将其拆分成待分类标题文本和待分类正文文本两部分分别保存;将所述待分类标题文本进行三级分词处理并采用CRFtest方法调用所述CRF模型计算得出CRF分类结果;将所述待分类正文文本进行三级分词处理并构建DEC张量后调用所述DEC模型计算得出DEC分类结果;取所述CRF分类结果中的第一个和所述DEC分类结果中的前四个并进行去重处理得到分类结果并输出;根据输出结果确定现病史文本中存在的症状关键词和时间关键词,对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系。进一步的,所述获取原始文件并将其转换为txt格式并作为所述待拆分文件;基础语料层,其用于存储建立规则的DEC分类模型参数、CRF模板文件以及按类记录的标注语料文件;模型层,其用于根据所述建立规则的DEC分类模型参数、所述CRF模板文件以及所述按类记录的标注语料文件建立CRF模型和DEC规则模型;应用层,其用于接收用户输入的文本文件并根据所述CRF模型和所述DEC规则模型进行分类并将分类结果输出。本专利技术实施例提供的一种病历中主诉与现病史症状时间一致性检测方法,具有以下有益效果:通过规则结合统计模型的方法,优化纯规则提取时间在有较长上下文依赖的情况下确定的准确率,在病历数据有限的状况下,传统统计模型对数据量依赖少于深度学习的模型方法。规则结合统计模型的方法在系统时间响应性能上优于复杂模型方法。具有时间一致性高、准确率高和效率高的优点。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本专利技术实施例提供的病历中主诉与现病史症状时间一致性检测方法的方法流程示意图。具体实施方式下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本专利技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。实施例1:如图1所示,一种病历中主诉与现病史症状时间一致性检测方法,所述方法执行以下步骤:步骤1:对主诉中的症状关键词和时间关键词采固定的句式模板进行分词抽取;步骤2:通过CRF序列标注的方法确定现病史文本中存在的症状关键词和时间关键词,对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系;步骤3:对文本中的绝对时间和相对时间根据病历的记录时间计算出持续时间;步骤4:检测主诉和现病史中的症状是不是缺少时间,在都有时间的前提下,对主诉中的症状在现病史的症状中遍历,采用“身体部位+描述性+症状本文档来自技高网...

【技术保护点】
1.一种病历中主诉与现病史症状时间一致性检测方法,其特征在于,所述方法执行以下步骤:步骤1:对主诉中的症状关键词和时间关键词采固定的句式模板进行分词抽取;步骤2:通过CRF序列标注的方法确定现病史文本中存在的症状关键词和时间关键词,对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系;步骤3:对文本中的绝对时间和相对时间根据病历的记录时间计算出持续时间;步骤4:检测主诉和现病史中的症状是不是缺少时间,在都有时间的前提下,对主诉中的症状在现病史的症状中遍历,采用“身体部位+描述性+症状”的模板结合词向量相似度的方法,匹配最相似的症状,进行症状对齐,进而判断时间是否一致。

【技术特征摘要】
1.一种病历中主诉与现病史症状时间一致性检测方法,其特征在于,所述方法执行以下步骤:步骤1:对主诉中的症状关键词和时间关键词采固定的句式模板进行分词抽取;步骤2:通过CRF序列标注的方法确定现病史文本中存在的症状关键词和时间关键词,对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系;步骤3:对文本中的绝对时间和相对时间根据病历的记录时间计算出持续时间;步骤4:检测主诉和现病史中的症状是不是缺少时间,在都有时间的前提下,对主诉中的症状在现病史的症状中遍历,采用“身体部位+描述性+症状”的模板结合词向量相似度的方法,匹配最相似的症状,进行症状对齐,进而判断时间是否一致。2.如权利要求1所述的病历中主诉与现病史症状时间一致性检测方法,其特征在于,所述步骤1中:对主诉中的症状关键词和时间关键词采固定的句式模板进行分词抽取的方法执行以下步骤:利用预先构建的实体词典,在待抽取关键词的文档中进行匹配,得到实体词表;利用所述待抽取关键词的文档中各词条之间的共现关系,构建所述待抽取关键词的文档中各词条之间的关联关系矩阵;根据所述关联关系矩阵调整所述实体词表中各实体词的权重,得到关键词表;以及从所述关键词表中抽取关键词。3.如权利要求2所述的病历中主诉与现病史症状时间一致性检测方法,其特征在于,所述利用所述待抽取关键词的文档中各词条之间的共现关系,构建所述待抽取关键词的文档中各词条之间的关联关系矩阵之前,还包括:从与所述待抽取关键词的文档不同的其它文档中挖掘各词条的关联,得到所述其它文档词条间的关联权重;所述利用所述待抽取关键词的文档中各词条之间的共现关系,构建所述待抽取关键词的文档中各词条之间的关联关系矩阵的步骤包括:利用所述待抽取关键词的文档中所述各词条之间的共现关系,以及所述其它文档词条间的关联权重中与所述待抽取关键词的文档中的词条对应的词条间的关联权重构建所述关联关系矩阵。4.如权利要求1所述的病...

【专利技术属性】
技术研发人员:何方腾
申请(专利权)人:云知声上海智能科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1