临床术语挖掘方法、装置、电子设备及计算机可读介质制造方法及图纸

技术编号:20680781 阅读:14 留言:0更新日期:2019-03-27 18:50
本发明专利技术涉及一种临床术语挖掘方法、装置、电子设备及计算机可读介质。该方法包括:对待处理数据进行分类,并根据分类后数据进行采样得到采样样本,其中待处理数据中包括临床病例文本;通过载入术语词典、知识规则和约束以及进行模板抽取与术语抽取,并根据采样样本和种子词按照预设算法对术语词典进行迭代更新;判断是否满足迭代终止条件,如果满足迭代终止条件,则终止迭代,得到挖掘出的术语词表,并将术语词表添加到术语词典中。本发明专利技术针对临床术语挖掘任务,对模板的评分方法、种子词的扩充方法、模板的生成方法、规则冲突的消解方法、人工交互和校对进行改进,相比于经典算法在临床术语挖掘任务上能取得更好的效果。

【技术实现步骤摘要】
临床术语挖掘方法、装置、电子设备及计算机可读介质
本专利技术涉及医疗信息处理领域,具体而言,涉及一种临床术语挖掘方法、装置、电子设备及计算机可读介质。
技术介绍
目前,各大医院均采用电子病历代理传统手写病历,电子病历记录了海量真实而丰富的临床数据,是临床医生长期实践和经验的总结,可用于支持临床辅助决策、流行病学统计、临床科研和药物研发等。然而电子病历中仍然存在大量基于自然语言的非结构化文本,这部分数据要能被计算机利用和理解应用,需要基于临床自然语言处理进行结构化信息抽取。另一方面,不同医院、不同学科、不同医生对于病历和临床术语的记录,在表达方式和书写习惯上也会有不同,给病历信息抽取带来挑战。传统经典的信息抽取任务一般分为命名术语识别和术语关系识别两个步骤。例如,目前采用命名术语挖掘和识别的经典方法对电子病历进行信息提取,主要有以下几类:1.基于词表的方法:其中词表的挖掘主要来源于教科书、专业词典、医学标准术语体系(如ICD9、Mesh、SnomedCT)、医疗垂直网站等。然而,基于上述来源的医学术语,与真实电子病历中的临床术语存在较大的差异,在术语覆盖面、层次粒度等方面都存在严重不足。2.词表与人工规则结合的方法:人工规则的优势是效率高、简洁可解释,抽取准确率高。然而,人工规则是依赖小样本分析和人工经验的总结,难以分析大规模样本,存在覆盖率不足的问题;另外,大规模真实临床数据的处理,必然要面对跨医院跨病种的临床数据,数据分布和领域的差异可能导致人工规则出现错误和失配。3.基于模型的机器学习的方法:该方法主要把命名术语识别任务建模成序列预测问题,采用条件随机场(CRF)、循环神经网络(RNN)、长短期记忆网络(LSTM)等序列标注模型识别术语的开始和结束边界。该方法的优势是在独立同分布的任务和数据上,拥有较好的泛化性能。在满足条件的多个任务和数据集上,机器学习都取得了比人工规则更好的效果。然而,基于机器学习的方法一方面依赖大量标注数据,另一方面面对跨医院跨病种(非独立同分布)的真实临床数据存在泛化推广性问题。此外,目前主流的机器学习术语识别方法,准确率大多在90%左右,还不足以满足严谨精准为特点的临床学科需求。综上所述,现有实施例中提供的方法仍然存在一定缺陷,如:传统的基于词典的方法,由于术语的来源和规范性,难以覆盖真实临床数据,层次粒度不足。人工规则难以分析海量数据,存在覆盖率不足问题;此外,人工规则在新数据集上,需要不断重复总结新的适配规则。基于模型的机器学习的方法应用也存在挑战和瓶颈,首先是真实临床数据存在跨医院跨病种的特点,泛化推广性能存在挑战;其次,医疗数据标注依赖专家知识,导致标注成本高、标注效率低、标注质量和一致性难以保障,使得大规模训练数据获取困难;同时,目前主流学习方法的效果指标,也难以达到医学要求的精准性要求。因此,需要一种新的临床术语挖掘方法、装置、电子设备及计算机可读介质。在所述
技术介绍
部分公开的上述信息仅用于加强对本专利技术的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
有鉴于此,本专利技术提供一种临床术语挖掘方法、装置、电子设备及计算机可读介质,能够提高相关医学术语向标准表的对应成功率和准确率,减少人工标注量。本专利技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本专利技术的实践而习得。根据本专利技术的一方面,提出一种临床术语挖掘方法,该方法包括:对待处理数据进行分类,并根据分类后数据进行采样得到采样样本,其中所述待处理数据中包括临床病例文本;通过载入术语词典、知识规则和约束以及进行模板抽取与术语抽取,并根据所述采样样本和种子词按照预设算法对所述术语词典进行迭代更新;以及判断是否满足迭代终止条件,如果满足所述迭代终止条件,则终止迭代,得到挖掘出的术语词表,并将所述术语词表添加到所述术语词典中。在本专利技术的一种示例性实施例中,还包括:对待处理数据进行分类之前,还包括:对所述待处理数据进行预处理。在本专利技术的一种示例性实施例中,对所述待处理数据进行预处理包括:对所述临床病例文本中的非法字符进行清理和替换;对所述临床病例文本进行规范化处理;对所述临床病例文本进行片段切分、去重和频次统计。在本专利技术的一种示例性实施例中,所述临床术语文本中包括简单文本和复杂文本,所述对待处理数据进行分类包括:对所述简单文本按照不同字段来源进行分类;对所述复杂文本进行切分得到文本片段,对所述文本片段按照预设规则或分类器进行分类。在本专利技术的一种示例性实施例中,根据所述采样样本和种子词按照预设算法对所述术语词典进行迭代更新包括:获取初始化术语词典,所述初始化术语词典为包含初始术语的词典;判断目标类型术语词是否出现在所述初始化术语词典中,如果所述目标类型术语词出现在所述初始化术语词典中,则复用所述种子词作为启动的种子词;如果所述目标类型术语词未出现在所述初始化术语词典中,则根据所述采样样本分析并生成代表性种子词;根据所述知识规则和约束进行所述模板抽取和所述术语抽取。在本专利技术的一种示例性实施例中,所述模板抽取包括:使用指定来源和分类的文本字段的代表性样本作为输入,使用目标类型种子词、所述知识规则和约束统计分析上下文;对分析后的所述上下文进行频繁模式挖掘;对挖掘所得频繁模式进行分组和冲突消解,生成所述抽取模板;对所述抽取模板进行综合加权,输出加权得分最高的抽取模板完成模板抽取。在本专利技术的一种示例性实施例中,所述术语抽取包括:使用指定来源和分类的文本字段的全部样本作为输入,使用所述得分最高的抽取模板抽取候选术语词;对候选术语词进行综合打分;输出打分最高的术语词完成术语抽取。在本专利技术的一种示例性实施例中,所述迭代终止条件为以下任一情况:种子词数量高于第一预设数量;或迭代次数超过预设次数;或新增有效术语的数量低于第二预设数量。在本专利技术的一种示例性实施例中,判断是否满足迭代终止条件还包括:如果不满足所述迭代终止条件,且所述种子词数量少于阈值,则增量标注和添加头部术语作为种子词表,更新所述术语词典后作为所述初始化术语词典进行迭代;如果不满足所述迭代终止条件,且更新所述规则和约束。在本专利技术的一种示例性实施例中,还包括:对所述采样样本随机选取部分进行人工标注生成评估集合;根据所述术语词表在所述评估集合中计算准确率和召回率;如果所述准确率和所述召回率均未达到预设标准,则基于全量标注的术语更新所述术语词表;如果所述准确率和所述召回率均已达到所述预设标准,则终止挖掘。根据本专利技术的一方面,提出一种临床术语挖掘装置,该装置包括:分类模块,用于对待处理数据进行分类,并根据分类后数据进行采样得到采样样本,其中所述待处理数据中包括临床病例文本;更新模块,用于通过载入术语词典、知识规则和约束以及进行模板抽取与术语抽取,并根据所述采样样本和种子词按照预设算法对所述术语词典进行迭代更新;迭代终止模块,用于判断是否满足迭代终止条件,如果满足所述迭代终止条件,则终止迭代,得到挖掘出的术语词表,并将所述术语词表添加到所述术语词典中。根据本专利技术的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。根据本文档来自技高网
...

【技术保护点】
1.一种临床术语挖掘方法,其特征在于,包括:对待处理数据进行分类,并根据分类后数据进行采样得到采样样本,其中所述待处理数据中包括临床病例文本;通过载入术语词典、知识规则和约束以及进行模板抽取与术语抽取,并根据所述采样样本和种子词按照预设算法对所述术语词典进行迭代更新;以及判断是否满足迭代终止条件,如果满足所述迭代终止条件,则终止迭代,得到挖掘出的术语词表,并将所述术语词表添加到所述术语词典中。

【技术特征摘要】
1.一种临床术语挖掘方法,其特征在于,包括:对待处理数据进行分类,并根据分类后数据进行采样得到采样样本,其中所述待处理数据中包括临床病例文本;通过载入术语词典、知识规则和约束以及进行模板抽取与术语抽取,并根据所述采样样本和种子词按照预设算法对所述术语词典进行迭代更新;以及判断是否满足迭代终止条件,如果满足所述迭代终止条件,则终止迭代,得到挖掘出的术语词表,并将所述术语词表添加到所述术语词典中。2.如权利要求1所述的方法,其特征在于,对待处理数据进行分类之前,还包括:对所述待处理数据进行预处理。3.如权利要求1所述的方法,其特征在于,所述临床术语文本中包括简单文本和复杂文本,所述对待处理数据进行分类包括:对所述简单文本按照不同字段来源进行分类;对所述复杂文本进行切分得到文本片段,对所述文本片段按照预设规则或分类器进行分类。4.如权利要求1所述的方法,其特征在于,根据所述采样样本和种子词按照预设算法对所述术语词典进行迭代更新包括:获取初始化术语词典,所述初始化术语词典为包含初始术语的词典;判断目标类型术语词是否出现在所述初始化术语词典中,如果所述目标类型术语词出现在所述初始化术语词典中,则复用所述种子词作为启动的种子词;如果所述目标类型术语词未出现在所述初始化术语词典中,则根据所述采样样本分析并生成代表性种子词;根据所述知识规则和约束进行所述模板抽取和所述术语抽取。5.如权利要求1所述的方法,其特征在于,所述模板抽取包括:使用指定来源和分类的文本字段的代表性样本作为输入,使用目标类型种子词、所述知...

【专利技术属性】
技术研发人员:田振华
申请(专利权)人:天津开心生活科技有限公司天津新开心生活科技有限公司
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1