医疗文本特征提取与自动匹配方法和系统技术方案

技术编号:19424902 阅读:17 留言:0更新日期:2018-11-14 10:32
本公开涉及医疗文本特征提取与自动匹配方法和系统,所述方法包括:步骤1、从外部输入的医疗数据中提取医疗文本,并对医疗文本进行分词处理,得到待与规范词表中的规范词进行匹配的医疗词语;步骤2、对于每个医疗词语,通过词向量化操作,获得医疗词语中的每个语素所对应的N维向量,形成与医疗词语对应的M×N维矩阵,M为医疗词语中所包含的语素的数量;步骤3、将与医疗词语对应的M×N维矩阵降维为向量,生成降维后的向量;步骤4、分别计算降维后的向量与规范词表中的各个规范词所对应的向量的向量距离;步骤5、对计算出的向量距离从小到大进行排序,选取与降维后的向量的向量距离排序在前的一个或多个规范词,作为候选规范词。

【技术实现步骤摘要】
医疗文本特征提取与自动匹配方法和系统
本专利技术涉及互联网服务
,尤其涉及一种医疗文本特征提取与自动匹配方法和系统。
技术介绍
外部医疗文本大数据与商业实体(例如保险机构)内部信息的对接问题是基于大数据、深度学习背景下健康领域的热门研究课题。其中,针对外部医疗数据,根据已有分类目标进行规范化划分在内外信息对接过程中起着十分重要的作用。由于医疗实体与普通实体区别较大,开放领域实体对一般语料信息的标注识别难以用于医疗文本,这是因为医疗术语的判断需要专业人士来进行,这大大提高了医疗文本识别和匹配的成本。目前,绝大多数传统方法都是基于搜索引擎、文本相似度、简单编辑距离等,辅以人工提取的规则进行运作,存在规则互斥、操作繁琐、效率极低、匹配率极低等问题。由于规则的广泛渗入,导致不同场景之间可移植性差,当需要进行场景切换时需要重铸规则代码,工作量庞大,不能满足后期决策模型的支持。而且由于海量的医疗大数据不断涌入,数量级已远超传统规则提取的掌控范围。深度学习在近几年取得了重大进展,它已经被证明能够发掘出高维数据中的复杂结构进行学习。词向量(wordembedding)是近年来常用来替代传统词袋(bagofword)的词表示方法,解决了词袋表示带来的维数灾难问题。然而,目前尚未见有报道基于词向量而进行医疗文本规范化匹配的技术手段。
技术实现思路
考虑到现有技术的上述问题,专利技术人做出了本专利技术,其用于实现医疗文本中字下语义识别的能力,提升模型泛化能力,在不同场景之间可以自由的切换,可移植性很强,大大减少了人力资源消耗。根据本专利技术的实施例,提供了一种医疗文本特征提取与自动匹配方法,其特征在于包括以下步骤:步骤1、从外部输入的医疗数据中提取医疗文本,并对医疗文本进行分词处理,得到待与规范词表中的规范词进行匹配的医疗词语;步骤2、对于每个医疗词语,通过词向量化操作,获得所述医疗词语中的每个语素所对应的N维向量,形成与所述医疗词语对应的M×N维矩阵,其中,M为所述医疗词语中所包含的语素的数量;步骤3、将与所述医疗词语对应的M×N维矩阵降维为向量,生成降维后的向量;步骤4、分别计算所述降维后的向量与所述规范词表中的各个规范词所对应的向量的向量距离;步骤5、对计算出的向量距离从小到大进行排序,从所述规范词表的规范词中选取与所述降维后的向量的向量距离排序在前的一个或多个规范词,作为候选规范词。根据本专利技术的实施例,所述方法还包括以下步骤:步骤6、计算所述医疗词语与各个候选规范词之间的逻辑包含距离,将逻辑包含距离最小的候选规范词作为与所述医疗词语最终匹配的规范词。根据本专利技术的实施例,可选地,所述方法还包括以下步骤:步骤6、计算所述医疗词语与各个候选规范词之间的编辑距离,将编辑距离最小的候选规范词作为所述医疗词语最终匹配的规范词。根据本专利技术的实施例,可选地,所述方法还包括以下步骤:步骤6、计算所述医疗词语与各个候选规范词之间的逻辑包含距离和编辑距离,并将所述逻辑包含距离与所述编辑距离加权求和,得到加权求和结果最大的候选规范词,作为所述医疗词语最终匹配的规范词。根据本专利技术的实施例,在所述步骤3中,通过池化方法进行所述降维,所述池化方法为平均池化、最大池化、最小池化中的一种或几种,在采用平均池化、最大池化、最小池化中的一种时,将与所述医疗词语对应的M×N维矩阵降维为1×N维向量,作为所述降维后的向量,其中,在采用平均池化、最大池化、最小池化中的几种时,将池化后的向量级联,形成所述降维后的向量。根据本专利技术的实施例,在步骤1之后还包括:步骤1-1、通过文本比较,判定所述医疗词语与规范词表中的某个规范词是否完全相同,如果是,则直接将所述医疗词语匹配到所述规范词,结束本方法。根据本专利技术的实施例,所述规范词和所述医疗词语具有属性标注,在所述步骤4中,分别计算所述医疗词语所对应的降维后的向量与所述规范词表中的与所述医疗词语具有相同的属性标注的各个规范词所对应的向量的向量距离。根据本专利技术的实施例,所述向量距离为欧氏距离。根据本专利技术的实施例,还提供了一种用于执行所述方法的医疗文本特征提取与自动匹配系统,其特征在于包括分词模块、词向量化模块、降维模块、匹配模块,其中,所述分词模块用于从外部输入的医疗数据中提取医疗文本,并对医疗文本进行分词处理,得到待与规范词表中的规范词进行匹配的医疗词语;所述词向量化模块用于通过词向量化操作,获得所述医疗词语中的每个语素所对应的N维向量,形成M×N维矩阵,其中,M为所述医疗词语中所包含的语素的数量;所述降维模块用于将与所述医疗词语对应的M×N维矩阵降维为向量,生成降维后的向量;所述匹配模块用于:分别计算所述降维后的向量与所述规范词表中的各个规范词所对应的向量的向量距离;对计算出的向量距离从小到大进行排序,从所述规范词表的规范词中选取与所述降维后的向量的向量距离排序在前的一个或多个规范词,作为候选规范词;计算所述医疗词语与各个候选规范词之间逻辑包含距离和/或编辑距离,根据计算结果选择候选规范词中的一个作为与所述医疗词语最终匹配的规范词。根据本专利技术的实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有用于上述方法的程序,所述程序被处理器执行时,执行根据所述方法的步骤。本专利技术的有益效果主要在于:提高特征提取效率,实现了医疗文本中字下语义识别的能力,不基于规则的模型使得模型泛化能力极大提升,在不同场景之间可以自由的切换,可移植性很强,大大减少了人力资源消耗;我们在测试数据进行匹配时,原始数据集的直接匹配率不到8%,运用标准化自动匹配系统后匹配率能稳定在85%,基本无需人力支持;动态递增的数据结构规则化体系有助于及时反馈非中字字符信息,在循环反馈中达到识别效果的进一步提升;相比仅采用单一向量距离评价标准,效果有显著提升,同时,通过欧氏距离作为第一级筛选手段,大大减小了文本比较操作的数量,这意味着节约了计算资源,提高了计算速度;由于词向量无需标注工作,且蕴含了词汇的语义信息,能够大大减少人力资源消耗,减小了医疗术语需要专业人士进行的判别工作的负担和难度。附图说明图1为根据本专利技术的一个实施例的医疗文本特征提取与自动匹配方法的流程示意图;图2为根据本专利技术的另一个实施例的医疗文本特征提取与自动匹配方法的部分流程示意图;图3为根据本专利技术的另一个实施例的医疗文本特征提取与自动匹配方法的词向量化的概念示意图;图4为根据本专利技术的实施例的医疗文本特征提取与自动匹配系统的功能架构示意图;图5为根据本专利技术实施例的安装了应用程序的系统的运行环境的示意图。具体实施方式下面,结合附图对技术方案的实施作进一步的详细描述。本领域的技术人员能够理解,尽管以下的说明涉及到有关本专利技术的实施例的很多技术细节,但这仅为用来说明本专利技术的原理的示例、而不意味着任何限制。本专利技术能够适用于不同于以下例举的技术细节之外的场合,只要它们不背离本专利技术的原理和精神即可。另外,为了避免使本说明书的描述限于冗繁,在本说明书中的描述中,可能对可在现有技术资料中获得的部分技术细节进行了省略、简化、变通等处理,这对于本领域的技术人员来说是可以理解的,并且这不会影响本说明书的公开充分性。下文中,将描述用于进行本专利技术的实施例。注意,将以下面的次序给出描述:1、专利技术构思的概要;2、医本文档来自技高网...

【技术保护点】
1.一种医疗文本特征提取与自动匹配方法,其特征在于包括以下步骤:步骤1、从外部输入的医疗数据中提取医疗文本,并对医疗文本进行分词处理,得到待与规范词表中的规范词进行匹配的医疗词语;步骤2、对于每个医疗词语,通过词向量化操作,获得所述医疗词语中的每个语素所对应的N维向量,形成与所述医疗词语对应的M×N维矩阵,其中,M为所述医疗词语中所包含的语素的数量;步骤3、将与所述医疗词语对应的M×N维矩阵降维为向量,生成降维后的向量;步骤4、分别计算所述降维后的向量与所述规范词表中的各个规范词所对应的向量的向量距离;步骤5、对计算出的向量距离从小到大进行排序,从所述规范词表的规范词中选取与所述降维后的向量的向量距离排序在前的一个或多个规范词,作为候选规范词。

【技术特征摘要】
1.一种医疗文本特征提取与自动匹配方法,其特征在于包括以下步骤:步骤1、从外部输入的医疗数据中提取医疗文本,并对医疗文本进行分词处理,得到待与规范词表中的规范词进行匹配的医疗词语;步骤2、对于每个医疗词语,通过词向量化操作,获得所述医疗词语中的每个语素所对应的N维向量,形成与所述医疗词语对应的M×N维矩阵,其中,M为所述医疗词语中所包含的语素的数量;步骤3、将与所述医疗词语对应的M×N维矩阵降维为向量,生成降维后的向量;步骤4、分别计算所述降维后的向量与所述规范词表中的各个规范词所对应的向量的向量距离;步骤5、对计算出的向量距离从小到大进行排序,从所述规范词表的规范词中选取与所述降维后的向量的向量距离排序在前的一个或多个规范词,作为候选规范词。2.根据权利要求1所述的医疗文本特征提取与自动匹配方法,其特征在于还包括以下步骤:步骤6、计算所述医疗词语与各个候选规范词之间的逻辑包含距离,将逻辑包含距离最小的候选规范词作为与所述医疗词语最终匹配的规范词。3.根据权利要求1所述的医疗文本特征提取与自动匹配方法,其特征在于还包括以下步骤:步骤6、计算所述医疗词语与各个候选规范词之间的编辑距离,将编辑距离最小的候选规范词作为所述医疗词语最终匹配的规范词。4.根据权利要求1所述的医疗文本特征提取与自动匹配方法,其特征在于还包括以下步骤:步骤6、计算所述医疗词语与各个候选规范词之间的逻辑包含距离和编辑距离,并将所述逻辑包含距离与所述编辑距离加权求和,将加权求和结果最大的候选规范词作为所述医疗词语最终匹配的规范词。5.根据权利要求1所述的医疗文本特征提取与自动匹配方法,其特征在于,在所述步骤3中,采用池化方法进行所述降维,所述池化方法为平均池化、最大池化、最小池化中的一种或几种,在采用平均池化、最大池化、最小池化中的一种时,将与所述医疗词语对应的M×N维矩阵降维为1×N维向量,作为所述降维后的向量,其中,在采用平均池化、最大池化、最小池化中的几种时,将池化后的向量级联...

【专利技术属性】
技术研发人员:陈娴娴丁睿汤时虎
申请(专利权)人:平安医疗健康管理股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1