医疗文本特征提取与自动匹配方法和系统技术方案

技术编号：19424902 阅读：17 留言：0更新日期：2018-11-14 10:32

本公开涉及医疗文本特征提取与自动匹配方法和系统，所述方法包括：步骤1、从外部输入的医疗数据中提取医疗文本，并对医疗文本进行分词处理，得到待与规范词表中的规范词进行匹配的医疗词语；步骤2、对于每个医疗词语，通过词向量化操作，获得医疗词语中的每个语素所对应的N维向量，形成与医疗词语对应的M×N维矩阵，M为医疗词语中所包含的语素的数量；步骤3、将与医疗词语对应的M×N维矩阵降维为向量，生成降维后的向量；步骤4、分别计算降维后的向量与规范词表中的各个规范词所对应的向量的向量距离；步骤5、对计算出的向量距离从小到大进行排序，选取与降维后的向量的向量距离排序在前的一个或多个规范词，作为候选规范词。

全部详细技术资料下载

【技术实现步骤摘要】
医疗文本特征提取与自动匹配方法和系统
本专利技术涉及互联网服务
，尤其涉及一种医疗文本特征提取与自动匹配方法和系统。
技术介绍
外部医疗文本大数据与商业实体(例如保险机构)内部信息的对接问题是基于大数据、深度学习背景下健康领域的热门研究课题。其中，针对外部医疗数据，根据已有分类目标进行规范化划分在内外信息对接过程中起着十分重要的作用。由于医疗实体与普通实体区别较大，开放领域实体对一般语料信息的标注识别难以用于医疗文本，这是因为医疗术语的判断需要专业人士来进行，这大大提高了医疗文本识别和匹配的成本。目前，绝大多数传统方法都是基于搜索引擎、文本相似度、简单编辑距离等，辅以人工提取的规则进行运作，存在规则互斥、操作繁琐、效率极低、匹配率极低等问题。由于规则的广泛渗入，导致不同场景之间可移植性差，当需要进行场景切换时需要重铸规则代码，工作量庞大，不能满足后期决策模型的支持。而且由于海量的医疗大数据不断涌入，数量级已远超传统规则提取的掌控范围。深度学习在近几年取得了重大进展，它已经被证明能够发掘出高维数据中的复杂结构进行学习。词向量(wordembedding)是近年来常用来替代传统词袋(bagofword)的词表示方法，解决了词袋表示带来的维数灾难问题。然而，目前尚未见有报道基于词向量而进行医疗文本规范化匹配的技术手段。
技术实现思路
考虑到现有技术的上述问题，专利技术人做出了本专利技术，其用于实现医疗文本中字下语义识别的能力，提升模型泛化能力，在不同场景之间可以自由的切换，可移植性很强，大大减少了人力资源消耗。根据本专利技术的实施例，提供了一种医疗文本特征提取...

【技术保护点】
1.一种医疗文本特征提取与自动匹配方法，其特征在于包括以下步骤：步骤1、从外部输入的医疗数据中提取医疗文本，并对医疗文本进行分词处理，得到待与规范词表中的规范词进行匹配的医疗词语；步骤2、对于每个医疗词语，通过词向量化操作，获得所述医疗词语中的每个语素所对应的N维向量，形成与所述医疗词语对应的M×N维矩阵，其中，M为所述医疗词语中所包含的语素的数量；步骤3、将与所述医疗词语对应的M×N维矩阵降维为向量，生成降维后的向量；步骤4、分别计算所述降维后的向量与所述规范词表中的各个规范词所对应的向量的向量距离；步骤5、对计算出的向量距离从小到大进行排序，从所述规范词表的规范词中选取与所述降维后的向量的向量距离排序在前的一个或多个规范词，作为候选规范词。

【技术特征摘要】
1.一种医疗文本特征提取与自动匹配方法，其特征在于包括以下步骤：步骤1、从外部输入的医疗数据中提取医疗文本，并对医疗文本进行分词处理，得到待与规范词表中的规范词进行匹配的医疗词语；步骤2、对于每个医疗词语，通过词向量化操作，获得所述医疗词语中的每个语素所对应的N维向量，形成与所述医疗词语对应的M×N维矩阵，其中，M为所述医疗词语中所包含的语素的数量；步骤3、将与所述医疗词语对应的M×N维矩阵降维为向量，生成降维后的向量；步骤4、分别计算所述降维后的向量与所述规范词表中的各个规范词所对应的向量的向量距离；步骤5、对计算出的向量距离从小到大进行排序，从所述规范词表的规范词中选取与所述降维后的向量的向量距离排序在前的一个或多个规范词，作为候选规范词。2.根据权利要求1所述的医疗文本特征提取与自动匹配方法，其特征在于还包括以下步骤：步骤6、计算所述医疗词语与各个候选规范词之间的逻辑包含距离，将逻辑包含距离最小的候选规范词作为与所述医疗词语最终匹配的规范词。3.根据权利要求1所述的医疗文本特征提取与自动匹配方法，其特征在于还包括以下步骤：步骤6、计算所述医疗词语与各个候选规范词之间的编辑距离，将编辑距离最小的候选规范词作为所述医疗词语最终匹配的规范词。4.根据权利要求1所述的医疗文本特征提取与自动匹配方法，其特征在于还包括以下步骤：步骤6、计算所述医疗词语与各个候选规范词之间的逻辑包含距离和编辑距离，并将所述逻辑包含距离与所述编辑距离加权求和，将加权求和结果最大的候选规范词作为所述医疗词语最终匹配的规范词。5.根据权利要求1所述的医疗文本特征提取与自动匹配方法，其特征在于，在所述步骤3中，采用池化方法进行所述降维，所述池化方法为平均池化、最大池化、最小池化中的一种或几种，在采用平均池化、最大池化、最小池化中的一种时，将与所述医疗词语对应的M×N维矩阵降维为1×N维向量，作为所述降维后的向量，其中，在采用平均池化、最大池化、最小池化中的几种时，将池化后的向量级联...

【专利技术属性】
技术研发人员：陈娴娴，丁睿，汤时虎，
申请(专利权)人：平安医疗健康管理股份有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人