一种医疗数据标准化的方法及装置制造方法及图纸

技术编号:24519326 阅读:28 留言:0更新日期:2020-06-17 07:22
本公开提供了一种医疗数据的标准化方法,包括以下步骤:步骤一:采用NLP方法,对医疗数据进行分词,初步构建分词库;步骤二:在已构建所述分词库的模型基础上,输入医疗过程中产生的业务数据的名称,生成词向量并映射到标准表中,生成映射结果;计算所述业务数据与所述映射结果的相似度;步骤三:进行核查;对于不合理的映射结果,进行分词标注,追加分词到所述分词库中;步骤四:优化迭代,直至映射结果的相似度大于等于预设值,且符合医疗业务实际情况。本公开提供了临床医学术语构建分词和无用词表的方法;解决通常不具备大量医疗病历资源仍能进行医疗数据标准化的难题。

A method and device of medical data standardization

【技术实现步骤摘要】
一种医疗数据标准化的方法及装置
本公开属于医疗大数据处理的
,尤其涉及一种医疗数据的标准化方法及装置。
技术介绍
目前,在医疗数据处理中,医学名词术语的标准化是其中最重要的环节之一,决定着医疗数据信息共享的质量和利用的程度。在实际的临床诊疗过程中,产生大量的疾病诊断、手术操作、药品和医用耗材等名词术语,同一概念的文字表述方式也经常是多种多样的。标准化的过程就是将诊疗过程中的各种说法,映射为各种已有的医学标准。现有技术中对医学名词术语进行归一,一种是人工方法,这种方法效率低,时间成本高;而现在流行的人工智能深度学习的方法,通常依赖于大量的训练样本,这需要万级以上的病历文本数据,这样的资源获取难度大,且训练样本的成本高,时间周期也较长。在不具备大量样本训练的条件下,如何准确且高效的对医疗数据进行标准化,是本公开所要解决的问题。
技术实现思路
为了解决上述技术问题中的至少一个,本公开提供了一种医疗数据的标准化方法。根据本公开的一个方面,一种医疗数据的标准化方法包括:步骤一:采用自然语言处理(NLP,NatureLanguageprocessing)方法,对医疗数据进行分词,初步构建分词库;步骤二:在已构建所述分词库的模型基础上,输入医疗过程中产生的业务数据的名称,采用词频算法模型,生成词向量并映射到标准表中,生成映射结果;采用余弦相似度方法,计算所述业务数据与所述映射结果的相似度;步骤三:若相似度小于预设值,则该映射结果不予考虑;若相似度大于等于预设值,进行人工核查,对于不合理的映射结果,进行分词标注,追加分词到所述分词库中;步骤四:对于不合理的映射结果,重复进行所述步骤二及所述步骤三,优化迭代,直至映射结果的相似度大于等于预设值,且符合医疗业务实际情况。根据本公开的至少一个实施方式,所述步骤一中,所述医疗数据包括医学名词术语、药品、医用耗材名称以及剂型规格中的一种或几种。根据本公开的至少一个实施方式,所述步骤二中,所述业务数据包括疾病、手术、药品、费用项目以及医用耗材中的一种或几种。根据本公开的至少一个实施方式,所述步骤三中,所述预设值为90%。根据本公开的至少一个实施方式,所述步骤三中,还包括同时建立无用词表,所述无用词表中的无用词为对映射结果起到干扰作用的词语;在后续步骤中,基于分词结果,程序会依据无用词表,去掉无用词表中有且在分词结果中出现的词,减少分词结果对映射关系相似度的负向影响,以提高映射相似度。本公开还提供了一种医疗数据的标准化处理装置,包括:分词库生成模块,用于采用自然语言处理方法对医疗数据进行分词并构建分词库;映射结果生成模块,用于将医疗过程中产生的业务数据映射到标准表中,并计算业务数据与映射结果的相似度;核查模块:用于对于相似度满足要求但不合理的映射结果,进行分词标注,追加分词到所述分词库中;优化迭代模块:用于将不合理的映射结果重复在映射结果生成模块及核查模块进行执行,直至映射结果的相似度大于等于预设值,且符合医疗业务实际情况。本公开还提供了一种储存介质,其上储存有计算机程序,所述程序被处理器执行时实现根据上述的医疗数据的标准化方法。本公开还提供了一种电子终端,包括:处理器;以及储存器,用于储存所述处理器的可执行指令;其中所述处理器配置为经由所述可执行指令按上述的医疗数据的标准化方法进行操作。附图说明附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。图1是本公开医疗数据的标准化处理装置的逻辑示意图。具体实施方式下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开。本公开揭示了一种医疗数据的标准化方法包括:步骤一:采用自然语言处理(NLP,NatureLanguageprocessing)方法,对医疗数据进行分词,初步构建分词库;所述医疗数据包括医学名词术语、药品、医用耗材名称、剂型规格、医疗服务项目等等。所述的分词库,是将医学标准或者医疗过程中的名词术语通过算法模型进行分词切割,形成分词结果,建立的分词库。例如构建的分词库可以包括不限于以下几种的分词库:(1)构建诊断疾病目录的分词库,包括疾病名称;(2)构建药品目录的分词库,含西药和中成药两部分,包括药品名称、剂型和规格;(3)构建医疗服务项目目录的分词库,包括编码和名称。步骤二:在已构建所述分词库的模型基础上,输入医疗过程中产生的业务数据的名称,采用词频算法模型,生成词向量并映射到标准表中,生成映射结果;采用余弦相似度方法,计算所述业务数据与所述映射结果的相似度;所述业务数据包括疾病、手术、药品、费用项目以及医用耗材中的一种或几种。所述标准表为依据国家发布的诊断疾病、医疗服务项目、药品及医用耗材等公开标准,结合业务,建立的标准数据表。本实施例中以诊断疾病目录为例,如表1所示,将业务数据来源的疾病名称(Nonstandard)输入模型,根据模型规则映射到标准表,生成映射结果(Standard),并计算得出业务数据与对应的标准表数据的映射关系相似度(Similarity)。表1诊断疾病目录的映射关系NonstandardStandardSimilarity急性丙型病毒性肝炎伴黄疸型急性黄疸型丙型病毒性肝炎0.96亚急性丙型病毒性肝炎,重型亚急性重型丙型病毒性肝炎0.96阵发性夜间血红蛋白尿伴再生障碍性贫血阵发性夜间性血红蛋白尿伴再生障碍性贫血0.972972973先天性单纯红细胞再生障碍性贫血先天性纯红细胞再生障碍性贫血0.965517241亨特氏综合征(Hunt's)亨特氏综合征(Hunt's)0.965517241其他皮肤和皮下组织的局部感染皮肤和皮下组织其他局部感染0.962962963慢性肾小球肾炎伴硬化性肾慢性肾小球肾炎伴硬化性肾炎0.96具有先天愚型儿史的妊娠监督具有先天愚型儿史妊娠监督0.96新生儿短暂性中性粒细胞减少病短暂性新生儿中性粒细胞减少0.962962963步骤三:设预设值为90%,若相似度小于90%,则该映射结果本文档来自技高网...

【技术保护点】
1.一种医疗数据的标准化方法,其特征在于,包括以下步骤:/n步骤一:采用NLP方法,对医疗数据进行分词,初步构建分词库;/n步骤二:在已构建所述分词库的模型基础上,输入医疗过程中产生的业务数据的名称,采用词频算法模型,生成词向量并映射到标准表中,生成映射结果;采用余弦相似度方法,计算所述业务数据与所述映射结果的相似度;/n步骤三:若相似度小于预设值,则该映射结果不予考虑;若相似度大于等于预设值,进行人工核查;对于不合理的映射结果,进行分词标注,追加分词到所述分词库中;/n步骤四:对于不合理的映射结果,重复进行所述步骤二及所述步骤三,优化迭代,直至映射结果的相似度大于等于预设值,且符合医疗业务实际情况。/n

【技术特征摘要】
1.一种医疗数据的标准化方法,其特征在于,包括以下步骤:
步骤一:采用NLP方法,对医疗数据进行分词,初步构建分词库;
步骤二:在已构建所述分词库的模型基础上,输入医疗过程中产生的业务数据的名称,采用词频算法模型,生成词向量并映射到标准表中,生成映射结果;采用余弦相似度方法,计算所述业务数据与所述映射结果的相似度;
步骤三:若相似度小于预设值,则该映射结果不予考虑;若相似度大于等于预设值,进行人工核查;对于不合理的映射结果,进行分词标注,追加分词到所述分词库中;
步骤四:对于不合理的映射结果,重复进行所述步骤二及所述步骤三,优化迭代,直至映射结果的相似度大于等于预设值,且符合医疗业务实际情况。


2.如权利要求1所述的标准化方法,其特征在于,所述步骤一中,所述医疗数据包括医学名词术语、药品、医用耗材名称以及剂型规格中的一种或几种。


3.如权利要求1所述的标准化方法,其特征在于,所述步骤二中,所述业务数据包括疾病、手术、药品、费用项目以及医用耗材中的一种或几种。


4.如权利要求1所述的标准化方法,其特征在于,所述步骤三中,所述预设值为90%。

...

【专利技术属性】
技术研发人员:孟继虹孙龙超唐劭张斌孙宇浩
申请(专利权)人:北京亚信数据有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1