一种医疗数据标准化的方法及装置制造方法及图纸

技术编号：24519326 阅读：28 留言：0更新日期：2020-06-17 07:22

本公开提供了一种医疗数据的标准化方法，包括以下步骤：步骤一：采用NLP方法，对医疗数据进行分词，初步构建分词库；步骤二：在已构建所述分词库的模型基础上，输入医疗过程中产生的业务数据的名称，生成词向量并映射到标准表中，生成映射结果；计算所述业务数据与所述映射结果的相似度；步骤三：进行核查；对于不合理的映射结果，进行分词标注，追加分词到所述分词库中；步骤四：优化迭代，直至映射结果的相似度大于等于预设值，且符合医疗业务实际情况。本公开提供了临床医学术语构建分词和无用词表的方法；解决通常不具备大量医疗病历资源仍能进行医疗数据标准化的难题。

A method and device of medical data standardization

全部详细技术资料下载

【技术实现步骤摘要】
一种医疗数据标准化的方法及装置
本公开属于医疗大数据处理的
，尤其涉及一种医疗数据的标准化方法及装置。
技术介绍
目前，在医疗数据处理中，医学名词术语的标准化是其中最重要的环节之一，决定着医疗数据信息共享的质量和利用的程度。在实际的临床诊疗过程中，产生大量的疾病诊断、手术操作、药品和医用耗材等名词术语，同一概念的文字表述方式也经常是多种多样的。标准化的过程就是将诊疗过程中的各种说法，映射为各种已有的医学标准。现有技术中对医学名词术语进行归一，一种是人工方法，这种方法效率低，时间成本高；而现在流行的人工智能深度学习的方法，通常依赖于大量的训练样本，这需要万级以上的病历文本数据，这样的资源获取难度大，且训练样本的成本高，时间周期也较长。在不具备大量样本训练的条件下，如何准确且高效的对医疗数据进行标准化，是本公开所要解决的问题。
技术实现思路
为了解决上述技术问题中的至少一个，本公开提供了一种医疗数据的标准化方法。根据本公开的一个方面，一种医疗数据的标准化方法包括：步骤一：采用自然语言处理(NLP，NatureLanguageprocessing)方法，对医疗数据进行分词，初步构建分词库；步骤二：在已构建所述分词库的模型基础上，输入医疗过程中产生的业务数据的名称，采用词频算法模型，生成词向量并映射到标准表中，生成映射结果；采用余弦相似度方法，计算所述业务数据与所述映射结果的相似度；步骤三：若相似度小于预设值，则该映射结果不予考虑；若相似度大于等于预设值，进行人工核查...

【技术保护点】
1.一种医疗数据的标准化方法，其特征在于，包括以下步骤：/n步骤一：采用NLP方法，对医疗数据进行分词，初步构建分词库；/n步骤二：在已构建所述分词库的模型基础上，输入医疗过程中产生的业务数据的名称，采用词频算法模型，生成词向量并映射到标准表中，生成映射结果；采用余弦相似度方法，计算所述业务数据与所述映射结果的相似度；/n步骤三：若相似度小于预设值，则该映射结果不予考虑；若相似度大于等于预设值，进行人工核查；对于不合理的映射结果，进行分词标注，追加分词到所述分词库中；/n步骤四：对于不合理的映射结果，重复进行所述步骤二及所述步骤三，优化迭代，直至映射结果的相似度大于等于预设值，且符合医疗业务实际情况。/n

【技术特征摘要】
1.一种医疗数据的标准化方法，其特征在于，包括以下步骤：
步骤一：采用NLP方法，对医疗数据进行分词，初步构建分词库；
步骤二：在已构建所述分词库的模型基础上，输入医疗过程中产生的业务数据的名称，采用词频算法模型，生成词向量并映射到标准表中，生成映射结果；采用余弦相似度方法，计算所述业务数据与所述映射结果的相似度；
步骤三：若相似度小于预设值，则该映射结果不予考虑；若相似度大于等于预设值，进行人工核查；对于不合理的映射结果，进行分词标注，追加分词到所述分词库中；
步骤四：对于不合理的映射结果，重复进行所述步骤二及所述步骤三，优化迭代，直至映射结果的相似度大于等于预设值，且符合医疗业务实际情况。

2.如权利要求1所述的标准化方法，其特征在于，所述步骤一中，所述医疗数据包括医学名词术语、药品、医用耗材名称以及剂型规格中的一种或几种。

3.如权利要求1所述的标准化方法，其特征在于，所述步骤二中，所述业务数据包括疾病、手术、药品、费用项目以及医用耗材中的一种或几种。

4.如权利要求1所述的标准化方法，其特征在于，所述步骤三中，所述预设值为90％。

...

【专利技术属性】
技术研发人员：孟继虹，孙龙超，唐劭，张斌，孙宇浩，
申请(专利权)人：北京亚信数据有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人