用于将医疗非标准名称标准化的方法及装置制造方法及图纸

技术编号:21481605 阅读:27 留言:0更新日期:2019-06-29 05:44
本发明专利技术提供了一种用于将医疗非标准名称标准化的方法及装置,涉及医疗、数据分析技术领域,能够提高非标准名称标准化的准确性。其中该方法包括:收集标准名称相关数据和待标准化名称;利用标准名称相关数据训练DL词向量模型和TF‑IDF统计模型;根据DL词向量模型计算待标准化名称与每个标准名称的DL词向量相似度Ai,根据TF‑IDF统计模型计算待标准化名称与每个标准名称的TF‑IDF相似度Bi,根据Ai和Bi计算综合相似度Ci,选择Ci最大的标准名称作为待标准化名称的标准名称。上述方法应用于将医疗非标准名称转化为标准名称的过程中。

【技术实现步骤摘要】
用于将医疗非标准名称标准化的方法及装置
本专利技术涉及医疗、数据分析领域,尤其涉及一种用于将医疗非标准名称标准化的方法及装置。
技术介绍
在医疗领域中存在着严重的数据混乱问题,主要表现为:医生为了节省时间能够处理更多病患,在填写病历以及开立医嘱时使用了大量的简称或口语型描述性用语,导致针对医疗数据的深入分析难以进行。因此,需要将医生用语(即医疗非标准名称)转化为标准名称,即将非标准名称标准化。目前进行非标准名称标准化的主要方法是:建立医疗标准名称的TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆向文件频率)统计模型,根据TF-IDF统计模型获得各标准名称的TF-IDF特征和待标准化名称的TF-IDF特征,然后对比待标准化名称的TF-IDF特征与每个标准名称的TF-IDF特征的相似度,选择最相似的标准名称作为该待标准化名称的标准名称。其中,TF-IDF统计模型是一种用于信息检索与数据挖掘的常用加权技术。TF即词频,是指词汇在某个名称中出现的频率;IDF即逆向文件频率,是指包含某个词汇的名称越多,则这个词汇的区分能力越差,反之越大。TF本文档来自技高网...

【技术保护点】
1.一种用于将医疗非标准名称标准化的方法,其特征在于,所述方法包括以下步骤:S1:收集标准名称相关数据和待标准化名称,其中所述标准名称数据包括:医疗领域中的标准名称与非标准名称的对应关系数据,和医疗领域中的文本数据;S2:利用所述标准名称相关数据,训练DL词向量模型和TF‑IDF统计模型;S3:根据所述DL词向量模型,计算所述待标准化名称与所述标准名称相关数据中的每个标准名称的DL词向量相似度Ai;根据所述TF‑IDF统计模型,计算所述待标准化名称与所述标准名称相关数据中的每个标准名称的TF‑IDF相似度Bi;根据Ai和Bi,计算所述待标准化名称与所述每个标准名称的综合相似度Ci,选择Ci最大...

【技术特征摘要】
1.一种用于将医疗非标准名称标准化的方法,其特征在于,所述方法包括以下步骤:S1:收集标准名称相关数据和待标准化名称,其中所述标准名称数据包括:医疗领域中的标准名称与非标准名称的对应关系数据,和医疗领域中的文本数据;S2:利用所述标准名称相关数据,训练DL词向量模型和TF-IDF统计模型;S3:根据所述DL词向量模型,计算所述待标准化名称与所述标准名称相关数据中的每个标准名称的DL词向量相似度Ai;根据所述TF-IDF统计模型,计算所述待标准化名称与所述标准名称相关数据中的每个标准名称的TF-IDF相似度Bi;根据Ai和Bi,计算所述待标准化名称与所述每个标准名称的综合相似度Ci,选择Ci最大的标准名称作为所述待标准化名称的标准名称;其中,i=1~N,N为所述标准名称相关数据中所包括的标准名称的数量。2.根据权利要求1所述的方法,其特征在于,在步骤S1中,收集所述对应关系数据包括:采用网络爬虫技术,从医疗领域的开放知识库中获取包含标准名称及其缩写、英文名、别名、成分功效、疾病症状的描述信息,对所述描述信息进行数据解析,得到标准名称与非标准名称的对应关系数据;收集医院的医嘱数据和收费明细数据,对所述医嘱数据和所述收费明细数据进行关联,从中提取所述医嘱数据中所使用的非标准名称与所述收费明细数据中所使用的标准名称的对应关系数据。3.根据权利要求1所述的方法,其特征在于,在步骤S1中,所述文本数据包括:病历、疾病、检查、检验的描述性文本信息数据。4.根据权利要求1所述的方法,其特征在于,在步骤S1与步骤S2之间,还包括:对所述标准名称相关数据和所述待标准化名称进行预处理;进行所述预处理包括:对待预处理的数据进行文本分词,将其分成若干词汇;对经过所述文本分词的数据进行词汇过滤,去除其中的停用词和低频词汇;对经过所述词汇过滤的数据进行同义词替换,将其中的每组同义词采用同一词汇表述。5.根据权利要求1所述的方法,其特征在于,在步骤S2中,在训练所述DL词向量模型的过程中,将其参数窗口大小调整为3。6.根据权利要求1所述的方法,其特征在于,在步骤S3中,所述根据所述DL词向量模型,计算所述待标准化名称与所述标准名称相关数据中的每个标准名称的DL词向量相似度Ai,包括:根据所述DL...

【专利技术属性】
技术研发人员:严君张永磊常剑於今
申请(专利权)人:北京亚信数据有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1