用于医疗行业数据标准化的方法及系统技术方案

技术编号：23558188 阅读：66 留言：0更新日期：2020-03-25 03:48

本申请公开了用于医疗行业数据标准化的方法及系统，其中所述方法包括：基于医疗行业语料库对待标化数据进行自然语言处理；确定处理后的待标化数据与标准数据是否存在唯一匹配关系；响应于处理后的待标化数据与标准数据不存在唯一匹配关系，分别计算一处理后的待标化数据与每一条标准数据的相似值；响应于确定一个或多个相似值高于第一阈值，将相应的一个或多个标准数据作为与待标化数据匹配的待定标准数据；及响应于确定一个或多个相似值低于第二阈值，确定没有与待标化数据匹配的标准数据。本发明专利技术使能提高医疗行业数据标准化准确率并降低人工干预比例，提高标准化效率。

Methods and systems for data standardization in medical industry

全部详细技术资料下载

【技术实现步骤摘要】
用于医疗行业数据标准化的方法及系统
本申请涉及电数字数据处理领域，尤其涉及用于医疗行业数据标准化的方法及系统。
技术介绍
医疗行业的大数据即将成为未来医院发展的必经之路，有助于推动医院的运营管理模式从“粗放式”走向“精细化”，从而提升医疗服务水平和核心竞争力。目前在运用大数据技术时面临诸多困难，其中包括医疗数据的来源多样化、标准不一致的困难。要实现医疗数据的标准化，目前一般存在以下两种方案。一种方案是人工对不同来源、标准不一的医疗数据进行标准化，这种方案准确率高但需要耗费巨大的人力成本与时间成本，并且可能需要依赖专业知识(例如药品、耗材的标准化情形)。另一种方案是将自然语言处理(NaturalLanguageProcessing,NLP)引入医疗数据标准化，通过分词、命名实体识别计算相似度，这种方案准确率很低，大量数据仍然需要人工比对。
技术实现思路
为了克服现有技术中存在的不足，本专利技术要解决的技术问题是提供一种用于医疗行业数据标准化的方法及系统，其使能提高医疗行业数据标准化的准确率，降低人工干预的比例。为解决上述技术问题，根据本专利技术的第一方面，提供用于医疗行业数据标准化的方法，该方法包括：基于医疗行业语料库对待标化数据进行自然语言处理；确定处理后的待标化数据与标准数据是否存在唯一匹配关系；响应于处理后的待标化数据与标准数据不存在唯一匹配关系，分别计算一处理后的待标化数据与每一条标准数据的相似值；响应于确定一个或多个相似值高于第一阈值，将相应的一个或...

【技术保护点】
1.用于医疗行业数据标准化的方法，其特征在于，所述方法包括：/n基于医疗行业语料库对待标化数据进行自然语言处理；/n确定处理后的待标化数据与标准数据是否存在唯一匹配关系；/n响应于处理后的待标化数据与标准数据不存在唯一匹配关系，分别计算一处理后的待标化数据与每一条标准数据的相似值；/n响应于确定一个或多个相似值高于第一阈值，将相应的一个或多个标准数据作为与待标化数据匹配的待定标准数据；及/n响应于确定一个或多个相似值低于第二阈值，确定没有与待标化数据匹配的标准数据。/n

【技术特征摘要】
1.用于医疗行业数据标准化的方法，其特征在于，所述方法包括：
基于医疗行业语料库对待标化数据进行自然语言处理；
确定处理后的待标化数据与标准数据是否存在唯一匹配关系；
响应于处理后的待标化数据与标准数据不存在唯一匹配关系，分别计算一处理后的待标化数据与每一条标准数据的相似值；
响应于确定一个或多个相似值高于第一阈值，将相应的一个或多个标准数据作为与待标化数据匹配的待定标准数据；及
响应于确定一个或多个相似值低于第二阈值，确定没有与待标化数据匹配的标准数据。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
响应于所述待定标准数据仅包含一个标准数据，将所述待定标准数据作为与待标化数据对应的标准数据并输出标准化结果；及
响应于所述待定标准数据包含两个以上标准数据，接收人工确认，及将人工确认的标准数据作为与待标化数据对应的标准数据并输出标准化结果。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：
响应于确定一个或多个相似值落在第二阈值与第一阈值形成的区间内，将相应的一个或多个标准数据作为与待标化数据疑似的疑似标准数据；
接收基于所述疑似标准数据的人工标准化结果及将其作为与待标化数据对应的标准数据并输出标准化结果。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：
在进行自然语言处理之前对待标化数据进行预处理，其中所述预处理包括去空处理、日期格式化处理、拼接和/或拆分处理。

5.根据权利要求1所述的方法，其特征在于，所述计算一处理后的待标化数据与每一条标准数据的相似值包括通过下式计算所述相似值：

其中，S指相似值，f为待标化数据经自然语言处理之后得到的每个词与一条标准数据中的对应标...

【专利技术属性】
技术研发人员：黄俊杰，齐昱，张聃，邵河山，王雨功，
申请(专利权)人：北京东软望海科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人