解决医疗数据标准编码对照问题的映射处理系统及方法技术方案

技术编号:10651875 阅读:266 留言:0更新日期:2014-11-19 14:40
本发明专利技术提供一种解决医疗数据标准编码对照问题的映射处理系统及方法,该系统包括资源词库、目标值域库、模拟语义分词单元、模糊匹配单元、精确匹配单元、匹配表和人工管理单元;该方法包括:从医疗数据源获取数据,根据目标值域库存储的标准码或匹配表存储的存储映射匹配规则信息,对获取的数据进行精确匹配映射;对从数据源获取的数据进行模糊语义分析;对模拟语义分词结果进行模糊匹配处理,并生成映射匹配结果;根据匹配表中的映射匹配规则信息将医疗数据映射成标准码,生成医疗数据映射处理结果。本发明专利技术建立了一种自动化映射匹配的处理流程,通过模糊匹配、人工校验、机器训练等技术相结合的方式,实现映射匹配结果的较高准确性和匹配精度。

【技术实现步骤摘要】
解决医疗数据标准编码对照问题的映射处理系统及方法
本专利技术涉及数据处理
,具体涉及一种解决医疗数据标准编码对照问题的映射处理系统及方法。
技术介绍
在医疗数据的使用过程中,通常需要对数据值域内容进行匹配处理,将医疗数据值根据标准要求映射成其它值,即基于标准编码的映射处理。通常,该处理过程需要根据实际业务情况来进行手工配置,手工配置方式匹配效率低、匹配错误率高、工作量大,在实际业务数据匹配构建过程中无法根据实际情况进行快速构建。因此,需要一种可以实现高效、简便的映射处理方法来解决数据编码的标准化对照问题,可以基于已有的编码规则来快速实现数据编码标准化映射,而无需手工重新对照映射。
技术实现思路
针对现有技术存在的问题,本专利技术提供一种解决医疗数据标准编码对照问题的映射处理系统及方法。本专利技术的技术方案是:解决医疗数据标准编码对照问题的映射处理系统,包括:资源词库、目标值域库、模拟语义分词单元、模糊匹配单元、精确匹配单元、匹配表和人工管理单元;资源词库:存储有基础词汇和医疗专业词汇;目标值域库:用于存储标准码,即GB/T或医疗行业规范定义的编码值;模拟语义分词单元:包括分词模块、词库加载模块、词元处理模块、相似度评估模块和分析模块;所述分词模块用于采用最细粒度分词方式或智能分词方式对数据源提供的数据信息进行语义分解和分词切分处理;所述词库加载模块用于实现字典加载管理,对资源词库信息进行加载,将资源词库中的基础词汇和医疗专业词汇加载到缓存中,为词元处理模块提供词元信息;所述词元处理模块对词库加载模块提供的词元信息进行缓存,对中文词汇、数量词汇、字母词汇进行分类处理,并为分析模块提供词元支撑;所述相似度评估模块用于对分类处理后数据的相似度评估,得到相似度评估结果;所述分析模块用于对调度分词模块、相似度评估模块、词元处理模块进行协调调度,并将相似度评估结果作为模拟语义分词结果输出至模糊匹配单元;模糊匹配单元:包括语法分析模块、索引创建模块、索引存储模块、索引库、索引搜索模块、相关性排序模块和匹配优化模块;模糊匹配单元用于根据目标值域库信息对模拟语义分词处理结果进行模糊匹配处理;所述语法分析模块用于对模拟语义分词结果进行语法分析和语言处理形成若干词;所述索引创建模块用于根据语法分析模块形成的若干词生成词典索引和反向索引;所述索引存储模块用于根据词典索引和反向索引对形成的若干词进行关联后存储到索引库中;所述索引库用于存储词典索引和反向索引;所述索引搜索模块用于将索引库中的词典索引和反向索引载入到内存,利用查询树搜索索引,得到每个词对应的数据源信息链表,对该信息链表进行布尔运算后获得数据源信息的具体指向位置,从而得到索引搜索结果;所述相关性排序模块用于计算索引搜索结果与源词库中的医疗专业词汇的相关度并进行排序;所述匹配优化模块用于根据相关度阈值来选取资源词库中的医疗专业词汇与数据源信息链的最佳匹配关联关系,并经过人工校验后将该最佳匹配关联关系作为模糊匹配结果存储至匹配表中;精确匹配单元:包括数据获取模块和精确匹配模块;所述数据获取模块用于获取数据源提供的数据信息;所述精确匹配模块用于根据数据获取模块获取的数据源提供的数据信息与目标值域库存储的标准码或者匹配表存储的映射匹配规则信息进行精确匹配映射,生成数据映射匹配结果,即精确匹配结果;所述匹配表用于存储映射匹配规则信息,映射匹配规则信息即数据源的数据信息与目标值域库间的匹配关联关系;人工管理单元:用于对资源词库、目标值域库与匹配表进行调整。采用所述的解决医疗数据标准编码对照问题的映射处理系统的医疗数据映射处理方法,包括以下步骤:步骤1:从医疗数据源获取数据,根据目标值域表存储的标准码或匹配表存储的存储映射匹配规则信息,对获取的数据进行精确匹配映射:若获取的数据与匹配表存储的映射匹配规则信息完全匹配,则执行步骤4;否则,执行步骤2;步骤2:对从数据源获取的数据进行模糊语义分析;步骤2-1:通过对资源词库信息进行加载,将资源词库中的基础词汇和医疗专业词汇加载到缓存中,为词元处理提供词元信息;步骤2-2:采用最细粒度分词方式或智能分词方式对数据源提供的数据信息进行分词处理,包括语义分解和分词切分处理;步骤2-3:进行词元处理:对资源词库中的基础词汇和医疗专业词汇进行缓存,对中文词汇、数量词汇、字母词汇进行分类处理;步骤2-4:对加载的词元信息与分词处理后的数据进行相似度评估,得到相似度评估结果;步骤2-5:将相似度评估结果作为模拟语义分词结果;步骤3:对模拟语义分词结果进行模糊匹配处理,并生成映射匹配结果;步骤3-1:对模拟语义分词结果进行语法分析和语言处理形成若干词;步骤3-2:根据形成的若干词生成词典索引和反向索引;步骤3-3:根据词典索引和反向索引对形成的若干词进行关联后存储到索引库中;步骤3-4:将索引库中的词典索引和反向索引载入到内存,利用查询树搜索索引,得到每个词对应的数据源信息链表,对该信息链表进行布尔运算后获得数据源信息的具体指向位置,从而得到索引搜索结果;步骤3-5:计算各索引搜索结果与目标值域库中的标准码之间的关联度,并对各关联度进行排序;步骤3-6:人工设定关联度阈值,对符合关联度阈值的索引搜索结果进行人工校验,并建立匹配关联关系,该匹配关联关系作为映射匹配规则信息存储至匹配表中;步骤4:根据匹配表中的映射匹配规则信息将医疗数据映射成标准码,生成医疗数据映射处理结果。有益效果:本专利技术解决了在医疗信息向标准化卫生平台上报过程中的编码规范化问题,建立了一种自动化映射匹配的处理流程,同时提供了比较完备的业务处理能力。通过模糊匹配、人工校验、机器训练等技术相结合的方式,实现映射匹配结果的较高准确性和匹配精度。本方法首先通过模糊匹配,根据关联度值的情况完成映射匹配,匹配结果经人工校校验后得到正确的匹配关联关系,此匹配关联关系会被系统进行记录和学习。在进行多次固定行业的映射匹配后,匹配的精度和准确性会随着行业实践次数的积累而线性提升。本专利技术成功实施在医疗信息的处理项目汇总,使得业务数据得到稳定高效的处理和发布,从而推动医疗卫生体系的建设和管理,为区域医疗系统的构建提供有力支撑。附图说明图1是本专利技术具体实施方式的解决医疗数据标准编码对照问题的映射处理系统结构框图;图2是本专利技术具体实施方式的模拟语义分词单元结构框图;图3是本专利技术具体实施方式的模糊匹配单元结构框图;图4是本专利技术具体实施方式的精确匹配单元结构框图;图5是本专利技术具体实施方式的人工管理单元工作原理示意图;图6是本专利技术具体实施方式的解决医疗数据标准编码对照问题的映射处理系统应用结构示意图;图7是本专利技术具体实施方式的对从医疗数据源中获取的数据进行结构标准化处理的示意图;图8是本专利技术具体实施方式的模拟语义分词单元处理示意图;图9是本专利技术具体实施方式的解决医疗数据标准编码对照问题的映射处理方法;图10是本专利技术具体实施方式的根据内容类型进行分类后得到的结果示意图;图11是本专利技术具体实施方式的据资源词库内容得到分词结果得到的结果示意图;图12是本专利技术具体实施方式的分词结果链表;图13是本专利技术具体实施方式的对分词结果创建的缓存表;图14是本专利技术具体实施方式的根据缓存表生成的倒排链表。具体实施方式下面结合附图对本发本文档来自技高网...
解决医疗数据标准编码对照问题的映射处理系统及方法

【技术保护点】
一种解决医疗数据标准编码对照问题的映射处理系统,其特征在于:包括:资源词库、目标值域库、模拟语义分词单元、模糊匹配单元、精确匹配单元、匹配表和人工管理单元;资源词库:存储有基础词汇和医疗专业词汇;目标值域库:用于存储标准码,即GB/T或医疗行业规范定义的编码值;模拟语义分词单元:包括分词模块、词库加载模块、词元处理模块、相似度评估模块和分析模块;所述分词模块用于采用最细粒度分词方式或智能分词方式对数据源提供的数据信息进行语义分解和分词切分处理;所述词库加载模块用于实现字典加载管理,对资源词库信息进行加载,将资源词库中的基础词汇和医疗专业词汇加载到缓存中,为词元处理模块提供词元信息;所述词元处理模块对词库加载模块提供的词元信息进行缓存,对中文词汇、数量词汇、字母词汇进行分类处理,并为分析模块提供词元支撑;所述相似度评估模块用于对分类处理后数据的相似度评估,得到相似度评估结果;所述分析模块用于对调度分词模块、相似度评估模块、词元处理模块进行协调调度,并将相似度评估结果作为模拟语义分词结果输出至模糊匹配单元;模糊匹配单元:包括语法分析模块、索引创建模块、索引存储模块、索引库、索引搜索模块、相关性排序模块和匹配优化模块;模糊匹配单元用于根据目标值域库信息对模拟语义分词处理结果进行模糊匹配处理;所述语法分析模块用于对模拟语义分词结果进行语法分析和语言处理形成若干词;所述索引创建模块用于根据语法分析模块形成的若干词生成词典索引和反向索引;所述索引存储模块用于根据词典索引和反向索引对形成的若干词进行关联后存储到索引库中;所述索引库用于存储词典索引和反向索引;所述索引搜索模块用于将索引库中的词典索引和反向索引载入到内存,利用查询树搜索索引,得到每个词对应的数据源信息链表,对该信息链表进行布尔运算后获得数据源信息的具体指向位置,从而得到索引搜索结果;所述相关性排序模块用于计算索引搜索结果与源词库中的医疗专业词汇的相关度并进行排序;所述匹配优化模块用于根据相关度阈值来选取资源词库中的医疗专业词汇与数据源信息链的最佳匹配关联关系,并经过人工校验后将该最佳匹配关联关系作为模糊匹配结果存储至匹配表中;精确匹配单元:包括数据获取模块和精确匹配模块;所述数据获取模块用于获取数据源提供的数据信息;所述精确匹配模块用于根据数据获取模块获取的数据源提供的数据信息与目标值域库存储的标准码或者匹配表存储的映射匹配规则信息进行精确匹配映射,生成数据映射匹配结果,即精确匹配结果;所述匹配表用于存储映射匹配规则信息,映射匹配规则信息即数据源的数据信息与目标值域库间的匹配关联关系;人工管理单元:用于对资源词库、目标值域库与匹配表进行调整。...

【技术特征摘要】
1.一种解决医疗数据标准编码对照问题的映射处理系统,其特征在于:包括:资源词库、目标值域库、模拟语义分词单元、模糊匹配单元、精确匹配单元、匹配表和人工管理单元;资源词库:存储有基础词汇和医疗专业词汇;目标值域库:用于存储标准码,即GB/T或医疗行业规范定义的编码值;模拟语义分词单元:包括分词模块、词库加载模块、词元处理模块、相似度评估模块和分析模块;所述分词模块用于采用最细粒度分词方式或智能分词方式对数据源提供的数据信息进行语义分解和分词切分处理;所述词库加载模块用于实现字典加载管理,对资源词库信息进行加载,将资源词库中的基础词汇和医疗专业词汇加载到缓存中,为词元处理模块提供词元信息;所述词元处理模块对词库加载模块提供的词元信息进行缓存,对中文词汇、数量词汇、字母词汇进行分类处理,并为分析模块提供词元支撑;所述相似度评估模块用于对分类处理后数据的相似度评估,得到相似度评估结果;所述分析模块用于对分词模块、相似度评估模块、词元处理模块进行协调调度,并将相似度评估结果作为模拟语义分词结果输出至模糊匹配单元;模糊匹配单元:包括语法分析模块、索引创建模块、索引存储模块、索引库、索引搜索模块、相关性排序模块和匹配优化模块;模糊匹配单元用于根据目标值域库信息对模拟语义分词处理结果进行模糊匹配处理;所述语法分析模块用于对模拟语义分词结果进行语法分析和语言处理形成若干词;所述索引创建模块用于根据语法分析模块形成的若干词生成词典索引和反向索引;所述索引存储模块用于根据词典索引和反向索引对形成的若干词进行关联后存储到索引库中;所述索引库用于存储词典索引和反向索引;所述索引搜索模块用于将索引库中的词典索引和反向索引载入到内存,利用查询树搜索索引,得到每个词对应的数据源信息链表,对该信息链表进行布尔运算后获得数据源信息的具体指向位置,从而得到索引搜索结果;所述相关性排序模块用于计算索引搜索结果与源词库中的医疗专业词汇的相关度并进行排序;所述匹配优化模块用于根据相关度阈值来选取资源词库中的医疗专业词汇与数据源信息链的最佳匹配关联关系,并经过人工校验后将该最佳匹配关联关系作为模糊匹配结果存储至匹配表中;精确匹配单元:包括数据获取模块和精确匹配模块;所述数据获取模块用于获取数据源提供的数据信息;所述精确匹配模块...

【专利技术属性】
技术研发人员:李轶强马国耀蔡军孙勇韬肖华
申请(专利权)人:沈阳锐易特软件技术有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1