一种值域代码映射快速处理方法技术

技术编号:33210203 阅读:22 留言:0更新日期:2022-04-24 01:04
本发明专利技术涉及值域代码处理领域,具体公开了一种值域代码映射快速处理方法,应用最长公共子序列匹配方法,将值域代码除了文本不同但含义相同特例,还有多个属性字段应参与匹配、属性值不规范的情况,如药品进行统一匹配,提高不同特征值域代码的文本匹配分数问题。提供灵活的匹配规则定义,可以针对值域代码特点,更改规则匹配,提高匹配分数。提高匹配分数。提高匹配分数。

【技术实现步骤摘要】
一种值域代码映射快速处理方法


[0001]本专利技术涉及值域代码处理领域,具体涉及一种值域代码映射快速处理方法。

技术介绍

[0002]值域代码表示某种共同属性(或特征)的事物(或概念)的允许值集合,值一般由代码、名称组成。
[0003]值域代码映射是指同种类型下的两个值域代码,将含义相同的代码建立映射关系的过程。在医疗场景下,通常是由于医院采用了非标准值域代码,在向上级平台上传数据时,需要将数据中的非标准值域代码转为标准值域代码。
[0004]在现有值域代码映射过程中,一般采用人工、文本匹配方式。由于医疗值域代码通常数量较多、专业性强,仅依靠人工匹配需要协调较多医疗专业人员参与、耗时长、效率低。
[0005]文本匹配主要应用正则表达式、基于分词等匹配方法。值域代码除了文本不同但含义相同特例,还有多个属性字段应参与匹配、属性值不规范的情况,如,药品字典,有通用名、商品名、规格、剂型、生产厂家多个属性。已有方法无法针对值域代码特征优化匹配分数计算,灵活度、准确度不足。

技术实现思路

[0006]针对现有技术中的上述不足,本专利技术提供了一种值域代码映射快速处理方法。
[0007]为了达到上述专利技术目的,本专利技术采用的技术方案为:一种值域代码映射快速处理方法,包括如下步骤:S1、选择待匹配的医院值域代码,并将其与平台值域代码的类型名称进行匹配,确认类型间的匹配关系;S2、判断所选择的值域代码类型的类型间的匹配关系是否正确,若否则判认定匹配失败,结束流程;若是,则进入步骤S3;S3、对确认后的类型间的匹配关系的值域代码进行文本匹配,按匹配分数高低得到所推荐的值域代码匹配结果;S4、确认所推荐的值域代码匹配结果,并记录对应的映射关系。
[0008]进一步的,所述S1中具体包括:S11、将医院值域代码的类型名称与平台全部值域代码的类型名称进行逐一匹配;S12、利用最长公共子序列计算匹配分数,并按照匹配分数由高到低推荐类型间的匹配关系。
[0009]进一步的,所述S12中匹配分数的计算方式为:;其中,表示不同文本中第位和第位之前的最长公共子序列的长度,其中为第一文本内被拆分出的连续字符串,为第二文本内被拆分出的连续字符
串。
[0010]进一步的,所述S3中值域代码进行文本匹配的具体方式为:S31、将确认好类型间的匹配关系的医院值域代码的值与平台值域代码的值进行逐一匹配,并计算匹配分数;S32、按照S31计算的匹配分数的由高到低得到所推荐的文本匹配结果。
[0011]进一步的,所述S31中计算匹配分数的具体规则为:若为单属性字段,则确认匹配字段的文本内容和权重,并设定其默认权重为1;若为多属性字段,则分别为多个属性的匹配字段分配不同的权重,且其权重和为1;若为组合字段,则将多个字段合并为一个,视为一个单属性字段进行匹配。
[0012]进一步的,所述S32中得到所推荐的文本匹配结果具体方式为:;其中,为值域代码匹配结果数量,为第个值域代码匹配结果的分数,为所推荐的值域代码匹配结果总数,为第个所推荐值域代码匹配分数,为自动匹配分数,为值域代码匹配结果的最低推荐分数,为最大权重值域代码的最低匹配分数,为第个字段的权重,为值域代码推荐数量阈值。
[0013]本专利技术具有以下有益效果:一是提高不同特征值域代码的文本匹配分数问题。提供灵活的匹配规则定义,可以针对值域代码特点,更改规则匹配,提高匹配分数。
[0014]二是在现阶段都不能实现百分之百含义匹配的场景下,匹配结果百分之百准确问题。一方面由人工确定百分之百匹配规则的定义。另一方面文本匹配仅为人工匹配,提供匹配推荐,最终由人工确认映射关系。
附图说明
[0015]图1为本专利技术一种值域代码映射快速处理方法流程示意图。
[0016]图2为本专利技术实施例值域代码匹配及计算流程示意图。
[0017]图3为本专利技术实施例文本匹配流程示意图。
具体实施方式
[0018]下面对本专利技术的具体实施方式进行描述,以便于本
的技术人员理解本专利技术,但应该清楚,本专利技术不限于具体实施方式的范围,对本
的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本专利技术的精神和范围内,这些变化是显而易见的,一切利用本专利技术构思的专利技术创造均在保护之列。
[0019]一种值域代码映射快速处理方法,如图1所示,包括如下步骤:S1、选择待匹配的医院值域代码,并将其与平台值域代码的类型名称进行匹配,确认类型间的匹配关系。
[0020]本实施例里,医院、平台之间一般有很多不同类型的值域代码需要匹配,首先需要
确认类型间匹配关系,本实施例中,将医院值域代码的类型名称与平台全部值域代码的类型名称逐一进行文本匹配,采用最长公共子序列(以下简称LCS)计算匹配分数,按匹配分数由高到低推荐。
[0021]LCS定义:子序列是从最初序列通过去除某些元素但不破坏余下元素的相对位置(在前或在后)而形成的新序列。一个序列,如果分别是两个或多个已知数列的子序列,且是所有符合此条件序列中最长的,则称为已知序列的最长公共子序列。
[0022]具体而言,如图2所示:S11、将医院值域代码的类型名称与平台全部值域代码的类型名称进行逐一匹配;将文本1、文本2分别拆分为一串连续的字符、。
[0023]设有表示X的i位和Y的j位之前的最长公共子序列的长度;则有:则有:其中,表示当X的位和Y的位的字符相同时为“1”,否则为“0”。
[0024]S12、利用最长公共子序列计算匹配分数,并按照匹配分数由高到低推荐类型间的匹配关系。
[0025]匹配分数的计算方式为:设有表示文本1与文本2的匹配分数,则;其中,表示不同文本中第位和第位之前的最长公共子序列的长度,其中为第一文本内被拆分出的连续字符串;为第二文本内被拆分出的连续字符串。
[0026]S2、判断所选择的值域代码类型的类型间的匹配关系是否正确,若否则判认定匹配失败,结束流程;若是,则进入步骤S3;本实施例里,如图2所示,类型匹配结果由人工确认,从推荐中选择匹配的平台值域代码类型,并进入步骤S3。
[0027]S3、对确认后的类型间的匹配关系的值域代码进行文本匹配,按匹配分数高低得到所推荐的值域代码匹配结果;本实施例里,如图2所示,将医院值域代码的值与平台值域代码的值逐一进行匹配,采用LCS、知识库计算匹配分数。先确认如下匹配规则:1、确认匹配字段、匹配权重。大多数值域代码值仅由代码、名称组成,默认匹配字段为名称、权重1。可为多个属性字段情况,设置为多个匹配字段、分配不同权重。权重之和为1。
[0028]文本匹配分数的计算方式为:设有A表示医院值域代码,B表示平台值域代码,共配置n个匹配字段。
[0029]Am表示A中的第m个匹配字段,Bm表示B中的第m个匹配字段
Pm表示Am与Bm的单字段匹配分数,匹配过程如图3所示。
[0030]Wm表示第m个字段的权重。
[0031]P表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种值域代码映射快速处理方法,其特征在于,包括如下步骤:S1、选择待匹配的医院值域代码,并将其与平台值域代码的类型名称进行匹配,确认类型间的匹配关系;S2、判断所选择的值域代码类型的类型间的匹配关系是否正确,若否则判认定匹配失败,结束流程;若是,则进入步骤S3;S3、对确认后的类型间的匹配关系的值域代码进行文本匹配,按匹配分数高低得到所推荐的值域代码匹配结果;S4、确认所推荐的值域代码匹配结果,并记录对应的映射关系。2.根据权利要求1所述的一种值域代码映射快速处理方法,其特征在于,所述S1中具体包括:S11、将医院值域代码的类型名称与平台全部值域代码的类型名称进行逐一匹配;S12、利用最长公共子序列计算匹配分数,并按照匹配分数由高到低得到所推荐的类型间的匹配关系。3.根据权利要求2所述的一种值域代码映射快速处理方法,其特征在于,所述S12中匹配分数的计算方式为:;其中,表示不同文本中第位和第位之前的最长公共子序列的长度。4.根据权利要求2所述的一种值域代码映射快速处理方法,其特征在...

【专利技术属性】
技术研发人员:马攀张晓宇石丹杰
申请(专利权)人:成都瑞华康源科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1