基于IHE PIX规范的中文自然语言信息匹配方法组成比例

技术编号:7632116 阅读:348 留言:0更新日期:2012-08-03 19:53
本发明专利技术涉及一种利用IHE?PIX规范所实现的个人主索引(MPI)或企业级个人主索引(eMPI)系统,在中文语言环境下完成信息匹配的方法。本发明专利技术先将需要匹配的输入项转换为一定格式的拼音,再利用配置文件事先定义的算法和匹配阀值进行匹配,最后利用PIX交叉索引管理器、个人主索引MPI或机构级个人主索引eMPI系统计算最终匹配值。本发明专利技术可以根据实际需要设置模糊音、通配符,并设置需匹配的属性、调节属性所占权重及匹配阀值上限,使匹配结果按照需求进行设计和调整,有助于解决录入过程中由于中文发音不准、录入失误等原因引起的信息匹配不准或遗漏,提高匹配成功率。

【技术实现步骤摘要】

本专利技术涉及一种在中文自然语言环境下的信息匹配方法,尤其是在构建IHE PIX规范下的交叉索引管理器、个人主索引MPI或机构级个人主索引eMPI时的中文自然语言信息匹配方法。
技术介绍
随着用户需求的不断变化和增加,机构信息系统数量越来越多,机构内部、机构之间的信息孤岛现象也越来越严重,同一机构的不同时期、不同机构所建设的信息系统在编码方面没有统一的标准,这使得系统中存在多种重复的、或需要合并的信息,例如相同的用户信息在这些系统中存在多个,它们之间的信息无法相互关联,导致该用户的信息无法被完整地获取。尤其在一些行业例如医疗卫生,当患者在不同医院、不同时候进行登记挂号时,其登记的个人信息可能存在偏差甚至误写,这直接导致该患者在这些医院中的信息无法关联,其诊疗信息也相应地缺失。解决这一问题尽管有很多种方案,但由于这些方案的思路和方法各不相同,导致按照这些方案整合后的系统在将来互连时仍是信息孤岛。IHE (Integration HealthcareEnterprise,集成医疗企业)概念是由美国的医学专家和相关部门、信息技术专家和企业共同发起的,目的是提供一种更好的方法让医学信息系统之间更好地进行集成,1988年由北美放射协会(RSNA)和国际医疗信息管理系统协会(HMSS)两个组织牵头,组织有关学会和设备厂商共同建立了 IHE,至目前IHE已经取得了强有力的国际支持,2005年IHE中国开始筹备,并于2007年8月18日成立,IHE体系规范已经成为中国医疗卫生改革中信息化建设的理论支撑。IHE PIX (Patient Identifer Cross-referencing)集成规范可用于各种规模的医疗机构,以保证位于这些机构内的多个患者ID之间,提供同一个患者的不同ID的相互索引。在实际应用环境中,有些机构希望能建立个人主索引(MPI, master patientidentifiers)或机构级个人主索弓I (eMPI, enterprise master patient identifiers)系统,此时构建的个人主索引相对其他各机构系统的索引有更大的应用范围。IHE PIX规范下的交叉索引管理器(PIX)、个人主索引(MPI)以及机构级的个人主索引(eMPI)实现的核心思路是一致的,可以说eMPI系统是PIX集成规范实施过程的一个特例,它是个人信息标识源与PIX管理器的结合体。PIX管理器的核心功能之一是个人身份信息匹配,这方面国外已经有比较成熟的算法,包括基于英文的身份信息相似度计算。在国内,个人身份信息完整性存在的最大困难在于信息在登记时,身份信息填写不规范、相关信息填写不全、关键信息经常变更等,特别是同音词、模糊音词等在信息填写和收集时常常存在较大的偏差,例如“张山(shan)”与“张三(san)”,使得PIX管理器在进行个人身份信息匹配时存在较大的难度,或者在进行严格匹配时会遗漏属于同一个身份的多条信息。图I说明在未经本专利设定方法进行PIX交叉索引管理器匹配时的流程。图2为未经本专利技术所述方法进行PIX交叉索引管理器匹配时的实例说明。解决PIX管理器在中文自然语言环境下的信息匹配方法,是将输入源待匹配的中文信息按照同音词、模糊音,以及通配符规则进行预处理,再利用国内外成熟的PIX管理器个人身份信息匹配算法完成匹配
技术实现思路
本专利技术为解决上述问题,提供了一种基于IHE PIX规范的中文自然语言信息匹配方法,利用拼音模糊音、通配符,对机构内大量的个人身份信息进行相似度匹配,提高匹配的范围。为了解决上述技术问题,本专利技术通过下述技术方案得以解决 基于IHE PIX规范的中文自然语言信息匹配方法,针对中文自然语言,利用汉语拼音转化匹配项,并利用IHE PIX规范所实现的交叉索引管理器、个人主索引MPI或机构级个人主索引eMPI系统进行匹配,其特征在于 通过定义模糊音,扩大可能的匹配范围; 通过定义通配符,对匹配项设置有规律的匹配需求; 包括以下步骤 1)在配置文件中设置匹配项属性、可采用的模糊音或通配符,并设置该匹配项属性所占权重、匹配阀值上限; 2)输入需要待匹配的信息,若为中文则依据配置文件转换为拼音清单; 3)匹配目标值若为中文的,则转换为标准拼音; 4)输入到交叉索引管理器、个人主索引MPI或机构级个人主索引eMPI系统执行匹配; 5)计算出的最终匹配值,并返回匹配、不匹配结果。本专利技术提供的用户输入源信息匹配方法,可以根据实际需要配置待匹配属性、调节匹配属性所占权重及匹配阀值上限,使匹配结果更加可靠,还能处理由于中文发音不准,录入失误等原因引起的信息不准,提高匹配范围和匹配率。附图说明图I为未经本专利技术所述方法进行PIX交叉索引管理器匹配时的流程。图2为未经本专利技术所述方法进行PIX交叉索引管理器匹配时的实例。图3为使用本专利技术所述方法进行PIX交叉索引管理器的匹配流程。图4为使用本专利技术所述方法进行PIX交叉索引管理器的匹配流程实例。具体实施例方式下面结合实施例对本专利技术作进一步详细描述。如图3所示,本专利技术的匹配方法包括以下步骤 1)在配置文件中设置匹配项属性、可采用的模糊音或通配符,并设置该匹配项属性所占权重、匹配阀值上限; 2)输入需要待匹配的信息,若为中文则依据配置文件转换为拼音清单; 3)匹配目标值若为中文的,则转换为标准拼音; 4)输入到交叉索引管理器执行匹配;5)计算出的最终匹配值,并返回匹配、不匹配结果。对个人身份信息输入源的预处理过程,就是将输入源信息按照规则转换为拼音,考虑到中文自然语言的复杂性,将平音、翘舌音、后鼻音、地方口音相关的发音,设置为可模糊匹配,彻底解决PIX索引管理器在中文语言环境下的输入源信息匹配问题。一个预处理过程的规则文件包含等同项、权重、禁用/启用,在PIX交叉索引管理器工作时,读取规则进行转换。在PIX交叉索引管理器具体工作时,会有多项个人身份信息输入源,例如姓名、居住地址、身份证号、工作地址、手机号码等,当输入源信息为中文时,首先将其按照规则文件设定,形成可能的输入源信息转换表,再提交PIX交叉索引管理器进行匹配,多个匹配结果按照权值进行累加,满足整体权重的匹配结果被认为匹配通过。如图4所示,现有系统A存放了用户的基本属性,包括姓名、性别、居住地址、身份证号,在PIX交叉索引管理器设计时,要求使用如下规则 1.匹配项及其总体权重要求如下 姓名20% ;身份证号80% 2.要求对“姓名”进行模糊匹配,具体要求是 (1)sh与s等同,权重设置为70% ; (2)ch与c等同,权重设置为90% ; (3)zh与z等同,权重设置为90% ; (4)eng与en等同,权重设置为90% ; (5)ing与in等同,权重设置为100% ; (6)符合四川地方口音对“h”和“f”的模糊音识别,权重设置为95%; 3.最终匹配权重设置为90%。 系统A中已有一条记录姓名 I性别I居住地址I身份证号-张山风I男I四川省新津县吴旗县利辛村I320123197802116311 现有输入源 姓名张三丰 身份证号:320123197802116311 未使用本专利技术时,输入源与系统A的数据由于姓名不同,因此不匹本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:马雄伟
申请(专利权)人:浙江和仁科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术