一种数据处理方法及相关设备技术

技术编号:22166961 阅读:27 留言:0更新日期:2019-09-21 10:36
本申请实施例提供了一种数据处理方法及相关设备,可以实现集成术语系统中新版本来源词表中变化概念的自动更新,提高了集成术语系统版本更新效率,大大节约了时间成本,缩短集成术语系统概念升级与来源词表版本升级之间的时间差。该方法包括:将待更新的来源词表进行注册,以得到目标来源词表;确定所述目标来源词表中的目标词表数据,所述目标词表数据包括已分配标识的术语以及已分配标识的概念;将所述目标词表数据与第一来源词表的第一词表数据进行匹配,以确定所述目标来源词表相对于所述第一来源词表的目标匹配结果;根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新。

A Data Processing Method and Related Equipment

【技术实现步骤摘要】
一种数据处理方法及相关设备
本申请涉及数据处理领域,特别涉及一种数据处理方法及相关设备。
技术介绍
同义词表、分类表、编码系统、叙词表、本体、知识图谱等术语系统在信息资源描述、组织、管理、发现等方面的强大功能已经得到图书情报界、自然语言处理、医学信息学等相关领域的广泛认可。在过去的几十年中,由于各领域各类术语系统的编制与发展主要面向某一具体任务和应用环境需要,因而在概念表达、概念粒度、概念属性和概念间语义关系等内容设置、数据结构、存储格式等方面也各不相同,严重限制了使用不同术语系统的计算机应用程序之间的通信,进而限制了不同信息资源系统之间的互操作和共享利用。在不同术语系统之间进行互操作,方便使用不同术语系统的计算机应用程序之间进行无障碍理解和对话,已成为打破该限制核心技术。集成术语系统构建是实现不同术语系统互操作的一种,通过将某一特定主题领域的若干术语系统注册汇编在一起,以术语为基本单元,以概念为核心,以来源词表的原有关系为依托,通过对不同来源词表中表征同一概念的术语归并连接在一起,形成新的同义词组或准同义词组,并推荐出新的来源术语作为概念的优选形式;基于归并后形成的概念实现不同来源词表语义关联。这样的集成术语系统也称为多来源词网络系统,已构成各类信息资源互通互信的信息基础设施。现在术语系统更新技术研究主要围绕在单一术语系统进行,涉及术语、概念、属性和关系更新,相关技术有未登录词识别、术语删除、同义词扩充等。关于集成术语系统的更新,主要集中在:1)新来源词表扩充,将一个新的词表通过格式转换、词汇相似度计算等方式添加到既有集成术语系统中;2)问题修正,通过关系不一致检查发现集成术语系统中隐藏问题并进行校正。现有来源词表的更新还主要依赖人工方式进行,且主要集中在术语和概念层面,对来源词表进行术语、概念增删改操作。但是,依赖人工更新方式,考虑来源词表数量和规模大小,时间和经济成本较高,无法满足效率和效益需要。
技术实现思路
本申请实施例提供了一种数据处理方法及相关设备,可以实现集成术语系统中新版本来源词表中变化概念的自动更新,提高了集成术语系统版本更新效率,大大节约了时间成本,缩短集成术语系统概念升级与来源词表版本升级之间的时间差。本申请实施例第一方面提供了一种数据处理方法,应用于集成术语系统,所述集成术语系统包括至少一个来源词表,其特征在于,包括:将待更新的来源词表进行注册,以得到目标来源词表;确定所述目标来源词表中的目标词表数据,所述目标词表数据包括已分配标识的术语以及已分配标识的概念;将所述目标词表数据与第一来源词表的第一词表数据进行匹配,以确定所述目标来源词表相对于所述第一来源词表的目标匹配结果,所述第一来源词表为所述集成术语系统中与所述目标来源词表对应的来源词表;根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新。可选地,所述将所述目标词表数据与第一来源词表的第一词表数据进行匹配,以确定所述目标来源词表相对于所述第一来源词表的目标匹配结果,包括:将目标术语与所述第一词表数据中的术语进行字符串匹配,以得到术语匹配结果,所述术语匹配结果包括:新增术语结果、未变化术语结果和/或删除术语结果,所述目标术语为所述目标词表数据中的任意一个术语;根据所述术语匹配结果将第一概念同义词集合与所述第一词表数据中的概念同义词集合进行字符串匹配,以确定概念同义词集合的匹配结果,所述概念同义词集合的匹配结果包括:新增概念结果、概念同义词集合未变化结果、删除概念结果和/或概念同义词集合变化结果,所述第一概念同义词集合为所述目标词表数据中的任意一个概念同义词集合;根据所述术语匹配结果以及所述概念同义词集合的匹配结果将第一概念优选术语与所述第一词表数据中的概念优选术语进行字符串匹配,以确定概念优选术语的匹配结果,所述概念优选术语的匹配结果包括:概念优选术语未变化结果和/或概念优选术语变化结果,所述第一概念优选术语为所述目标词表数据中的任意一个概念优选术语;其中,所述术语匹配结果、所述概念同义词集合的匹配结果以及所述概念优选术语的匹配结果均属于所述目标匹配结果。可选地,所述根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新包括:当所述术语匹配结果为所述删除术语结果时,获取所述删除术语结果对应的术语;将所述删除术语结果对应的术语删除;当所述概念同义词集合的匹配结果为所述删除概念结果时,获取所述删除概念结果对应的概念同义词集合;将所述删除概念结果对应的概念同义词集合删除。可选地,所述根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新包括:当所述术语匹配结果为新增术语结果,且所述概念同义词集合的匹配结果为所述概念同义词集合变化结果时,获取所述新增术语结果对应的至少一个术语;判断在所述集成术语系统中存在与所述第一术语相匹配的第二概念同义词集合,所述第一术语为所述至少一个术语中的任意一个术语;若是,则将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入所述第二概念同义词集合。可选地,当在所述集成术语系统不存在所述第二概念同义词集合时,所述方法还包括:当所述概念优选术语的匹配结果为所述概念优选术语变化结果时,获取所述集成术语系统中概念优选术语变化的N个概念同义词集合,其中N≥2;计算所述第一术语与所述N个概念同义词集合中的概念优选术语的相似度;根据所述相似度将所述第一术语导入所述N个概念同义词集合;当所述概念优选术语的匹配结果为所述概念优选术语未发生变化结果时,将所述第一术语导入第一概念同义词集合,所述第一概念同义词集合为所述概念优选术语未发生变化结果对应的概念同义词集合中与所述第一术语相匹配的概念同义词集合。可选地,所述根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新包括:当所述术语匹配结果为所述新增术语结果,且所述概念同义词集合的匹配结果为所述新增概念结果时,计算第一优选术语与所述集成术语系统中的M个优选术语的M个相似度,其中所述第一优选术语为所述第一术语所在的概念同义词集合中的优选术语,且所述第一优选术语所属的概念同义词集合与所述M个优选术语所属的概念同义词集合属于相同领域,M≥2;根据所述M个相似度将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入。可选地,所述根据所述M个相似度将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入包括:判断所述M个相似度中的最大相似度是否大于预设阈值;若是,则将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入所述最大相似度对应的概念同义词集合;若否,则将所述第一术语以及与所述第一术语互为同义词的术语确定为新概念同义词集合。可选地,所述确定所述目标来源词表中的目标词表数据包括:提取所述目标来源词表中的词表数据;调用标识符分配函数为所述词表数据中的术语和概念分别分配标识符,以得到所述目标词表数据。本申请实施例第二方面提供了一种数据处理装置,应用于集成术语系统,所述集成术语系统包括至少一个来源词表,包括:注册单元,用于将待更新的来源词表进行注册,以得到目标来源词表;确定单元,用于确定所述目标来源词表中的目标词表数据,所述目标词表数据包括已分配本文档来自技高网
...

【技术保护点】
1.一种数据处理方法,应用于集成术语系统,所述集成术语系统包括至少一个来源词表,其特征在于,包括:将待更新的来源词表进行注册,以得到目标来源词表;确定所述目标来源词表中的目标词表数据,所述目标词表数据包括已分配标识的术语以及已分配标识的概念;将所述目标词表数据与第一来源词表的第一词表数据进行匹配,以确定所述目标来源词表相对于所述第一来源词表的目标匹配结果,所述第一来源词表为所述集成术语系统中与所述目标来源词表对应的来源词表;根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新。

【技术特征摘要】
1.一种数据处理方法,应用于集成术语系统,所述集成术语系统包括至少一个来源词表,其特征在于,包括:将待更新的来源词表进行注册,以得到目标来源词表;确定所述目标来源词表中的目标词表数据,所述目标词表数据包括已分配标识的术语以及已分配标识的概念;将所述目标词表数据与第一来源词表的第一词表数据进行匹配,以确定所述目标来源词表相对于所述第一来源词表的目标匹配结果,所述第一来源词表为所述集成术语系统中与所述目标来源词表对应的来源词表;根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新。2.根据权利要求1所述的方法,其特征在于,所述将所述目标词表数据与第一来源词表的第一词表数据进行匹配,以确定所述目标来源词表相对于所述第一来源词表的目标匹配结果,包括:将目标术语与所述第一词表数据中的术语进行字符串匹配,以得到术语匹配结果,所述术语匹配结果包括:新增术语结果、未变化术语结果和/或删除术语结果,所述目标术语为所述目标词表数据中的任意一个术语;根据所述术语匹配结果将第一概念同义词集合与所述第一词表数据中的概念同义词集合进行字符串匹配,以确定概念同义词集合的匹配结果,所述概念同义词集合的匹配结果包括:新增概念结果、概念同义词集合未变化结果、删除概念结果和/或概念同义词集合变化结果,所述第一概念同义词集合为所述目标词表数据中的任意一个概念同义词集合;根据所述术语匹配结果以及所述概念同义词集合的匹配结果将第一概念优选术语与所述第一词表数据中的概念优选术语进行字符串匹配,以确定概念优选术语的匹配结果,所述概念优选术语的匹配结果包括:概念优选术语未变化结果和/或概念优选术语变化结果,所述第一概念优选术语为所述目标词表数据中的任意一个概念优选术语;其中,所述术语匹配结果、所述概念同义词集合的匹配结果以及所述概念优选术语的匹配结果均属于所述目标匹配结果。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新包括:当所述术语匹配结果为所述删除术语结果时,获取所述删除术语结果对应的术语;将所述删除术语结果对应的术语删除;当所述概念同义词集合的匹配结果为所述删除概念结果时,获取所述删除概念结果对应的概念同义词集合;将所述删除概念结果对应的概念同义词集合删除。4.根据权利要求2所述的方法,其特征在于,所述根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新包括:当所述术语匹配结果为新增术语结果,且所述概念同义词集合的匹配结果为所述概念同义词集合变化结果时,获取所述新增术语结果对应的至少一个术语;判断在所述集成术语系统中存在与所述第一术语相匹配的第二概念同义词集合,所述第一术语为所述至少一个术语中的任意一个术语;若是,则将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入所述第二概念同义词集合。5.根据权利要求4所述的方法,其特征在于,当在所述集成术语系统不存在所述第二概念同义词集合时,所述方法还包括:当所述概念优选术语的匹配结果为所述概念优选术语变化结果时,获取所述集成术语系统中概念优选术语变化的N个概念同义词集合,其中N≥2;计算所述第一术语与所述N个概念同义词集合中的概念优选术语的相似度;根据所述相似度将所述第一术语导入所述N个概念同义词集合;当所述概念优选术语的匹配结果为所述概念优选术语未发生变化结果时,将所述第一术语导入第一概念同义词集合,所述第一概念同义词集合为所述概念优选术语未发生变化结果对应的概念同义词集合中与所述第一术语相匹配的概念同义词集合。6.根据权利要求4所述的方法,其特征在于,所述根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新包括:当所述术语匹配结果为所述新增术语结果,且所述概念同义词集合的匹配结果为所述新增概念结果时,计算第一优选术语与所述集成术语系统中的M个优选术语的M个相似度,其中所述第一优选术语为所述第一术语所在的概念同义词集合中的优选术语,且所述第一优选术语所属的概念同义词集合与所述M个优选术语所属的概念同义词集合属于相同领域,M≥2;根据所述M个相似度将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入。7.根据权利要求6所述的方法,其特征在于,所述根据所述M个相似度将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入包括:判断所述M个相似度中的最大相似度是否大于预设阈值;若是,则将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入所述最大相似度对应的概念同义词集合;若否,则将所述第一术语以及与所述第一术语互为同义词的术语确定为新概念同义词集合。8.根据权利要求1至7中任一项所述的方法,其特征在于,所述确定所述目标来源词表中的目标词表数据包括:提取所述目标来源词表中的词表数据;调用标识符分配函数为所述词表数据中的术语和概念分别分配标识符,以得到所述目标词表数据。9.一种数据处理装置,应用于集成术语系统,所述集成...

【专利技术属性】
技术研发人员:孙海霞钱庆邓盼盼李姣沈柳
申请(专利权)人:中国医学科学院医学信息研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1