异构数据库中的同义数据自动关联方法、装置及电子设备制造方法及图纸

技术编号:21628547 阅读:23 留言:0更新日期:2019-07-17 10:58
本发明专利技术实施例提供了一种异构数据库中的同义数据自动关联方法、装置及电子设备,所述方法包括:获取第一数据库和第二数据库中的字段,其中,第一数据库与第二数据库互为异构数据库;基于预设字段与词库中词语的映射关系,查找获取的字段在词库中对应的词语,得到第一数据库中各字段各自对应的词语和第二数据库中各字段各自对应的词语,其中,词库包含第一数据库和第二数据库所属行业的专业术语;分别比较第一数据库中各字段各自对应的词语与第二数据库中各字段各自对应的词语的相似度,并将相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。应用本发明专利技术实施例,能够提高异构数据库间同义数据关联的效率。

Automatic Association Method, Device and Electronic Equipment for Synonymous Data in Heterogeneous Databases

【技术实现步骤摘要】
异构数据库中的同义数据自动关联方法、装置及电子设备
本专利技术涉及数据处理
,特别是涉及一种异构数据库中的同义数据自动关联方法、装置及电子设备。
技术介绍
目前,完成相同或相近业务功能的软件系统往往存在多种实现方法,例如,面向个人消费者的各类网约车应用软件,面向企业的各类银行业务系统,以及各类医院信息化系统等。其中,这些业务功能相同或相近,但实现方式和内部结构不一致的软件系统被称为异构系统,异构系统中的各数据库被称为异构数据库。在异构数据库中,由于同样的数据在内部的命名、处理和存储等方面是存在差异的,因此将异构系统中完全等价表达同一业务对象或其属性的数据称为同义数据。造成这一现象的主要原因是同一细分领域存在多家互相竞争的企业,例如我国为医院提供信息化系统的厂商,据不完全统计就有130多家,其中全国性的大型厂商就有10多家,且单一软件系统的市场占有率都不高,市场高度分散。最终导致行业内的数据形成了非常多的碎片,即“数据孤岛”,也导致不同厂商的软件系统,甚至同一厂商的软件系统的不同部署实例间,数据都无法打通和连接,这都为行业的融合、业务联动、丰富基于大数据的应用、以及政府和行业监管都带来了很大的阻碍和困难。要解决这些问题,首先在于打通数据,连接“数据孤岛”上的数据,这就需要将异构数据库中的同义数据进行关联。现有的异构数据库中的同义数据关联方法是将同义数据统一转换为规范的格式来实现的。具体的,先由国家主管部门或行业组织制定一个数据标准规范,然后通过人工操作将这些异构数据库中的同义数据,按该数据标准规范转换为规范的数据格式,这样,转换后的同义数据的数据格式一致,从而实现异构数据库中的同义数据的关联。但是,在现有的异构数据库中的同义数据关联的方法中,一方面,由于所制定的数据标准规范是非强制性的,其约束力不强,一些厂商往往并不遵守该数据标准规范或者部分遵守,这样,转换后的数据不符合所制定的数据标准规范;另一方面,数据按标准规范转换过程中,由于人工操作不可避免的会发生操作错误,也会使得转换后的数据不符合所制定的数据标准规范,最终导致异构数据库间同义数据关联的效率比较低。
技术实现思路
本专利技术实施例的目的在于提供一种异构数据库中的同义数据自动关联方法、装置及电子设备,以提高异构数据库间同义数据关联的效率。具体技术方案如下:本专利技术实施例公开了一种异构数据库中的同义数据自动关联方法,所述方法包括:获取第一数据库和第二数据库中的字段,其中,所述第一数据库与所述第二数据库互为异构数据库;基于预设字段与词库中词语的映射关系,查找获取的所述字段在所述词库中对应的词语,得到所述第一数据库中各字段各自对应的词语和所述第二数据库中各字段各自对应的词语,其中,所述词库包含所述第一数据库和所述第二数据库所属行业的专业术语;分别比较所述第一数据库中各字段各自对应的词语与所述第二数据库中各字段各自对应的词语的相似度,并将所述相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。可选的,所述映射关系包括如下映射关系中的一个或两个以上:所述词库中词语的汉语拼音作为第一预设字段,与所述词库中词语的第一映射关系;所述词库中词语的汉语拼音的首字母作为第二预设字段,与所述词库中词语的第二映射关系;所述词库中词语的英文单词作为第三预设字段,与所述词库中词语的第三映射关系;所述词库中词语的英文单词的缩写作为第四预设字段,与所述词库中词语的第四映射关系;基于预设字段与词库中词语的映射关系,查找获取的所述字段在所述词库中对应的词语,得到所述第一数据库中各字段各自对应的词语和所述第二数据库中各字段各自对应的词语,包括:基于所述第一映射关系、所述第二映射关系、所述第三映射关系和所述第四映射关系中的一个或两个以上映射关系,查找获取的所述字段在所述词库中对应的词语,得到所述第一数据库中各字段各自对应的词语和所述第二数据库中各字段各自对应的词语。可选的,所述基于所述第一映射关系、所述第二映射关系、所述第三映射关系和所述第四映射关系中的一个或两个以上映射关系,查找获取的所述字段在所述词库中对应的词语,得到所述第一数据库中各字段各自对应的词语和所述第二数据库中各字段各自对应的词语,包括:确定获取的所述字段的预设字段类别,所述预设字段类别为所述第一预设字段、所述第二预设字段、所述第三预设字段和所述第四预设字段中的一种;在确定的所述字段的预设字段类别对应的映射关系中,查找所述字段在所述词库中对应的词语,得到所述第一数据库中各字段对应的各词语和所述第二数据库中各字段对应的各词语。可选的,所述确定获取的所述字段的预设字段类别,包括:当获取的所述字段包含多种预设字段时,将所述字段分段,确定分段后每个字段的预设字段类别分别为所述第一预设字段、所述第二预设字段、所述第三预设字段和所述第四预设字段中的一种;在确定的所述字段的预设字段类别对应的映射关系中,查找所述字段在所述词库中对应的词语,得到所述第一数据库中各字段对应的各词语和所述第二数据库中各字段对应的各词语,包括:在确定的所述字段的预设字段类别对应的映射关系中,分别查找分段后每个字段在所述词库中对应的词语,并将所述各词语组合,得到所述第一数据库中各字段对应的各词语和所述第二数据库中各字段对应的各词语。可选的,所述在确定的所述字段的预设字段类别对应的映射关系中,分别查找分段后每个字段在所述词库中对应的词语,并将所述各词语组合,得到所述第一数据库中各字段对应的各词语和所述第二数据库中各字段对应的各词语,包括:在确定的所述字段的预设字段类别对应的映射关系中,查找分段后的每一个字段在所述词库中对应的词语;按照分段后各字段从左到右的顺序,将前两个字段在所述词库中对应的词语进行组合,并将组合得到的词语作为各字段对应的首个词语;依次将所述首个词语与未组合的下一个相邻字段在所述词库中对应的词语进行组合,并将组合得到的词语替换所述首个词语,直至所有的字段在所述词库中对应的词语都被组合,得到所述字段对应的词语。可选的,所述在确定的所述字段的预设字段类别对应的映射关系中,查找分段后的每一个字段在所述词库中对应的词语,包括:当所述字段在所述词库中对应的词语为一个时,将该词语确定为该字段在所述词库中对应的词语;当所述字段在所述词库中对应的词语为多个时,将该多个词语中优先级较高的词语确定为该字段在所述词库中对应的词语,其中,在所述词库中所述专业术语的优先级较高。可选的,所述分别比较所述第一数据库中各字段各自对应的词语与所述第二数据库中各字段各自对应的词语的相似度,并将所述相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联,包括:利用似然函数分别比较所述第一数据库中各字段各自对应的词语与所述第二数据库中各字段各自对应的词语的相似度,并将所述相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。本专利技术实施例公开了一种异构数据库中的同义数据自动关联装置,所述装置包括:获取模块,用于获取第一数据库和第二数据库中的字段,其中,所述第一数据库与所述第二数据库互为异构数据库;查找模块,用于基于预设字段与词库中词语的映射关系,查找获取的所述字段在所述词库中对应的词语,得到所述第一数据库中各字段各自对应的词语和所述第二数据库中各字段本文档来自技高网
...

【技术保护点】
1.一种异构数据库中的同义数据自动关联方法,其特征在于,所述方法包括:获取第一数据库和第二数据库中的字段,其中,所述第一数据库与所述第二数据库互为异构数据库;基于预设字段与词库中词语的映射关系,查找获取的所述字段在所述词库中对应的词语,得到所述第一数据库中各字段各自对应的词语和所述第二数据库中各字段各自对应的词语,其中,所述词库包含所述第一数据库和所述第二数据库所属行业的专业术语;分别比较所述第一数据库中各字段各自对应的词语与所述第二数据库中各字段各自对应的词语的相似度,并将所述相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。

【技术特征摘要】
1.一种异构数据库中的同义数据自动关联方法,其特征在于,所述方法包括:获取第一数据库和第二数据库中的字段,其中,所述第一数据库与所述第二数据库互为异构数据库;基于预设字段与词库中词语的映射关系,查找获取的所述字段在所述词库中对应的词语,得到所述第一数据库中各字段各自对应的词语和所述第二数据库中各字段各自对应的词语,其中,所述词库包含所述第一数据库和所述第二数据库所属行业的专业术语;分别比较所述第一数据库中各字段各自对应的词语与所述第二数据库中各字段各自对应的词语的相似度,并将所述相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联。2.根据权利要求1所述的方法,其特征在于,所述映射关系包括如下映射关系中的一个或两个以上:所述词库中词语的汉语拼音作为第一预设字段,与所述词库中词语的第一映射关系;所述词库中词语的汉语拼音的首字母作为第二预设字段,与所述词库中词语的第二映射关系;所述词库中词语的英文单词作为第三预设字段,与所述词库中词语的第三映射关系;所述词库中词语的英文单词的缩写作为第四预设字段,与所述词库中词语的第四映射关系;基于预设字段与词库中词语的映射关系,查找获取的所述字段在所述词库中对应的词语,得到所述第一数据库中各字段各自对应的词语和所述第二数据库中各字段各自对应的词语,包括:基于所述第一映射关系、所述第二映射关系、所述第三映射关系和所述第四映射关系中的一个或两个以上映射关系,查找获取的所述字段在所述词库中对应的词语,得到所述第一数据库中各字段各自对应的词语和所述第二数据库中各字段各自对应的词语。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一映射关系、所述第二映射关系、所述第三映射关系和所述第四映射关系中的一个或两个以上映射关系,查找获取的所述字段在所述词库中对应的词语,得到所述第一数据库中各字段各自对应的词语和所述第二数据库中各字段各自对应的词语,包括:确定获取的所述字段的预设字段类别,所述预设字段类别为所述第一预设字段、所述第二预设字段、所述第三预设字段和所述第四预设字段中的一种;在确定的所述字段的预设字段类别对应的映射关系中,查找所述字段在所述词库中对应的词语,得到所述第一数据库中各字段对应的各词语和所述第二数据库中各字段对应的各词语。4.根据权利要求3所述的方法,其特征在于,所述确定获取的所述字段的预设字段类别,包括:当获取的所述字段包含多种预设字段时,将所述字段分段,确定分段后每个字段的预设字段类别分别为所述第一预设字段、所述第二预设字段、所述第三预设字段和所述第四预设字段中的一种;在确定的所述字段的预设字段类别对应的映射关系中,查找所述字段在所述词库中对应的词语,得到所述第一数据库中各字段对应的各词语和所述第二数据库中各字段对应的各词语,包括:在确定的所述字段的预设字段类别对应的映射关系中,分别查找分段后每个字段在所述词库中对应的词语,并将所述各词语组合,得到所述第一数据库中各字段对应的各词语和所述第二数据库中各字段对应的各词语。5.根据权利要求4所述的方法,其特征在于,所述在确定的所述字段的预设字段类别对应的映射关系中,分别查找分段后每个字段在所述词库中对应的词语,并将所述各词语组合,得到所述第一数据库中各字段对应的各词语和所述第二数据库中各字段对应的各词语,包括:在确定的所述字段的预设字段类别对应的映射关系中,查找分段后的每一个字段在所述词库中对应的词语;按照分段后各字段从左到右的顺序,将前两个字段在所述词库中对应的词语进行组合,并将组合得到的词语作为各字段对应的首个词语;依次将所述首个词语与未组合的下一个相邻字段在所述词库中对应的词语进行组合,并将组合得到的词语替换所述首个词语,直至所有的字段在所述词库中对应的词语都被组合,得到所述字段对应的词语。6.根据权利要求5所述的方法,其特征在于,所述在确定的所述字段的预设字段类别对应的映射关系中,查找分段后的每一个字段在所述词库中对应的词语,包括:当所述字段在所述词库中对应的词语为一个时,将该词语确定为该字段在所述词库中对应的词语;当所述字段在所述词库中对应的词语为多个时,将该多个词语中优先级较高的词语确定为该字段在所述词库中对应的词语,其中,在所述词库中所述专业术语的优先级较高。7.根据权利要求1所述的方法,其特征在于,所述分别比较所述第一数据库中各字段各自对应的词语与所述第二数据库中各字段各自对应的词语的相似度,并将所述相似度高于预设阈值的第一数据库中的字段与第二数据库中的字段相关联,包括:利用似然函数分别比较所述第一数据库中各字段各自对应的词语与所述第二...

【专利技术属性】
技术研发人员:郭杏荣
申请(专利权)人:北京金山云网络技术有限公司北京金山云科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1