The invention discloses a data alignment method and device, which belongs to the field of computer technology. The method includes: acquiring business database includes a first data collection table and baseline database includes second data tables set; determining the business database and baseline database table field similarity and similarity; similarity and similarity of word segment table service database and baseline database integration operation, to obtain the fusion field similarity; fusion field similarity based on mapping the relationship between the establishment of the corresponding field first data table sets each data table of each field with the baseline in the database; show the mapping relationship. By mapping business data to baseline database, the business data format and storage mode of business data are unified, and manpower is reduced, and the replicability of developed applications is improved.
【技术实现步骤摘要】
数据对齐方法及装置
本专利技术涉及计算机
,特别涉及一种数据对齐方法及装置。
技术介绍
为了便于向用户提供更便捷的服务,以及提高用户体验,运营商可以通过在多个不同的地点分别设置业务设备来为用户提供业务,也即是,运营商可能会设置多个业务设备,且该多个业务设备位于不同的地点。当为该运营商提供的业务开发对应的应用时,需要获取各个业务设备产生的业务数据,比如,对于电信运营商来说,电信运营商可能会设置多个不同的电信局点来提供电信业务,当为电信业务开发应用时,需要获取各个电信局点产生的业务数据。以电信业务为例,当获取各个电信局点产生的业务数据时,需要对各个电信局点的业务数据进行单独的数据采集和数据整理。然而,目前来说,这种数据采集和数据整理都是通过手工方式完成的,耗费大量的人力,并且每个电信局点整理出的数据格式、存储方式均不同,从而导致开发出的应用的可复制能力较差,无法应用到各个电信局点中。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种数据对齐方法及装置。所述技术方案如下:第一方面,提供了一种数据对齐方法,所述方法包括:获取业务数据库包括的第一数据表集合 ...
【技术保护点】
一种数据对齐方法,其特征在于,所述方法包括:获取业务数据库包括的第一数据表集合以及基线数据库包括的第二数据表集合,所述第一数据表集合中的每一个数据表包括多个字段,所述第二数据表集合中的每一个数据表包括多个字段;确定所述业务数据库和所述基线数据库的表相似度和字段相似度;其中,所述业务数据库和所述基线数据库的表相似度为所述第一数据表集合中的每一个数据表与所述第二数据表集合中的每一个数据表之间的相似度;所述业务数据库和所述基线数据库的字段相似度为所述第一数据表集合中的每一个数据表的每一个字段与所述第二数据表集合中的每一个数据表的每一个字段之间的相似度;对所述业务数据库和所述基线数 ...
【技术特征摘要】
1.一种数据对齐方法,其特征在于,所述方法包括:获取业务数据库包括的第一数据表集合以及基线数据库包括的第二数据表集合,所述第一数据表集合中的每一个数据表包括多个字段,所述第二数据表集合中的每一个数据表包括多个字段;确定所述业务数据库和所述基线数据库的表相似度和字段相似度;其中,所述业务数据库和所述基线数据库的表相似度为所述第一数据表集合中的每一个数据表与所述第二数据表集合中的每一个数据表之间的相似度;所述业务数据库和所述基线数据库的字段相似度为所述第一数据表集合中的每一个数据表的每一个字段与所述第二数据表集合中的每一个数据表的每一个字段之间的相似度;对所述业务数据库和所述基线数据库的表相似度和字段相似度进行融合运算,得到融合字段相似度;基于所述融合字段相似度,建立所述第二数据表集合中的每一个数据表的每一个字段与所述业务数据库中相应的字段的映射关系;显示所述映射关系。2.如权利要求1所述的方法,其特征在于,所述显示所述映射关系之后,还包括:接收指示消息,所述指示消息用于指示在所述基线数据库中所述第一数据表集合中的数据所映射的字段;基于所述指示消息和所述映射关系,将所述第一数据表集合中的数据映射到所述基线数据库中。3.如权利要求1所述的方法,其特征在于,所述确定所述业务数据库和所述基线数据库的表相似度,具体为:获取所述业务数据库包括的第一数据表集合中的每一个数据表的表名和表描述信息;基于所述第一数据表集合中的每一个数据表的表名和表描述信息,确定所述第一数据表集合中的每一个数据表的特征向量;获取所述基线数据库包括的第二数据表集合中的每一个数据表的表名和表描述信息;基于所述第二数据表集合中的每一个数据表的表名和表描述信息,确定所述第二数据表集合中的每一个数据表的特征向量;基于所述第一数据表集合中的每一个数据表的特征向量和所述第二数据表集合中的每一个数据表的特征向量,确定所述业务数据库和所述基线数据库的表相似度。4.如权利要求1所述的方法,其特征在于,所述确定所述业务数据库和所述基线数据库的字段相似度,具体为:获取所述业务数据库包括的第一数据表集合中的每一个数据表的每一个字段的字段名和字段数据;其中,所述字段数据为存储在相应字段下的业务数据;基于所述第一数据表集合中的每一个数据表的每一个字段的字段名和字段数据,确定所述第一数据表集合中的每一个数据表的每一个字段的特征向量;获取所述基线数据库包括的第二数据表集合中的每一个数据表的每一个字段的字段名和字段数据;基于所述第二数据表集合中的每一个数据表的每一个字段的字段名和字段数据,确定所述第二数据表集合中的每一个数据表的每一个字段的特征向量;基于所述第一数据表集合中的每一个数据表的每一个字段的特征向量和所述第二数据表集合中的每一个数据表的每一个字段的特征向量,确定所述业务数据库和所述基线数据库的字段相似度。5.如权利要求1-4任一所述的方法,其特征在于,所述对所述业务数据库和所述基线数据库的表相似度和字段相似度进行融合运算,得到融合字段相似度,具体为:步骤A:基于所述业务数据库和所述基线数据库的表相似度,生成表相似度矩阵;基于所述业务数据库和所述基线数据库的字段相似度,生成字段相似度矩阵;步骤B:基于所述表相似度矩阵、所述字段相似度矩阵和初始化融合权重矩阵,生成字段相似度融合矩阵;步骤C:基于所述字段相似度融合矩阵,生成所述第一数据表集合中的每一个数据表与所述第二数据表集合中的每一个数据表之间的加权匹配关系矩阵;步骤D:基于所述加权匹配关系矩阵和所述初始化融合权重矩阵,生成业务融合权重矩阵;步骤E:将所述初始化融合权重矩阵设置为所述业务融合权重矩阵,重复执行步骤B、C和D,直至所述业务融合权重矩阵收敛,执行步骤F;步骤F:将通过收敛的业务融合权重矩阵生成的字段相似度融合矩阵中包括的字段相似度确定为所述融合字段相似度。6.如权利要求5所述的方法,其特征在于,所述基于所述表相似度矩阵、所述字段相似度矩阵和初始化融合权重矩阵,生成字段相似度融合矩阵,包括:基于所述表相似度矩阵、所述字段相似度矩阵和初始化融合权重矩阵,按照如下任一相似度融合公式,生成字段相似度融合矩阵;所述相似度融合公式包括如下公式中的任一个:其中,在上述相似度融合公式中,所述为所述第一数据表集合中的数据表i中的字段a与所述第二数据表集合中的数据表j中的字段b之间的字段相似度;所述为所述第一数据表集合中的数据表i中的字段a与所述第二数据表集合中的数据表j中的字段b之间融合后的字段相似度,所述wi,j为所述第一数据表集合中的数据表i与所述第二数据表集合中的数据表j之间的融合权重,所述为所述第一数据表集合中的数据表i与所述第二数据表集合中的数据表j之间的表相似度,所述α、β、γ分别为预设值。7.如权利要求5或6所述的方法,其特征在于,所述基于所述字段相似度融合矩阵,生成所述第一数据表集合中的每一个数据表与所述第二数据表集合中的每一个数据表之间的加权匹配关系矩阵,具体为:将所述字段相似度融合矩阵中的每列字段相似度按照从大到小的顺序进行排序,得到所述每列字段相似度的排列顺序;按照所述每列字段相似度的排列顺序,从所述每列字段相似度中选择排序靠前的N个字段相似度;其中,N为正整数;基于从所述每列字段相似度中选择的N个字段相似度,生成业务表序号矩阵;基于所述业务表序号矩阵,生成所述第一数据表集合中的每一个数据表与所述第二数据表集合中的每一个数据表之间的加权匹配关系矩阵。8.如权利要求7所述的方法,其特征在于,所述基于所述业务表序号矩阵,生成所述第一数据表集合中每一个数据表与所述第二数据表集合中每一个数据表之间的加权匹配关系矩阵,包括:基于所述业务表序号矩阵,确定从所述第一数据表集合的每一个数据表中针对所述第二数据表集合中的每一个数据表所选择的字段的总数;确定所述针对所述第二数据表集合中的每一个数据表所选择的字段在所述业务表序号矩阵中对应列所处的排序位置;基于所述针对所述第二数据表集合中的每一个数据表所选择的字段的总数、所述针对所述第二数据表集合中的每一个数据表所选择的字段在所述业务表序号矩阵中对应列所处的排序位置和所述N,按照如下加权匹配公式确定所述第一数据表集合中的每一个数据表与所述第二数据表集合中的每一个数据表之间的加权匹配关系;基于所述第一数据表集合中每一个数据表与所述第二数据表集合中每一个数据表之间的加权匹配关系,生成所述加权匹配关系矩阵;其中,所述加权匹配公式为所述vi,j为第一数据表集合中的数据表i与第二数据表集合中的数据表j之间的加权匹配关系,所述K为所述针对所述第二数据表集合中的每一个数据表所选择的字段的总数,所述为从所述第一数据表集合中的数据表i中针对所述第二数据表集合中的数据表j所选择的第k个字段在所述业务表序号矩阵中对应列所处的排序位置。9.如权利要求5-8任一所述的方法,其特征在于,所述基于所述加权匹配关系矩阵和所述初始化融合权重矩阵,生成业务融合权重矩阵,包括:对所述加权匹配关系矩阵进行归一化处理,得到归一化矩阵;基于所述初始化融合权重矩阵和所述归一化矩阵,按照如下权重融合公式生成业务融合权重矩阵;所述权重融合公式为:其中,在上述权重融合公式中,所述w′i,j为所述业务融合权重矩阵,所述wi,j为初始化融合权重矩阵,所述f为预设的反馈权重且大于0,所述为所述归一化矩阵。10.一种数据对齐装置,其特征在于,所述装置包括:获取单元,用于获取业务数据库包括的第一数据表集合以及基线数据库包括的第二数据表集合,所述第一数据表集合中的每一个数据表包括多个字段,所述第二数据表集合中的每一个数据表包括...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。