建立汽车行业数据关联网络的方法和系统技术方案

技术编号:32634426 阅读:24 留言:0更新日期:2022-03-12 18:09
本发明专利技术实施例提出一种建立汽车行业数据关联网络的方法和系统。该方法包括:统一汽车行业数据库中每项数据各个字段名称,得到字段词汇集;将数据字段名称与字段词汇集进行对比,得到字段名称词汇表;通过字段名称词汇表计算字段名称相似度矩阵,根据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵,将名称相似度矩阵与应用场景相似度矩阵加权求和,得到数据关联度矩阵;根据数据关联度矩阵确定数据关联关系矩阵,由数据关联关系矩阵形成汽车行业数据关联网络。本发明专利技术实施例从数据内容以及数据应用场景两个维度确定数据的关联性,建立汽车数据关联网络。建立汽车数据关联网络。建立汽车数据关联网络。

【技术实现步骤摘要】
建立汽车行业数据关联网络的方法和系统


[0001]本专利技术属于数据处理
,具体涉及一种建立汽车行业数据关联网络的方法和系统。

技术介绍

[0002]目前,数据关联的建立主要是基于关联规则相关算法,最经典的是Apriori算法与FP

Growth算法。
[0003]1、Apriori算法的主要思路为:(1)找频繁项集,利用频繁项集的非空子集都是频繁的项集性质,先找频繁项集的侯选集,对侯选集中计数,大于支持度的就是频繁集;(2)由频繁项集生成关联规则。参考文献见Agrawal R.Srikant R.Fast algorithms for mining association rules.In Proceedings of the 20th International Conference on Very Large Databases[M].Santiago,Chile,1994:487~499。
[0004]2、FP

Growth算法的主要思路为:采取分而治之的策略,第一次扫描后,把数据库中的频繁集压缩进一颗频繁模式树(FP

Tree),同时依然保留其中的关联信息,再将FP

Tree分化成一些条件库,每个库和一个长度为1的频繁集相关,然后再对这些条件库分别进行挖掘。参考文献见HAN J W,KAMBER M,PEI J.数据挖掘:概念与技术[M].范明,孟小峰译.第3版.北京:机械工业出版社,2017:158/>‑
169。
[0005]随着汽车新四化的发展,汽车行业数据呈指数级增长,建立汽车行业数据关联网络可以有效解决数据孤岛问题,是汽车大数据价值挖掘的基础。目前还没有汽车行业数据关联网络的方法,汽车行业数据库存在数据字段数量大、名称不规范、数据范围广等问题,传统的数据关联针对同一范围内数据关联的建立,直接用于汽车行业数据关联网络的建立效果不佳。

技术实现思路

[0006]本专利技术实施例提出的建立汽车行业数据关联网络的方法和系统,统一汽车行业数据库中每项数据中各个字段名称,从数据内容以及数据应用场景两个维度确定数据的关联性,建立汽车数据关联网络。
[0007]第一方面,本专利技术实施例提出一种建立汽车行业数据关联网络的方法,包括:
[0008]统一汽车行业数据库D={D1,D2,

D
N
}中每项数据各个字段名称,得到字段词汇集{C'1,C'2,

,C'
n
};提取汽车行业数据库中各项数据的字段名称,与字段词汇集中字段名称进行对比,统计得到字段名称词汇表L
N
×
n

[0009]通过所述字段名称词汇表L
N
×
n
计算汽车行业数据库中各项数据字段名称相似度矩阵E1
N
×
N
,根据汽车行业数据库中各项数据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵E2
N
×
N
,将名称相似度矩阵E1
N
×
N
与应用场景相似度矩阵E2
N
×
N
加权求和,得到汽车行业数据库各数据的数据关联度矩阵E
N
×
N

[0010]根据所述数据关联度矩阵E
N
×
N
确定汽车行业数据库各数据的数据关联关系矩阵
E'
N
×
N
,由数据关联关系矩阵E'
N
×
N
形成汽车行业数据关联网络。
[0011]优选的,得到字段词汇集{C'1,C'2,

,C'
n
}的步骤包括:
[0012]提取汽车行业数据库D={D1,D2,

D
N
}中所有数据的所有字段名称,形成初始字段词汇集{C1,C2,

,C
m
};
[0013]将初始字段词汇集中每个字段名称按照字符进行分割,得到初始字段词汇集的字段名称字符集
[0014]若两个字段名称字符集包含相同字符个数占自身包含字符个数的比例大于th1,将两个字段名称中所含字符个数多的字段名称替换为所含字符个数少的字段名称,若两个字段名称所含字符个数相同则将两个字段名称统一为两个字段名称中的一个;否则不做处理;
[0015]去掉重复的字段名称,得到合并字段字汇集{C1,C2,

,C
m
‑1};
[0016]重复上述步骤,直到合并字段词汇集中任意两个字段名称包含相同字符个数占自身包含字符总个数的比例均小于等于th1停止重复,得到字段词汇集{C'1,C'2,

,C'
n
}。
[0017]优选的,阈值th1用于判断两个字段名称的相似性,取值范围在0.5到0.75之间。
[0018]优选的,得到汽车行业数据库字段名称词汇表L
N
×
n
的步骤包括:
[0019]提取汽车行业数据第i项数据的所有字段名称与字段词汇集{C'1,C'2,

,C'
n
}中的第c个字段名称进行比较,如果汽车行业数据第i项数据中存在字段名与字段词汇集中字段名C'
c
={C'1,C'2,

C'
dc
}包含相同字符个数占汽车行业数据第i项数据字段名包含字符总个数的比例大于th1,则L
i
×
c
=1,否则L
i
×
c
=0;
[0020]应用上述步骤中的方法遍历字段词汇集{C'1,C'2,

,C'
n
}中的所有字段名称,获得汽车行业数据第i项数据对应的汽车行业数据库字段名称词汇表第i行L
i
,最终得到汽车行业数据库字段名称词汇表L
N
×
n

[0021]优选的,计算字段名称相似度矩阵E1
N
×
N
的步骤包括:
[0022]通过欧式距离和字段名称词汇表L
N
×
n
计算汽车行业数据库中D
k
、D
j
两项子数据库的字段名称相似度E1
(k,j)
,即:
[0023][0024]按照上述步骤的方法,计算汽车行业数据库中各项数据字段名称相似度矩阵E1
N
×
N

[0025]优选的,计算应用场景相似度矩阵E2
N
×
N
的步骤包括:
...

【技术保护点】

【技术特征摘要】
1.一种建立汽车行业数据关联网络的方法,其特征在于,包括:统一汽车行业数据库D={D1,D2,

D
N
}中每项数据各个字段名称,得到字段词汇集{C'1,C'2,

,C'
n
};提取汽车行业数据库中各项数据的字段名称,与字段词汇集中字段名称进行对比,统计得到字段名称词汇表L
N
×
n
;通过所述字段名称词汇表L
N
×
n
计算汽车行业数据库中各项数据字段名称相似度矩阵E1
N
×
N
,根据汽车行业数据库中各项数据应用场景计算汽车行业数据库中各项数据应用场景相似度矩阵E2
N
×
N
,将名称相似度矩阵E1
N
×
N
与应用场景相似度矩阵E2
N
×
N
加权求和,得到汽车行业数据库各数据的数据关联度矩阵E
N
×
N
;根据所述数据关联度矩阵E
N
×
N
确定汽车行业数据库各数据的数据关联关系矩阵E'
N
×
N
,由数据关联关系矩阵E'
N
×
N
形成汽车行业数据关联网络。2.根据权利要求1所述的方法,其特征在于,得到字段词汇集{C'1,C'2,

,C'
n
}的步骤包括:提取汽车行业数据库D={D1,D2,

D
N
}中所有数据的所有字段名称,形成初始字段词汇集{C1,C2,

,C
m
};将初始字段词汇集{C1,C2,

,C
m
}中每个字段名称按照字符进行分割,得到初始字段词汇集的字段名称字符集若两个字段名称字符集包含相同字符个数占自身包含字符个数的比例大于th1,将两个字段名称中所含字符个数多的字段名称替换为所含字符个数少的字段名称,若两个字段名称所含字符个数相同则将两个字段名称统一为两个字段名称中的一个;否则不做处理;去掉重复的字段名称,得到合并字段字汇集{C1,C2,

,C
m
‑1};重复上述步骤,直到合并字段词汇集中任意两个字段名称包含相同字符个数占自身包含字符总个数的比例均小于等于th1停止重复,得到字段词汇集{C'1,C'2,

,C'
n
}。3.根据权利要求2所述的方法,其特征在于,阈值th1用于判断两个字段名称的相似性,取值范围在0.5到0.75之间。4.根据权利要求1所述的方法,其特征在于,得到汽车行业数据库字段名称词汇表L
N
×
n
的步骤包括:提取汽车行业数据第i项数据的所有字段名称与字段词汇集{C'1,C'2,

,C'
n
}中的第c个字段名称进行比较,如果汽车行业数据第i项数据中存在字段名与字段词汇集中字段名包含相同字符个数占汽车行业数据第i项数据字段名包含字符总个数的比例大于th1,则L
i
×
c
=1否则L
i
×
c
=0;应用上述步骤中的方法遍历字段词汇集{C'1,C'2,

,C'
n
}中的所有字段名称,获得汽车行业数据第i项数据对应的汽车行业数据库字段名称词汇表第i行L
i
,最终得到汽车行业数据库字段名称词汇表L
N
×
n
。5.根据权利要求1所述的方法,其特征在于,计算字段名称相似度矩阵E1
N
×
N
的步骤包括:通过欧式距离和...

【专利技术属性】
技术研发人员:张鹏朱悦王英资楚思思陈辰侯珏吴淑月张永嘉
申请(专利权)人:中国汽车技术研究中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1