一种数据融合方法和装置制造方法及图纸

技术编号:27437457 阅读:36 留言:0更新日期:2021-02-25 03:31
本发明专利技术公开了一种数据融合方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:将所有数据集的其中任意两个数据集融合为一个新数据集,重复上述融合操作,直到各数据集总数量为1时不再继续融合操作,对于被执行融合操作的第一、二数据集,遍历第一数据集中各第一区域数据,根据第一区域数据中的地理位置信息确定对应的第一区域的邻域区间;根据第二数据集中各第二区域数据,选出地理位置位于邻域区间内的目标第二区域;将目标第二区域与该第一区域进行文本匹配;将文本匹配成功的目标第二区域数据合并到该第一区域数据中;遍历完毕后将第二数据集中未进行合并的剩余第二区域数据加入第一数据集。能减小计算量,提高数据融合速度。数据融合速度。数据融合速度。

【技术实现步骤摘要】
一种数据融合方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种数据融合方法和装置。

技术介绍

[0002]在区域数据融合的场景中,需要对多个不同数据来源之间的区域数据融合,或者将某一数据来源内部的区域数据融合。例如,用于房产评估的房产数据,通常有多个数据来源,需要对这些数据源的房产数据进行融合,以方便更精准地剔除异常值、计算平均价格。现有的房产数据融合方案包括小区名匹配法和最近小区匹配法,前者需要将任意两两小区名之间都进行匹配,而后者需要对任意两两小区间的距离都进行计算。由于现有方案要对每个小区求与所有小区的正则结果或距离,计算量是数据总量的平方,计算量过大,严重影响数据融合的速度。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0004]现有方案计算量过大,严重影响数据融合的速度。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供一种数据融合方法和装置,能够减小计算量,提高数据融合的速度。
[0006]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种数据融合方法。
[0007]一种数据融合方法,包括:将所有数据集的其中任意两个数据集融合为一个新的数据集,并重复上述融合操作,直到各数据集总数量为1时,不再继续所述融合操作,得到最终融合后的数据集;其中,对于被执行所述融合操作的任意两个数据集:第一数据集和第二数据集,所述融合操作包括:遍历所述第一数据集中的各第一区域数据,对每个第一区域数据:根据该第一区域数据中的地理位置信息确定对应的第一区域的邻域区间;根据所述第二数据集中的各第二区域数据,选出地理位置位于所述邻域区间内的目标第二区域;将选出的目标第二区域与该第一区域进行文本匹配;将所述文本匹配成功的目标第二区域数据合并到该第一区域数据中;当所有第一区域数据遍历完毕,将所述第二数据集中未进行所述合并的剩余第二区域数据加入到所述第一数据集中,从而融合得到所述新的数据集。
[0008]可选地,所述地理位置信息包括经纬度信息,根据该第一区域数据中的地理位置信息确定对应的第一区域的邻域区间的步骤,包括:利用预设的距离阈值、地球半径、该第一区域数据中的经纬度信息,通过几何运算确定该第一区域的邻域的东、西边界经度,以及南、北边界纬度;根据所述东、西边界经度,以及南、北边界纬度,得到该第一区域的邻域区间,所述邻域区间包括由所述东、西边界经度确定的经度区间,以及由所述南、北边界纬度确定的纬度区间。
[0009]可选地,利用预设的距离阈值、地球半径、该第一区域数据中的经纬度信息,进行如下的几何运算,以确定该第一区域的邻域的东、西边界经度,以及南、北边界纬度:
[0010][0011][0012]lat
south
=arcsin[cos(d/R)
×
sinlat
0-sin(d/R)
×
coslat0];
[0013]lat
north
=arcsin[cos(d/R)
×
sinlat0+sin(d/R)
×
coslat0];
[0014]其中,lon
west
表示该第一区域的邻域的西边界经度,lon
east
表示该第一区域的邻域的东边界经度,lat
south
表示该第一区域的邻域的南边界纬度,lat
north
表示该第一区域的邻域的北边界纬度,lon0表示该第一区域的经度,lat0表示该第一区域的纬度,所述lon0和所述lat0的值从该第一区域数据中的经纬度信息得到,d为所述预设的距离阈值,R表示地球半径。
[0015]可选地,根据所述第二数据集中的各第二区域数据,选出地理位置位于所述邻域区间内的目标第二区域的步骤,包括:将每个第二区域数据中的经度与所述东、西边界经度比较,纬度与所述南、北边界纬度比较,以判断所述第二区域数据对应的第二区域的经度、纬度是否分别落入所述经度区间和所述纬度区间内;将经度落入所述经度区间内、且纬度落入所述纬度区间内的第二区域选为所述目标第二区域。
[0016]根据本专利技术实施例的另一方面,提供了一种数据融合装置。
[0017]一种数据融合装置,包括以下各模块:区域数据遍历模块、邻域区间确定模块、目标区域选取模块、文本匹配模块、数据合并模块,通过所述各模块将所有数据集的其中任意两个数据集融合为一个新的数据集,并重复上述融合操作,直到各数据集总数量为1时,不再继续所述融合操作,得到最终融合后的数据集;其中,对于被执行所述融合操作的任意两个数据集:第一数据集和第二数据集,所述区域数据遍历模块用于遍历所述第一数据集中的各第一区域数据,对每个第一区域数据:所述邻域区间确定模块用于根据该第一区域数据中的地理位置信息确定对应的第一区域的邻域区间;所述目标区域选取模块用于根据所述第二数据集中的各第二区域数据,选出地理位置位于所述邻域区间内的目标第二区域;所述文本匹配模块用于将选出的目标第二区域与该第一区域进行文本匹配;所述数据合并模块用于将所述文本匹配成功的目标第二区域数据合并到该第一区域数据中;当所有第一区域数据遍历完毕,所述数据合并模块还用于将所述第二数据集中未进行所述合并的剩余第二区域数据加入到所述第一数据集中,从而融合得到所述新的数据集。
[0018]可选地,所述地理位置信息包括经纬度信息,所述邻域区间确定模块还用于:利用预设的距离阈值、地球半径、该第一区域数据中的经纬度信息,通过几何运算确定该第一区域的邻域的东、西边界经度,以及南、北边界纬度;根据所述东、西边界经度,以及南、北边界纬度,得到该第一区域的邻域区间,所述邻域区间包括由所述东、西边界经度确定的经度区间,以及由所述南、北边界纬度确定的纬度区间。
[0019]可选地,所述邻域区间确定模块包括邻域边界确定子模块,用于:利用预设的距离阈值、地球半径、该第一区域数据中的经纬度信息,进行如下的几何运算,以确定该第一区域的邻域的东、西边界经度,以及南、北边界纬度:
[0020][0021][0022]lat
south
=arcsin[cos(d/R)
×
sinlat
0-sin(d/R)
×
coslat0];
[0023]lat
north
=arcsin[cos(d/R)
×
sinlat0+sin(d/R)
×
coslat0];
[0024]其中,lon
west
表示该第一区域的邻域的西边界经度,lon
east
表示该第一区域的邻域的东边界经度,lat
south
表示该第一区域的邻域的南边界纬度,lat
north
表示该第一区域的邻域的北边界纬度,lon0表示该第一区域的经度,lat0表示该第一区域的纬度,所述lon0和所述lat0的值从本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据融合方法,其特征在于,包括:将所有数据集的其中任意两个数据集融合为一个新的数据集,并重复上述融合操作,直到各数据集总数量为1时,不再继续所述融合操作,得到最终融合后的数据集;其中,对于被执行所述融合操作的任意两个数据集:第一数据集和第二数据集,所述融合操作包括:遍历所述第一数据集中的各第一区域数据,对每个第一区域数据:根据该第一区域数据中的地理位置信息确定对应的第一区域的邻域区间;根据所述第二数据集中的各第二区域数据,选出地理位置位于所述邻域区间内的目标第二区域;将选出的目标第二区域与该第一区域进行文本匹配;将所述文本匹配成功的目标第二区域数据合并到该第一区域数据中;当所有第一区域数据遍历完毕,将所述第二数据集中未进行所述合并的剩余第二区域数据加入到所述第一数据集中,从而融合得到所述新的数据集。2.根据权利要求1所述的方法,其特征在于,所述地理位置信息包括经纬度信息,根据该第一区域数据中的地理位置信息确定对应的第一区域的邻域区间的步骤,包括:利用预设的距离阈值、地球半径、该第一区域数据中的经纬度信息,通过几何运算确定该第一区域的邻域的东、西边界经度,以及南、北边界纬度;根据所述东、西边界经度,以及南、北边界纬度,得到该第一区域的邻域区间,所述邻域区间包括由所述东、西边界经度确定的经度区间,以及由所述南、北边界纬度确定的纬度区间。3.根据权利要求2所述的方法,其特征在于,利用预设的距离阈值、地球半径、该第一区域数据中的经纬度信息,进行如下的几何运算,以确定该第一区域的邻域的东、西边界经度,以及南、北边界纬度:度,以及南、北边界纬度:lat
south
=arcsin[cos(d/R)
×
sinlat
0-sin(d/R)
×
coslat0];lat
north
=arcsin[cos(d/R)
×
sinlat0+sin(d/R)
×
coslat0];其中,lon
west
表示该第一区域的邻域的西边界经度,lon
east
表示该第一区域的邻域的东边界经度,lat
south
表示该第一区域的邻域的南边界纬度,lat
north
表示该第一区域的邻域的北边界纬度,lon0表示该第一区域的经度,lat0表示该第一区域的纬度,所述lon0和所述lat0的值从该第一区域数据中的经纬度信息得到,d为所述预设的距离阈值,R表示地球半径。4.根据权利要求2或3所述的方法,其特征在于,根据所述第二数据集中的各第二区域数据,选出地理位置位于所述邻域区间内的目标第二区域的步骤,包括:将每个第二区域数据中的经度与所述东、西边界经度比较,纬度与所述南、北边界纬度比较,以判断所述第二区域数据对应的第二区域的经度、纬度是否分别落入所述经度区间和所述纬度区间内;
将经度落入所述经度区间内、且纬度落入所述纬度区间内的第二区域选为所述目标第二区域。5.一种数据融合装置,其特征在于,包括以下各模块:区域数据遍历模块、邻域区间确定模块、目标区域选取模块、文本匹配模块、数据合并模块,通过所述各模块将所有数据集的其中任意两个数据集融合为一个新的数据集,并重复上述融合操作,直到各数据集总数量为1时,不再继续所述融合操...

【专利技术属性】
技术研发人员:雷超
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1