一种数据融合方法及装置制造方法及图纸

技术编号:19023329 阅读:64 留言:0更新日期:2018-09-26 19:02
本发明专利技术公开一种数据融合方法及装置,所述方法包括:提取第一数据和第二数据中的属性,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系。计算各个属性之间的语义相似度值,确定大于预设第一阈值的语义相似度值,并将每个所述语义相似度值对应的属性确定为所述第一数据和所述第二数据的一对共有属性。通过比较每对共有属性对应的属性值,确定所述第一数据和所述第二数据之间的相似度值,如果所述第一数据和所述第二数据之间的相似度值大于预设第二阈值,则将所述第一数据和所述第二数据进行融合。本发明专利技术在保证数据融合准确性的前提下,提高了数据融合率。

【技术实现步骤摘要】
一种数据融合方法及装置
本专利技术涉及数据处理领域,具体涉及一种数据融合方法及装置。
技术介绍
数据融合是对指向同一实体的数据进行合并去重,最终实现对指向不同实体的数据保留。例如,歌曲库中存储有源自qq音乐的歌曲《忘情水》,包含有若干属性,如歌手刘德华、曲长4分钟;另外,歌曲库中还存储有源自虾米音乐的歌曲《忘情水》,包含歌手刘德华,发行时间1994年等属性。由于两首歌曲实质上是同一首歌曲,为了避免出现歌曲查询错误,系统需要对两首歌曲进行融合,即融合成一首歌曲《忘情水》存储在歌曲库中,其中融合后的歌曲中包含上述两首歌曲的所有属性。在数据融合的过程中,需要首先判断数据之间是否能够进行融合,通常是判断数据包含的特征是否能够融合。现有的处理方式是基于字符串对数据包含的特征进行比对判断,从而完成数据融合。但是,基于字符串对特征的严格匹配会造成数据的融合率较低。也就是说,这种方式会造成实际上能够进行融合的数据得不到融合。
技术实现思路
有鉴于此,本专利技术提供了一种数据融合方法及装置。本专利技术提供了一种数据融合方法,所述方法包括:提取第一数据和第二数据中的属性,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系;计算各个属性之间的语义相似度值;确定大于预设第一阈值的语义相似度值,并将每个所述语义相似度值对应的属性确定为所述第一数据和所述第二数据的一对共有属性;通过比较每对共有属性对应的属性值,确定所述第一数据和所述第二数据之间的相似度值;如果所述第一数据和所述第二数据之间的相似度值大于预设第二阈值,则将所述第一数据和所述第二数据进行融合。优选地,所述通过比较每对共有属性对应的属性值,确定所述第一数据和所述第二数据之间的相似度值,包括:从所述第一数据和所述第二数据中,获取每对共有属性对应的属性值,并计算同一对共有属性对应的属性值之间的语义相似度值;根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值。优选地,所述方法还包括:在所述第一数据和所述第二数据中,计算每对共有属性对应的权重值。优选地,所述根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值,包括:将每对共有属性对应的属性值之间的语义相似度值与该对共有属性对应的权重值的乘积进行累加,得到所述第一数据和所述第二数据之间的相似度值。优选地,所述根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值之前,还包括:从所述共有属性中,筛除所述语义相似度值不大于预设第三阈值的属性值对应的共有属性。优选地,所述计算各个属性之间的语义相似度值之前,还包括:提取所述第一数据和所述第二数据中各个属性对应的属性值,并获取相似度值大于预设第四阈值的属性值对应的属性。优选地,所述计算各个属性之间的语义相似度值,包括:计算所述相似度值大于预设第四阈值的属性值对应的属性之间的语义相似度值。优选地,所述计算各个属性之间的语义相似度值之前,还包括:通过查询预设的同义词库,将属于同义词的属性确定为所述第一数据和所述第二数据的一对共有属性。优选地,所述计算各个属性之间的语义相似度值,包括:计算不属于同义词的属性之间的语义相似度值。优选地,所述计算各个属性之间的语义相似度值,包括:利用预设的词嵌入模型分别获取各个属性对应的语义向量;计算各个属性对应的语义向量之间的语义相似度值。本专利技术还提供了一种数据融合方法,所述方法包括:提取第一数据和第二数据中的属性值,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系;计算各个属性值之间的相似度值;根据所述各个属性值之间的相似度值,确定所述第一数据和所述第二数据之间的相似度值;如果所述第一数据和所述第二数据之间的相似度值大于预设第二阈值,则将所述第一数据和所述第二数据进行融合。优选地,所述计算各个属性值之间的相似度值之前,还包括:提取所述第一数据和所述第二数据中的属性;计算各个属性之间的语义相似度值;确定大于预设第一阈值的语义相似度值,并将每个所述语义相似度值对应的属性确定为所述第一数据和所述第二数据的一对共有属性。优选地,所述计算各个属性值之间的相似度值,包括:计算同一对共有属性对应的属性值之间的语义相似度值。优选地,所述根据所述各个属性值之间的相似度值,确定所述第一数据和所述第二数据之间的相似度值,包括:根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值。优选地,所述方法还包括:在所述第一数据和所述第二数据中,计算每对共有属性对应的权重值。优选地,所述根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值,包括:将每对共有属性对应的属性值之间的语义相似度值与该对共有属性对应的权重值的乘积进行累加,得到所述第一数据和所述第二数据之间的相似度值。优选地,所述根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值之前,还包括:从所述共有属性中,筛除所述语义相似度值不大于预设第三阈值的属性值对应的共有属性。优选地,所述计算各个属性之间的语义相似度值之前,还包括:获取相似度值大于预设第四阈值的属性值对应的属性。优选地,所述计算各个属性之间的语义相似度值,包括:计算所述相似度值大于预设第四阈值的属性值对应的属性之间的语义相似度值。优选地,所述计算各个属性之间的语义相似度值之前,还包括:通过查询预设的同义词库,将属于同义词的属性确定为所述第一数据和所述第二数据的一对共有属性。优选地,所述计算各个属性之间的语义相似度值,包括:计算不属于同义词的属性之间的语义相似度值。优选地,所述计算各个属性之间的语义相似度值,包括:利用预设的词嵌入模型分别获取各个属性对应的语义向量;计算各个属性对应的语义向量之间的语义相似度值。优选地,所述计算各个属性值之间的相似度值,包括:计算各个属性值之间的字符串相似度值。本专利技术还提供了一种数据融合装置,所述装置包括:提取模块,用于提取第一数据和第二数据中的属性,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系;第一计算模块,用于计算各个属性之间的语义相似度值;第一确定模块,用于确定大于预设第一阈值的语义相似度值,并将每个所述语义相似度值对应的属性确定为所述第一数据和所述第二数据的一对共有属性;第二确定模块,用于通过比较每对共有属性对应的属性值,确定所述第一数据和所述第二数据之间的相似度值;融合模块,用于在所述第一数据和所述第二数据之间的相似度值大于预设第二阈值时,将所述第一数据和所述第二数据进行融合。优选地,所述第二确定模块包括:第一计算子模块,用于从所述第一数据和所述第二数据中,获取每对共有属性对应的属性值,并计算同一对共有属性对应的属性值之间的语义相似度值;第一确定子模块,用于根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值。优选地,所述装置还包括:第二计算模块,用于在所述第一数据和所述第二数据中,计算每对共有属性对应的权重值。优选地,所述第一确定子模块包括:累加子模块,用于将每对共有属性对应的属性值之间的语义相似度值与该对共有属性对应的本文档来自技高网...

【技术保护点】
1.一种数据融合方法,其特征在于,所述方法包括:提取第一数据和第二数据中的属性,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系;计算各个属性之间的语义相似度值;确定大于预设第一阈值的语义相似度值,并将每个所述语义相似度值对应的属性确定为所述第一数据和所述第二数据的一对共有属性;通过比较每对共有属性对应的属性值,确定所述第一数据和所述第二数据之间的相似度值;如果所述第一数据和所述第二数据之间的相似度值大于预设第二阈值,则将所述第一数据和所述第二数据进行融合。

【技术特征摘要】
1.一种数据融合方法,其特征在于,所述方法包括:提取第一数据和第二数据中的属性,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系;计算各个属性之间的语义相似度值;确定大于预设第一阈值的语义相似度值,并将每个所述语义相似度值对应的属性确定为所述第一数据和所述第二数据的一对共有属性;通过比较每对共有属性对应的属性值,确定所述第一数据和所述第二数据之间的相似度值;如果所述第一数据和所述第二数据之间的相似度值大于预设第二阈值,则将所述第一数据和所述第二数据进行融合。2.根据权利要求1所述的数据融合方法,其特征在于,所述通过比较每对共有属性对应的属性值,确定所述第一数据和所述第二数据之间的相似度值,包括:从所述第一数据和所述第二数据中,获取每对共有属性对应的属性值,并计算同一对共有属性对应的属性值之间的语义相似度值;根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值。3.根据权利要求2所述的数据融合方法,其特征在于,所述方法还包括:在所述第一数据和所述第二数据中,计算每对共有属性对应的权重值。4.根据权利要求3所述的数据融合方法,其特征在于,所述根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值,包括:将每对共有属性对应的属性值之间的语义相似度值与该对共有属性对应的权重值的乘积进行累加,得到所述第一数据和所述第二数据之间的相似度值。5.根据权利要求2所述的数据融合方法,其特征在于,所述根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值之前,还包括:从所述共有属性中,筛除所述语义相似度值不大于预设第三阈值的属性值对应的共有属性。6.根据权利要求1所述的数据融合方法,其特征在于,所述计算各个属性之间的语义相似度值之前,还包括:提取所述第一数据和所述第二数据中各个属性对应的属性值,并获取相似度值大于预设第四阈值的属性值对应的属性。7.根据权利要求6所述的数据融合方法,其特征在于,所述计算各个属性之间的语义相似度值,包括:计算所述相似度值大于预设第四阈值的属性值对应的属性之间的语义相似度值。8.根据权利要求1所述的数据融合方法,其特征在于,所述计算各个属性之间的语义相似度值之前,还包括:通过查询预设的同义词库,将属于同义词的属性确定为所述第一数据和所述第二数据的一对共有属性。9.根据权利要求8所述的数据融合方法,其特征在于,所述计算各个属性之间的语义相似度值,包括:计算不属于同义词的属性之间的语义相似度值。10.根据权利要求1所述的数据融合方法,其特征在于,所述计算各个属性之间的语义相似度值,包括:利用预设的词嵌入模型分别获取各个属性对应的语义向量;计算各个属性对应的语义向量之间的语义相似度值。11.一种数据融合方法,其特征在于,所述方法包括:提取第一数据和第二数据中的属性值,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系;计算各个属性值之间的相似度值;根据所述各个属性值之间的相似度值,确定所述第一数据和所述第二数据之间的相似度值;如果所述第一数据和所述第二数据之间的相似度值大于预设第二阈值,则将所述第一数据和所述第二数据进行融合。12.根据权利要求11所述的数据融合方法,其特征在于,所述计算各个属性值之间的相似度值之前,还包括:提取所述第一数据和所述第二数据中的属性;计算各个属性之间的语义相似度值;确定大于预设第一阈值的语义相似度值,并将每个所述语义相似度值对应的属性确定为所述第一数据和所述第二数据的一对共有属性。13.根据权利要求12所述的数据融合方法,其特征在于,所述计算各个属性值之间的相似度值,包括:计算同一对共有属性对应的属性值之间的语义相似度值。14.根据权利要求13所述的数据融合方法,其特征在于,所述根据所述各个属性值之间的相似度值,确定所述第一数据和所述第二数据之间的相似度值,包括:根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值。15.根据权利要求14所述的数据融合方法,其特征在于,所述方法还包括:在所述第一数据和所述第二数据中,计算每对共有属性对应的权重值。16.根据权利要求15所述的数据融合方法,其特征在于,所述根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相...

【专利技术属性】
技术研发人员:甘骏苏可饶孟良
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1