【技术实现步骤摘要】
一种数据融合方法、装置及计算机设备
本专利技术实施例涉及数据处理
,尤其涉及一种数据融合方法、装置及计算机设备。
技术介绍
数据查询可以根据用户的查询需求为用户提供海量的查询信息。数据查询可以广泛应用在各种领域,如各种APP(Application,应用程序)或数据查询系统等。当一个数据查询系统集成了多个关联的数据查询平台时,如果用户对数据查询系统发送一个数据查询请求,则该数据查询系统会向用户反馈所有关联的数据查询平台返回的数据查询结果。在这些反馈的数据查询结果中,存在明显的数据查询结果重复问题,导致数据查询结果的冗余度较高。
技术实现思路
本专利技术实施例提供一种数据融合方法、装置及计算机设备,以实现对数据查询结果的去冗余处理,从而提高数据查询结果的精准性、简练性和可靠性。第一方面,本专利技术实施例提供了一种数据融合方法,包括:获取用户输入的数据查询请求;其中,所述数据查询请求包括设定数量的查询关键词;根据所述查询关键词确定数据查询结果;计算所述数据查询结果的相似度;如果确定所述数据查询结果的相似度满足数据融合条件,则对所述数据查询结果进行融合。第二方面,本专利技术实施例还提供了一种数据融合装置,包括:数据查询请求获取模块,用于获取用户输入的数据查询请求;其中,所述数据查询请求包括设定数量的查询关键词;数据查询结果确定模块,用于根据所述查询关键词确定数据查询结果;相似度计算模块,用于计算所述数据查询结果的相似度 ...
【技术保护点】
1.一种数据融合方法,其特征在于,包括:/n获取用户输入的数据查询请求;其中,所述数据查询请求包括设定数量的查询关键词;/n根据所述查询关键词确定数据查询结果;/n计算所述数据查询结果的相似度;/n如果确定所述数据查询结果的相似度满足数据融合条件,则对所述数据查询结果进行融合。/n
【技术特征摘要】
1.一种数据融合方法,其特征在于,包括:
获取用户输入的数据查询请求;其中,所述数据查询请求包括设定数量的查询关键词;
根据所述查询关键词确定数据查询结果;
计算所述数据查询结果的相似度;
如果确定所述数据查询结果的相似度满足数据融合条件,则对所述数据查询结果进行融合。
2.根据权利要求1所述的方法,其特征在于,所述根据所述查询关键词确定数据查询结果,包括:
根据各所述查询关键词确定数据查询条件;
根据所述数据查询条件在数据源中进行查询,以确定数据查询结果;
其中,所述数据查询结果为至少一个数据查询平台提供的查询结果列表;所述查询结果列表包括至少一个查询结果。
3.根据权利要求2所述的方法,其特征在于,所述数据查询请求用于查询目标对象的通讯关联信息;
所述计算所述数据查询结果的相似度,包括:
如果确定各所述查询结果存在地理位置信息,则计算每两个查询结果之间的地理位置距离;所述地理位置距离用于计算所述两个查询结果之间的名称相似度;
否则,计算每两个查询结果之间的地址相似度。
4.根据权利要求3所述的方法,其特征在于,所述计算所述数据查询结果的相似度,包括:
如果所述地理位置距离满足第一相似度计算条件,和/或,所述地址相似度满足第二相似度计算条件,则计算所述两个查询结果之间的名称相似度和联系信息相似度;
如果所述地理位置距离不满足第一相似度计算条件,且所述地址相似度不满足第二相似度计算条件,则确定所述两个查询结果的相似度不满足所述数据融合条件。
5.根据权利要求4所述的方法,其特征在于,所述如果确定所述数据查询结果的相似度满足数据融合条件,则对所述数据查询结果进行融合,包括:
如果确定所述名称相似度满足第三相似度计算条件,且所述两个查询结果的联系信息相似度满足第四相似度计算条件,则对所述两个查询结果进行融合;
如果确定所述名称相似度不满足第三相似度计算条件,且所述两个查询结果的联系信息相似度满足第四相似度计算条件,或,所述名称相似度满足第三相似度计算条件,且所述两个查询结果的联系信息相似度不满足第四相似度计算条件,则将所述两个查询结果的关联信息添加至数据日志中;
其中,所述数据日志用于人工判断所述两个查询结果的相似度,并根据判断结果对所述两个查询结果进行融合。
6.根据权利要求5所述的方法,其特征在于,在对所述两个查询结果进行融合之后,还包括:
将融合后的查询结果的数据身份标识添加至数据关联表。
7.根据权利要求2-6任一所述的方法,其特征在于,所述计算所述数据查询结果的相似度,包括:
对两个查询结果进行分词处理,获取所述两个查询结果对应的分词结果;
分别计算所述查询结果中各所述分词结果的词频;
根据各所述分词结果的词频计算各所述查询结果的词频向量;
根据各所述查询结果的词频向量计算两个所述查询结果的相似度。
8.根据权利要求7所述的方法,其特征在于,所述根据各所述查询结果的词频向量计算两个所述查询结果的相似度,包括:
基于如下公式根据各所述查询结果的词频向量计算两个所述查询结果的相似度:
其中,θ表示两个词频向量之间的夹角,cos(θ)表示两个词频向量的余弦值,xi表示第一查询结果的词频向量的分量,yi表示第二查询结果的词频向量的分量,n表示所述两个查询结果的分词结果的总数量。
9.一种数据融合装置,其特征在于,包括:
数据查询请求获取模块,用于获取用户输入的数据查询请...
【专利技术属性】
技术研发人员:董磊,
申请(专利权)人:大众问问北京信息科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。