一种数据融合方法、装置及计算机设备制造方法及图纸

技术编号:23764408 阅读:26 留言:0更新日期:2020-04-11 19:04
本发明专利技术实施例公开了一种数据融合方法、装置及计算机设备,其中,方法包括:获取用户输入的数据查询请求;其中,所述数据查询请求包括设定数量的查询关键词;根据所述查询关键词确定数据查询结果;计算所述数据查询结果的相似度;如果确定所述数据查询结果的相似度满足数据融合条件,则对所述数据查询结果进行融合。本发明专利技术实施例的技术方案能够实现对数据查询结果的去冗余处理,从而提高数据查询结果的精准性、简练性和可靠性。

A data fusion method, device and computer equipment

【技术实现步骤摘要】
一种数据融合方法、装置及计算机设备
本专利技术实施例涉及数据处理
,尤其涉及一种数据融合方法、装置及计算机设备。
技术介绍
数据查询可以根据用户的查询需求为用户提供海量的查询信息。数据查询可以广泛应用在各种领域,如各种APP(Application,应用程序)或数据查询系统等。当一个数据查询系统集成了多个关联的数据查询平台时,如果用户对数据查询系统发送一个数据查询请求,则该数据查询系统会向用户反馈所有关联的数据查询平台返回的数据查询结果。在这些反馈的数据查询结果中,存在明显的数据查询结果重复问题,导致数据查询结果的冗余度较高。
技术实现思路
本专利技术实施例提供一种数据融合方法、装置及计算机设备,以实现对数据查询结果的去冗余处理,从而提高数据查询结果的精准性、简练性和可靠性。第一方面,本专利技术实施例提供了一种数据融合方法,包括:获取用户输入的数据查询请求;其中,所述数据查询请求包括设定数量的查询关键词;根据所述查询关键词确定数据查询结果;计算所述数据查询结果的相似度;如果确定所述数据查询结果的相似度满足数据融合条件,则对所述数据查询结果进行融合。第二方面,本专利技术实施例还提供了一种数据融合装置,包括:数据查询请求获取模块,用于获取用户输入的数据查询请求;其中,所述数据查询请求包括设定数量的查询关键词;数据查询结果确定模块,用于根据所述查询关键词确定数据查询结果;相似度计算模块,用于计算所述数据查询结果的相似度;数据查询结果融合模块,用于如果确定所述数据查询结果的相似度满足数据融合条件,则对所述数据查询结果进行融合。第三方面,本专利技术实施例还提供了一种计算机设备,所述计算机设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例所提供的数据融合方法。第四方面,本专利技术实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术任意实施例所提供的数据融合方法。本专利技术实施例通过根据用户输入的包括查询关键词的数据查询请求确定数据查询结果,并计算数据查询结果的相似度,在如果确定数据查询结果的相似度满足数据融合条件时,对数据查询结果进行融合,解决现有数据查询系统存在的数据查询结果冗余度较高的问题,实现对数据查询结果的去冗余处理,从而提高数据查询结果的精准性、简练性和可靠性。附图说明图1是本专利技术实施例一提供的一种数据融合方法的流程图;图2a是本专利技术实施例二提供的一种数据融合方法的流程图;图2b是本专利技术实施例提供的一种数据融合方法的流程图;图3是本专利技术实施例三提供的一种数据融合装置的示意图;图4为本专利技术实施例四提供的一种计算机设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。实施例一图1是本专利技术实施例一提供的一种数据融合方法的流程图,本实施例可适用于对冗余的数据查询结果进行融合的情况,该方法可以由数据融合装置来执行,该装置可以由软件和/或硬件的方式来实现,并一般可集成在计算机设备中。相应的,如图1所示,该方法包括如下操作:S110、获取用户输入的数据查询请求;其中,所述数据查询请求包括设定数量的查询关键词。其中,数据查询请求可以是查询目标数据的请求,目标数据可以是诸如商家数据、词条数据或音视频数据等。示例性的,对于团购平台来说,目标数据可以是各类商家数据,包括但不限于商家名称、联系方式及地址信息等。对于音视频平台来说,目标数据可以是各类音视频数据,包括但不限于音视频名称、文件大小及文件格式等。本专利技术实施例并不对目标数据及对应的数据查询请求的具体类型进行限定。设定数量可以是根据实际需求设定的数值,如2、3或5等,本专利技术实施例并不对设定数量的具体数值进行限定。查询关键词可以是数据查询请求包括的关键词,查询关键词的类型及数量可以根据数据查询平台的应用类型确定。例如,数据查询平台为某一团购平台,则查询关键词可以是“城市”、“区域”、“好评数”及“关键字”等。数据查询平台可以是APP,也可以是网页应用等,任何可以提供数据查询功能的平台均可以作为数据查询平台,本专利技术实施例并不对数据查询平台的类型进行限定。首先,本专利技术实施例的技术方案主要适用于这样一种应用场景:数据查询系统可以集成多种类型的数据查询平台。示例性的,对于团购平台来说,可以包括“XX团”或“XX点评网”等,对于搜索平台来说,可以包括“AA搜索”或“SS搜索”等。同一类型的数据查询平台针对相同目标数据的存储资源可能并不相同。示例性的,商家在XX团的注册信息为“地址:CY区CY区南AA路1号BB中心4层4-6号;店名:CC烤肉(三里屯店);电话:010-560XX30”,在XX点评网的注册信息为“地址:CY区AA路1号BB中心4层4-6;店名:CC烤肉(三里屯店);电话:010-560XX30”。现有技术中,当用户使用数据查询系统输入数据查询请求“BJ市CY区CC烤肉”时,数据查询系统会得到所有团购平台关于“CY区CC烤肉”的数据查询结果。例如,XX团可能反馈100条关于“CY区CC烤肉”的数据查询结果,XX点评网可能反馈50条关于“CY区CC烤肉”的数据查询结果,且上述团购平台反馈的数据查询结果均为关于“CY区CC烤肉”的团购信息或商家信息等。为了实现对数据查询结果的去冗余处理,可以针对关于“CY区CC烤肉”重复的团购信息或商家信息进行融合,得到关于“CY区CC烤肉”最全面的信息作为融合结果,或者也还可以根据业务需求将其中某一团购平台反馈的关于“CY区CC烤肉”的团购信息或商家信息作为最终的融合结果,并将最终的融合结果反馈给用户。用户根据反馈的融合结果可以快速定位获取目标信息,从而减少用户排除数据查询结果的时间。在本专利技术实施例中,为了实现数据融合效果,首先需要获取用户输入的包括设定数量查询关键词的数据查询请求。例如,“BJ市CY区CC烤肉”或“林JJ的最新单曲”等均可以作为数据查询请求。S120、根据所述查询关键词确定数据查询结果。其中,数据查询结果可以是数据查询系统中各个数据查询平台反馈的所有数据查询结果的集合。例如,对于数据查询请求“BJ市CY区CC烤肉本文档来自技高网...

【技术保护点】
1.一种数据融合方法,其特征在于,包括:/n获取用户输入的数据查询请求;其中,所述数据查询请求包括设定数量的查询关键词;/n根据所述查询关键词确定数据查询结果;/n计算所述数据查询结果的相似度;/n如果确定所述数据查询结果的相似度满足数据融合条件,则对所述数据查询结果进行融合。/n

【技术特征摘要】
1.一种数据融合方法,其特征在于,包括:
获取用户输入的数据查询请求;其中,所述数据查询请求包括设定数量的查询关键词;
根据所述查询关键词确定数据查询结果;
计算所述数据查询结果的相似度;
如果确定所述数据查询结果的相似度满足数据融合条件,则对所述数据查询结果进行融合。


2.根据权利要求1所述的方法,其特征在于,所述根据所述查询关键词确定数据查询结果,包括:
根据各所述查询关键词确定数据查询条件;
根据所述数据查询条件在数据源中进行查询,以确定数据查询结果;
其中,所述数据查询结果为至少一个数据查询平台提供的查询结果列表;所述查询结果列表包括至少一个查询结果。


3.根据权利要求2所述的方法,其特征在于,所述数据查询请求用于查询目标对象的通讯关联信息;
所述计算所述数据查询结果的相似度,包括:
如果确定各所述查询结果存在地理位置信息,则计算每两个查询结果之间的地理位置距离;所述地理位置距离用于计算所述两个查询结果之间的名称相似度;
否则,计算每两个查询结果之间的地址相似度。


4.根据权利要求3所述的方法,其特征在于,所述计算所述数据查询结果的相似度,包括:
如果所述地理位置距离满足第一相似度计算条件,和/或,所述地址相似度满足第二相似度计算条件,则计算所述两个查询结果之间的名称相似度和联系信息相似度;
如果所述地理位置距离不满足第一相似度计算条件,且所述地址相似度不满足第二相似度计算条件,则确定所述两个查询结果的相似度不满足所述数据融合条件。


5.根据权利要求4所述的方法,其特征在于,所述如果确定所述数据查询结果的相似度满足数据融合条件,则对所述数据查询结果进行融合,包括:
如果确定所述名称相似度满足第三相似度计算条件,且所述两个查询结果的联系信息相似度满足第四相似度计算条件,则对所述两个查询结果进行融合;
如果确定所述名称相似度不满足第三相似度计算条件,且所述两个查询结果的联系信息相似度满足第四相似度计算条件,或,所述名称相似度满足第三相似度计算条件,且所述两个查询结果的联系信息相似度不满足第四相似度计算条件,则将所述两个查询结果的关联信息添加至数据日志中;
其中,所述数据日志用于人工判断所述两个查询结果的相似度,并根据判断结果对所述两个查询结果进行融合。


6.根据权利要求5所述的方法,其特征在于,在对所述两个查询结果进行融合之后,还包括:
将融合后的查询结果的数据身份标识添加至数据关联表。


7.根据权利要求2-6任一所述的方法,其特征在于,所述计算所述数据查询结果的相似度,包括:
对两个查询结果进行分词处理,获取所述两个查询结果对应的分词结果;
分别计算所述查询结果中各所述分词结果的词频;
根据各所述分词结果的词频计算各所述查询结果的词频向量;
根据各所述查询结果的词频向量计算两个所述查询结果的相似度。


8.根据权利要求7所述的方法,其特征在于,所述根据各所述查询结果的词频向量计算两个所述查询结果的相似度,包括:
基于如下公式根据各所述查询结果的词频向量计算两个所述查询结果的相似度:



其中,θ表示两个词频向量之间的夹角,cos(θ)表示两个词频向量的余弦值,xi表示第一查询结果的词频向量的分量,yi表示第二查询结果的词频向量的分量,n表示所述两个查询结果的分词结果的总数量。


9.一种数据融合装置,其特征在于,包括:
数据查询请求获取模块,用于获取用户输入的数据查询请...

【专利技术属性】
技术研发人员:董磊
申请(专利权)人:大众问问北京信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1