一种同类数据对象的匹配方法和装置制造方法及图纸

技术编号:11167368 阅读:85 留言:0更新日期:2015-03-19 00:59
本申请涉及一种同类数据对象的匹配方法和装置。其中,该方法包括:分别获得多个同类数据对象集合;分别挖掘所述同类数据对象集合的每一数据对象的核心词,获取各同类数据对象集合的核心词词组;计算任意两个同类数据对象集合的核心词词组的相似度;当所述相似度大于设定阈值时,将发生比较的两个同类数据对象集合中的数据对象确定为同类数据对象。其通过根据数据对象的一个或多个数据标签,挖掘出核心词,在来自各数据平台的多个同类数据对象集合中进一步做匹配,最终在各数据平台海量数据对象中确定绝对同类数据对象,从而解决跨平台准确匹配同类数据对象的问题,提高跨数据平台的同类数据对象匹配的准确性。

【技术实现步骤摘要】
一种同类数据对象的匹配方法和装置
本申请涉及数据处理领域,尤其涉及一种同类数据对象的匹配方法和装置。
技术介绍
随着互联网技术的迅猛发展,当前进入了信息爆炸的时代,将海量数据对象同时 呈现给用户,使用户很难从中发现自己感兴趣的部分。基于同类数据对象匹配的方法可以 在海量数据对象中将具有相同数据标签的多个数据对象(同类数据对象)匹配在一起,进而 将同类数据对象聚合在一起,得到同类数据对象的集合,通过这样的方法可以为用户分类 展示不同的数据对象,使用户更容易发现自己感兴趣的数据对象,从而增强了用户体验效 果。 目前对同一个数据平台中的大量的数据对象进行同类数据对象匹配的技术,已经 成为各个数据平台解决为用户展示的数据对象过于分散的问题的重要技术之一,并且该技 术已经日趋成熟。 然而对于来自跨数据平台的数据对象却不能进行同类数据对象的匹配。具体而 言,在每一个数据平台中可以依据海量数据对象普遍拥有的一个或多个数据标签在海量 数据中对同类数据对象进行匹配,进而实现同类数据对象的聚合,例如,当数据对象为书籍 时,可以将书籍普遍拥有的分类号作为数据标签对书籍进行匹配,如,将海量书籍中分类号 包括D(政治法律类)的书籍进行匹配,进而可以将政治法律类书籍(同类书籍)聚合在一 起。 但是每一个数据平台拥有各自的同类数据对象的匹配方法,例如,在不同类目下, 使用不同的数据标签进行数据对象的匹配,若使用其中一个数据平台的匹配方法将多个数 据平台中的海量数据对象进行匹配,所匹配出的同类数据对象会由于匹配方法的差异存在 准确性低的问题,例如:对不同的数据平台中包含上海(数据标签)的数据对象进行匹配, 该不同的数据平台可以是旅游网站、购物网站、阅读网站等等,则将这些网站中包含上海 的数据对象进行匹配,可能得到地理类(旅游路书)、商品类(商品)、人文类(文章)等不同的 数据对象,即,所得到的数据对象并非都是同类数据对象,也未达到同类数据对象聚合的目 的。所以现有技术中跨数据平台的数据对象匹配结果准确性不高。
技术实现思路
本申请的主要目的在于提供一种同类数据对象的匹配方法和装置,以克服现有技 术存在的跨数据平台匹配同类数据对象准确性低的缺陷,解决跨平台准确匹配同类数据对 象的问题。 本申请一方面提供的一种同类数据对象的匹配方法,包括:分别获得多个同类数 据对象集合;分别挖掘所述同类数据对象集合的每一数据对象的核心词,获取各同类数据 对象集合的核心词词组;计算任意两个同类数据对象集合的核心词词组的相似度;当所述 相似度大于设定阈值时,将发生比较的两个同类数据对象集合中的数据对象确定为同类数 据对象。 进一步的,多个同类数据对象集合分别来自不同数据平台。 进一步的,在每一个所述数据平台,对多个数据对象进行匹配,以聚合得到一个或 多个同类数据对象的集合;其中,所述同类数据对象集合中包含一个或多个具有相同的一 个或多个数据标签的数据对象。 进一步的,分别获得多个同类数据对象集合包括:将来自各个不同数据平台的包 含相同的一个或多个数据标签的多个同类数据对象集合进行关联。 进一步的,一个或多个数据标签包括第一数据标签、第二数据标签和/或第三数 据标签。 进一步的,挖掘所述同类数据对象集合的每一个数据对象的核心词,包括,基于所 述每一个数据对象所包含的内容和/或数据标签,挖掘所述每一个数据对象的核心词。 进一步的,计算任意两个同类数据对象集合的核心词词组的相似度,包括,计算每 一个所述核心词词组中的每一个核心词所占的权重;基于所述每一个所述核心词词组中 每一个核心词所占的权重,计算所述多个相关联的所述同类数据对象集合之间的余弦相似 度。 本申请另一方面提供的一种同类数据对象的匹配装置,包括:获得模块,用于分别 获得多个同类数据对象集合;挖掘与获取模块,用于分别挖掘所述同类数据对象集合的每 一数据对象的核心词,获取各同类数据对象集合的核心词词组;计算模块,用于计算任意两 个同类数据对象集合的核心词词组的相似度;确定模块,用于当所述相似度大于设定阈值 时,将发生比较的两个同类数据对象集合中数据对象确定为同类数据对象。 进一步的,同类数据对象集合分别来自不同数据平台。 进一步的,获得模块还包括,在每一个所述数据平台,对多个数据对象进行匹配, 以聚合得到一个或多个同类数据对象的集合,其中,所述同类数据对象集合中包含一个或 多个具有相同的一个或多个数据标签的数据对象。 进一步的,获得模块还包括,将来自各个不同数据平台的包含相同的一个或多个 数据标签的多个同类数据对象集合进行关联。 进一步的,一个或多个数据标签包括第一数据标签、第二数据标签和/或第三数 据标签。 进一步的,挖掘与获取模块还包括:基于所述每一个数据对象所包含的内容和/ 或数据标签,挖掘所述每一个数据对象的核心词。 进一步的,计算模块还包括计算每一个所述核心词词组中的每一个核心词所占的 权重;基于所述每一个所述核心词词组中每一个核心词所占的权重,计算所述多个相关联 的所述同类数据对象集合之间的余弦相似度。 与现有技术相比,根据本申请的技术方案具有以下有益效果: 本申请可以通过先在每个数据平台中各自进行同类数据对象的匹配,然后根据数 据对象的一个或多个数据标签挖掘核心词,在来自各数据平台的多个同类数据对象集合中 进行进一步地匹配,最终在各数据平台的海量数据对象中确定出同类数据对象(绝对同类 数据对象),进而以此提高跨数据平台的同类数据对象匹配的准确性。 【附图说明】 此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申 请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中: 图1是根据本申请一实施例的同类数据对象的匹配的示意图; 图2是根据本申请一实施例的同类数据对象的匹配方法的流程图; 图3是根据本申请一实施例的同类数据对象的类目结构示意图; 图4是根据本申请一实施例的计算同类数据对象集合的相似度的方法的流程图; 图5是根据本申请一实施例的同类数据对象的匹配装置的结构图。 【具体实施方式】 本申请的主要思想在于,在各数据平台中,先利用数据对象的一个或多个数据标 签,在海量数据对象中实现同类数据对象的匹配获得同类数据对象集合(一个或多个这样 的集合),再以此为基础,将各个平台的相对同类数据对象集合进行关联和挖掘,以进一 步匹配获得跨平台下海量数据对象中的绝对同类数据对象,以提高跨平台海量数据中搜 索同类数据对象的效率和精确度,从而使得搜索结果更准确。 为使本申请的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本 申请作进一步地详细说明。 如图1所示,根据本申请一实施例的同类数据对象的匹配的示意图。在各数据平 台中,如以两个数据平台为例,第一数据平台101、第二数据平台102,分别利用数据对象的 数据标签(即标识该数据对象的数据属性特征),比如第一数据标签、第二数据标签、叶子类 目(第三数据标签),在海量数据对象中进行同类数据对象的匹配,从而得到第一数据平台 101的一个或多个同本文档来自技高网
...

【技术保护点】
一种同类数据对象的匹配方法,其特征在于,包括:分别获得多个同类数据对象集合;分别挖掘所述同类数据对象集合的每一数据对象的核心词,获取各同类数据对象集合的核心词词组;计算任意两个同类数据对象集合的核心词词组的相似度;当所述相似度大于设定阈值时,将发生比较的两个同类数据对象集合中的数据对象确定为同类数据对象。

【技术特征摘要】
1. 一种同类数据对象的匹配方法,其特征在于,包括: 分别获得多个同类数据对象集合; 分别挖掘所述同类数据对象集合的每一数据对象的核心词,获取各同类数据对象集合 的核心词词组; 计算任意两个同类数据对象集合的核心词词组的相似度; 当所述相似度大于设定阈值时,将发生比较的两个同类数据对象集合中的数据对象确 定为同类数据对象。2. 根据权利要求1所述的方法,其特征在于,所述多个同类数据对象集合分别来自不 同数据平台。3. 根据权利要求2所述的方法,其特征在于,还包括: 在每一个所述数据平台,对多个数据对象进行匹配,以聚合得到一个或多个同类数据 对象的集合;其中, 所述同类数据对象集合中包含一个或多个具有相同的一个或多个数据标签的数据对 象。4. 根据权利要求1-3任一所述的方法,其特征在于,所述分别获得多个同类数据对象 集合,还包括: 将来自各个不同数据平台的包含相同的一个或多个数据标签的多个同类数据对象集 合进行关联。5. 根据权利要求4所述的方法,其特征在于,所述一个或多个数据标签包括第一数据 标签、第二数据标签和/或第三数据标签。6. 根据权利要求1所述的方法,其特征在于,所述挖掘所述同类数据对象集合的每一 个数据对象的核心词,包括: 基于所述每一个数据对象所包含的内容和/或数据标签,挖掘所述每一个数据对象的 核心词。7. 根据权利要求1所述的方法,其特征在于,所述计算任意两个同类数据对象集合的 核心词词组的相似度,包括: 计算每一个所述核心词词组中的每一个核心词所占的权重; 基于所述每一个所述核心词词组中每一个核心词所占的权重,计算所述多个相关联的 所述同类数据对象集合之间的余弦相似...

【专利技术属性】
技术研发人员:何宪隋宜桓
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1