挖掘属性和实体关联关系的方法和装置制造方法及图纸

技术编号:9765981 阅读:162 留言:0更新日期:2014-03-15 11:59
本发明专利技术提出一种挖掘属性和实体关联关系的方法和装置,其中该方法包括:获取待关联属性;根据待关联属性从多个实体中获得至少一个种子实体;以及获得至少一个种子实体的关联实体,并将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。本发明专利技术实施例的方法,可以挖掘出待关联属性的多个关联实体,同理实现挖掘实体所对应的用户指定属性(即待关联属性),从而提供更全面、更精细、更优质的详细服务;还可以挖掘任意领域实体和用户指定属性(即待关联属性)之间的关联关系,不受应用领域的限制,应用广泛。

【技术实现步骤摘要】
挖掘属性和实体关联关系的方法和装置
本专利技术涉及计算机
,尤其涉及一种挖掘属性和实体关联关系的方法和装置。
技术介绍
随着互联网技术,特别是无线互联网技术的快速发展,信息服务变得越来越普遍。信息服务提供商提供信息服务时,例如,搜索引擎提供搜索服务等,通常会挖掘实体和属性之间的关联关系,并根据实体和属性之间的关联关系提供信息服务。具体地,可将现实世界中的客观事物称为实体,例如概念、事物或事件等。举例来说,影视剧“我是特种兵”、百度公司以及宇宙大爆炸理论都是实体的实例。同时,每个实体具有属性,属性反映实体的相关信息,例如,军旅题材、公司办公地点、现代宇宙理论分别是上述实体对应的属性。目前获取实体和属性之间关联关系的方法主要是从网站的结构化数据中定向抓取实体属性对,并根据实体属性对建立实体和属性之间的关联关系。但是,主要存在以下问题,由于一个实体对应的属性是多种多样的,对应一个实体来说,从网站获取的属性只是某一个方面,该属性可能无法很好的满足用户的需求。因此现有技术无法挖掘出实体所对应的用户指定属性,例如,无法挖掘出某个电影属于“屌丝逆袭”属性等,同样地,也无法挖掘出“本文档来自技高网...
挖掘属性和实体关联关系的方法和装置

【技术保护点】
一种挖掘属性和实体关联关系的方法,其特征在于,包括以下步骤:获取待关联属性;根据所述待关联属性从多个实体中获得至少一个种子实体;以及获得所述至少一个种子实体的关联实体,并将所述待关联属性与所述至少一个种子实体、所述至少一个种子实体的关联实体相关联。

【技术特征摘要】
1.一种挖掘属性和实体关联关系的方法,其特征在于,包括以下步骤: 获取待关联属性; 根据所述待关联属性从多个实体中获得至少一个种子实体;以及获得所述至少一个种子实体的关联实体,并将所述待关联属性与所述至少一个种子实体、所述至少一个种子实体的关联实体相关联。2.根据权利要求1所述的方法,其特征在于,所述根据待关联属性从多个实体中获得至少一个种子实体具体包括: 从预设实体库中获取所述多个实体; 从总体用户样本群中获取具有所述待关联属性的关联用户样本群; 分别获得所述多个实体在所述关联用户样本群中的多个分布差异值;以及 根据所述多个分布差异值对所述多个实体进行筛选以获得所述至少一个种子实体。3.根据权利要求2所述的方法,其特征在于,所述分别获取多个实体在所述关联用户样本群中的多个分布差异值具体包括: 分别获取与所述多个实体相关的多个用户在所述总体用户样本群中的多个第一分布比重; 分别获取与所述多个实体相关的多个用户在所述关联用户样本群中的第二分布比重;以及 根据所述第二分布比重和所述第一分布比重获取所述分布差异值。4.根据权利要求3所述的方法,其特征在于,所述总体用户样本群为多个,分别对应多个网络应用服务,则每个所述实体对应的分布差异值为多个,所述根据多个分布差异值对所述多个实体进行筛选以获得所述至少一个种子实体还包括: 根据预设分布差异值筛选规则对所述多个实体进行筛选;或, 创建分布差异值分类器,并根据所述分布差异值分类器对所述多个实体进行筛选。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述获得至少一个种子实体的关联实体具体包括: 分别获取所述至少一个种子实体到具有所述待关联属性的用户样本群之间的第一关联关系; 获取具有所述待关联属性的用户样本群的关联实体群,并获取所述具有所述待关联属性的用户样本群到所述关联实体群之间的第二关联关系; 根据所述第一关联关系和所述第二关联关系分别获取所述至少一个种子实体到所述关联实体群的第三关联关系;以及 根据所述第三关联关系对所述关联实体群中的每个所述关联实体进行筛选以获得所述至少一个种子实体的关联实体。6.一种挖掘属性和实体关联关系的装置,其特征在于,包括: 待关...

【专利技术属性】
技术研发人员:李超李大任
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1