【技术实现步骤摘要】
项目间关联关系挖掘方法、装置、计算设备及存储介质
本公开涉及互联网数据分析和挖掘,特别涉及项目间关联关系挖掘方案。
技术介绍
随着互联网的发展,各大互联网平台都逐渐积累起了各式各样的海量数据,其中包括各种用户触发的网页、搜索/购物行为以及内容提供方制造的各种文本本身。随着数据的累积,数据的价值逐渐凸显,平台的运营成本也逐渐提高,一方面是因为数据量增加带来更大的工作量,另一方面是因为数据内部蕴含着各类复杂的关系。这样,挖掘数据内部的关联关系成为一件非常有价值和意义的事情。人们一直在努力寻找一种方法和途径,可以将平台的各种数据以一种有序的、规整的方式组织起来,从而避免重复的、过分冗余的、庞杂的组织方式,以此实现集中挖掘价值最大的方面,甚至节约运营成本和时间。通用的基于项目的(item-based)分布式相似计算算法仅从算法本身的分布式处理能力和通用数据计算进行设计,而并未考虑作为由人触发的数据本身的特殊性以及数据本身中间结果的差异,导致现有技术看似通用性强,实际扩展能力弱,对数据本身关键信息挖掘能力弱。因此,仍然希望有一种项目间关联关系挖掘方案,以解决上述技术问题,更 ...
【技术保护点】
1.一种项目间关联关系挖掘方法,包括:建立项目对,在所述项目对中,以能够区分的方式记录第一项目和第二项目;以及针对所述项目对,确定并在关联关系数据库中与所述项目对关联地记录所述项目对的单向关联度,所述单向关联度表示所述第二项目相对于所述第一项目的关联度,而不表示所述第一项目相对于所述第二项目的关联度,其中,在两个项目以第一顺序建立第一项目对的情况下,不以与所述第一顺序相反的第二顺序建立第二项目对;或者对于两个项目,以第一顺序建立第一项目对,并以与所述第一顺序相反的第二顺序建立第二项目对,所述第二项目对的单向关联度不同于所述第一项目对的单向关联度。
【技术特征摘要】
1.一种项目间关联关系挖掘方法,包括:建立项目对,在所述项目对中,以能够区分的方式记录第一项目和第二项目;以及针对所述项目对,确定并在关联关系数据库中与所述项目对关联地记录所述项目对的单向关联度,所述单向关联度表示所述第二项目相对于所述第一项目的关联度,而不表示所述第一项目相对于所述第二项目的关联度,其中,在两个项目以第一顺序建立第一项目对的情况下,不以与所述第一顺序相反的第二顺序建立第二项目对;或者对于两个项目,以第一顺序建立第一项目对,并以与所述第一顺序相反的第二顺序建立第二项目对,所述第二项目对的单向关联度不同于所述第一项目对的单向关联度。2.根据权利要求1所述的方法,其中,所述建立项目对的步骤包括:从具有项目间指向关系或时间顺序的项目序列中挖掘所述项目对,其中所述第一项目和所述第二项目在所述项目序列中具有预定的指向关系或时间顺序。3.根据权利要求2所述的方法,其中,所述确定项目对的单向关联度的步骤包括:至少部分地基于所述第一项目和所述第二项目在多个项目序列中按所述项目对对应的顺序出现的频次和/或时间跨度统计值和/或间隔项目数统计值,确定所述项目对的单向关联度。4.根据权利要求2所述的方法,其中,所述建立项目对的步骤包括:以预定项目或预定类型的项目作为所述第一项目;并且/或者以预定项目或预定类型的项目作为所述第二项目。5.根据权利要求2所述的方法,其中,所述项目是用户行为,所述项目序列是包括预定长度时间窗口中的同一个用户的多个用户行为的用户行为序列;或者所述项目序列是包括预定长度时间窗口中用户依次访问的多个项目的项目序列。6.根据权利要求2所述的方法,其中,所述确定项目对的单向关联度的步骤包括:基于对所述第一项目的特征和所述第二项目的特征对称的对称公式,确定所述项目对的单向关联度。7.根据权利要求1所述的方法,其中,所述确定项目对的单向关联度的步骤包括:基于对所述第一项目的特征和所述第二项目的特征不对称的非对称公式,确定所述项目对的单向关联度。8.根据权利要求7所述的方法,其中,在所述非对称公式的分子或分母中,仅涉及所述第一项目的特征或所述第二项目的特征;或者在所述非对称公式的分子或分母中,对所述第一项目的特征和所述第二项目的特征设置不同的幂次。9.根据权利要求8所述...
【专利技术属性】
技术研发人员:柯文炜,何治民,
申请(专利权)人:广东神马搜索科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。