【技术实现步骤摘要】
一种基于多元线性回归的餐饮业好友连边影响力预测方法
本专利技术涉及数据挖掘与数据分析技术,特别是涉及一种基于多元线性回归的餐饮业好友连边影响力预测方法。
技术介绍
随着计算机技术和互联网技术的快速发展,信息的传播方式越来越丰富,传播速度也在不断增快,在线社交应用和媒体也迅速扩散,众多网站如Facebook、Twitter以及国内的新浪微博、微信、腾讯网等迅速崛起,在线社交网络已经将我们的日常生活与网络信息空间连接起来。在线社交网络存储了大量用户资料,用户之间的社交关系以及用户之间的交互,这些海量社交数据有着巨大的研究价值,同时也在广告、推荐系统等方面具有广阔的应用前景。本专利技术在于利用社交网络中的大量信息,提取相关的特征并进行多元线性回归,从而得到各个因素与好友连边影响力之间的联系。线性回归算法是数据挖掘领域中比较重要的算法,它通过给定数据集D={(x1,y1),(x2,y2),...,(xm,ym)},其中xi=(xi1;xi2;...;xid),试图得到一个线性模型以尽可能准确地预测实值输出标记。
技术实现思路
为了克服现有的餐饮业好友连边影响力预测方式的可靠性 ...
【技术保护点】
一种基于多元线性回归的餐饮业好友连边影响力预测方法,其特征在于:包括以下步骤:S1:从餐饮网站获取用户的好友关系信息;S2:根据用户的好友关系信息,建立好友关系加权无向图G=(V,E);S3:利用已建立的好友关系图,分别求出如下网络拓扑特征:共同邻居指标CN、Salton指标、Jaccard指标、Sorenson指标、大度节点有利指标HPI、大度节点不利指标HDI、LHN‑I指标、AA指标、资源分配指标RA、偏好连接相似性PA、度差异性、全体邻居和Katz指标;S4:计算非拓扑特征,根据用户地理信息、用户情感值、用户消费档次和用户口味信息,提取非拓扑特征;S5:利用求得的各 ...
【技术特征摘要】
1.一种基于多元线性回归的餐饮业好友连边影响力预测方法,其特征在于:包括以下步骤:S1:从餐饮网站获取用户的好友关系信息;S2:根据用户的好友关系信息,建立好友关系加权无向图G=(V,E);S3:利用已建立的好友关系图,分别求出如下网络拓扑特征:共同邻居指标CN、Salton指标、Jaccard指标、Sorenson指标、大度节点有利指标HPI、大度节点不利指标HDI、LHN-I指标、AA指标、资源分配指标RA、偏好连接相似性PA、度差异性、全体邻居和Katz指标;S4:计算非拓扑特征,根据用户地理信息、用户情感值、用户消费档次和用户口味信息,提取非拓扑特征;S5:利用求得的各个拓扑特征和非拓扑特征作为自变量,两个用户共同去过的餐馆数为因变量,构造理论模型,设定各个自变量与因变量之间的关系是线性的,从而建立多元线性回归模型,借助工具进行多元线性回归处理得到数据;S6:对模型进行检验,一个指标是拟合度,设定拟合阈值为拟合程度很高,第二个指标为DW检验,通过T显著性指标大于指标阈值,对设置的指标进行筛选,获得回归方程,否则如果无法获得模型,就转移到S3;S7:运行模型,进行共线性诊断,查看VIF方差扩大因子,若VIF小于门限值则判断自变量之间不存在共线性,否则进行主成分分析处理共线性问题,之后分析残差,若残差不满足要求就转移到S3;S8:若满足上述步骤的要求,则说明该线性回归方程模型满足该数据集,利用得到的线性回归方程,同时结合用户和餐馆信息,能够预测两个用户之间的好友连边影响力。2.如权利要求1所述的基于多元线性回归的餐饮业好友连边影响力预测方法,其特征在于:所述步骤S2中,根据用户的好友关系信息,用户作为节点,两个用户存在好友关系建立一条连边,共同去过的餐馆数作为连边重要性,建立好友关系加权无向图G=(V,E)。3.如权利要求1或2所述的基于多元线性回归的餐饮业好友连边影响力预测方法,其特征在于:所述步骤S3中,利用已建立的好友关系图,分别求出如下网络拓扑特征:基于局部信息的最简单的相似性指标是共同邻居指标CN,即若两个节点有很多共同邻居节点,则两个节点相似;对于网络中的节点νx,定义其邻居集合为Γ(x),则两个节点νx和νy的相似性就定义为它们共同的邻居数,即sxy=|Γ(x)∩Γ(y)|,其中,等式右边表示集合的势,显然它们是邻居数量等于两节点之间长度为二的路径数目,在共同邻居的基础上考虑两端节点度的影响,从不同角度以不同方式又产生如下6中相似性指标:Salton指标又称余弦相似度,其定义为其中kx,ky为节点的度,表示与节点直接相连的边的数目;Jaccard指标,其定义为Sorenson指标常用于生态学数据研究,其定义为大度节点有利指标HPI用于刻画新陈代谢网络中每对反应物的拓扑相似程度,其定义为大度节点不利指标HDI其定义与HPI相似,即LHN-I指标,其定义为AA指标根据共同邻居节点的度为每个节点赋予一个权重值,该权重值等于该节点的度的对数分之一,即Adamic-Adar指标定义为资源分配指标RA考虑网络中没有直接相连的两个节点νx和νy,从νx可以传递一些资源到νy,在此过程中,它们的共同邻居就成为传递的媒介;假设每个媒介都有一个单位的资源并且平均分配传给它的邻居,则νx可以接受到的资源数定义为偏好连接相似性PA应用优先连接的方法产生无标度的网络结构,在这种网络中,一条新边连接到节点νx的概率正比于该节点的度kx,每一步首先去除一条链接,然后再添加一条链接,新链接连接节点νx和νy的概率就正比于两节点度的乘积,由此定义两节点间的偏好连接相似性为sx,y=kxky度差异性表示两个对象在数值上的差异程度,定义为
【专利技术属性】
技术研发人员:宣琦,虞烨炜,赵明浩,郑永立,傅晨波,翔云,吴哲夫,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。