一种针对微博的信息分类方法及系统技术方案

技术编号:34081446 阅读:17 留言:0更新日期:2022-07-11 18:58
本发明专利技术属于数据采集、智能推荐技术领域,公开了一种针对微博的信息分类方法及系统,利用互相关注列表获得交集系数以及共情系数;通过交集系数和共情系数计算社交域平衡值;最后根据社交域平衡值对微博信息进行分类,分为高满足微博和低满足微博,用于微博信息推送系统中。根据主用户所在社交圈,划分出有相似偏好的社交群体,从社交群体的维度提出科学的微博分类方法,避免低质量微博推送到主用户导致用户体验不佳,增强有效信息传播的效率,提高微博平台的用户体验。同时,避免了大量的低质量信息流通将导致巨大的能源和存储空间得到浪费,减轻了供应商运营成本,使得该社交平台更利于可持续发展。利于可持续发展。利于可持续发展。

【技术实现步骤摘要】
一种针对微博的信息分类方法及系统


[0001]本专利技术属于数据采集、智能推荐
,具体涉及一种针对微博的信息分类方法及系统。

技术介绍

[0002]在微博等社交平台上,每个用户对同一条微博信息的态度是不一样的,因此评价一条微博信息的质量需要从用户出发。同时,对一条微博信息的质量进行评价的方法如果局限于用户的操作,会使得推送的微博信息的筛选性能变得单调而且推送的信息缺乏新颖性,难以持续吸引用户。如果不能同时从用户的社交关系网和浏览习惯出发来对微博信息的质量进行评价,将会导致用户对微博信息的需求与实际接收到的微博信息出现偏差或者错位,影响微博平台的用户体验。同时,大量的低质量信息流通将导致巨大的存储空间浪费,增大供应商运营成本,也不利于可持续发展。
[0003]本专利技术结合用户自身的社交关系网,通过分析社交关系网中各个用户的浏览行为和社交关系,减少了低质量微博充斥平台的导致的存储空间消耗,减轻了供应商运营成本,使得该社交平台更利于可持续发展。

技术实现思路

[0004]本专利技术的目的在于提出一种针对微博的信息分类方法及系统,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
[0005]为了实现上述目的,根据本专利技术的一方面,提供一种针对微博的信息分类方法,所述方法包括以下步骤:S100,获取微博用户的互相关注列表;S200,通过互相关注列表获得交集系数;S300,通过互相关注列表获得共情系数;S400,通过交集系数和共情系数计算社交域平衡值;S500,根据社交域平衡值对微博信息进行分类;进一步地,以使用微博的用户的账户作为微博用户,与一个微博用户互相关注的其它微博用户的集合作为该微博用户的互相关注列表。
[0006]进一步地,在步骤S200中,通过互相关注列表获得交集系数的方法是:以一个微博用户作为主用户CLA,与主用户CLA互相关注的微博用户作为从用户记作CLB,所有从用户的集合作为主用户CLA的互相关注列表FEOLs(CLA), FEOLs(CLA)={CLB
i1
},i1∈[1,nFEO],其中i1为CLA的互相关注列表FEOLs(CLA)中从用户CLB的序号,以CLB
i1
表示互相关注列表中第i1个元素,nFEO表示FEOLs(CLA)中元素的数量,nFEO当前值等于从用户CLB的数量;设置一个变量λ作为互相关注度,初始化互相关注度λ的值为1,为FEOLs(CLA)中所有元素配置互相关注度λ;设定一个变量i2作为第一遍历变量,初始化i2的值为1,跳转到步骤S201;S201,如果i2≤nFEO,以FEOLs(CLB
i2
)表示从用户CLB
i2
的互相关注列表;获得主用
户CLA的互相关注列表FEOLs(CLA)与从用户CLB
i2
的互相关注列表FEOLs(CLB
i2
)的交集,所述交集中元素的个数作为FEOLs(CLA)中第i2个元素的主交集量FCrs(i2),其中CLB
i2
表示FEOLs(CLA)中的第i2个从用户;设定变量i3,初始化i3的值为1;新建一个空的集合作为互相关注列表附表PFEOLs,设定一个变量作为从交集总量SumCr,初始化从交集总量SumCr的值为0;跳转到步骤S202;如果i2>nFEO,跳转到步骤S204;S202,如果i3≤nFEO

1,跳转到步骤S203;否则跳转到步骤S2031;S203,如果i2≠i3,获得从用户CLB
i2
的互相关注列表FEOLs(CLB
i2
)与从用户CLB
i3
的互相关注列表FEOLs(CLB
i3
)的交集TSubSCrs(i2,i3),所述交集TSubSCrs(i2,i3)中元素的个数作为从交集量分量SubSCrs(i2,i3),将从交集量分量SubSCrs(i2,i3)与从交集总量SumCr的和作为新的从交集总量SumCr,其中CLB
i3
表示FEOLs(CLA)中的第i3个元素;如果存在TSubSCrs(i2,i3)中的元素不存在于FEOLs(CLA)且不存在于PFEOLs,则把这些元素加入PFEOLs中,将i3的值加1,跳转到步骤S202;如果i2=i3,将i3的值加1,跳转到步骤S202;S2031,计算FEOLs(CLA)中第i2个元素的从交集量SCrs(i2),SCrs(i2)=SumCr /(nFEO

1),将i2的值加1,跳转到步骤S201;S204,如果互相关注度λ的值为1,求得FEOLs(CLA)中各个微博用户的互相关注列表里的元素数量的算术平均值作为互相关注均值Efans;计算PFEOLs中所有元素的互相关注度λ,计算互相关注度λ的法如下:;其中i4为累加变量;将PFEOLs中的元素并入FEOLs(CLA),nFEO的值得到更新,初始化i2的值为1,跳转到步骤S201;如果互相关注度λ的值不为1,计算交集系数ACrs,设定一个变量i5作为FEOLs(CLA)中的中元素的序号,其中FEOLs(CLA)中的第i5个元素的交集系数ACrs
i5
的计算方法是:;其中λ
i5
为表示FEOLs(CLA)中的第i5个元素的互相关注度,i5∈[1,nFEO],FCrs
i5 和SCrs
i5
分别表示FEOLs(CLA)中的第i5个元素的主交集量和从交集量,m1为累积变量,U(SCrs
i5
)表示所有SCrs值的集合中数值比SCrs
i5
大的数值的平均值,以各个交集系数ACrs的集合作为交集空间zAC。
[0007](通过交集系数,可以有效地将主用户CLA的社交关系数值化,将主用户的社交网络中各个互相关注的次用户CLB跟主用户之间的社交关系数值化,如果二者之间的交集系数越大,则二者之间的社交范围越相似,加入了社交圈概念的分析,对后续步骤中分析的用户的偏好分析加入了社交圈的概念,与传统的个人偏好分析形相比更加注重社交关系圈中各个用户的偏好)。
[0008]进一步地,在步骤S300中,通过互相关注列表获得共情系数的方法是:获取一段时间prd内FEOLs(CLA)中各个元素对应的微博用户有过共同浏览记录的微博信息作为共览信
息RMsg,其中所述时间prd的范围在10到180天内取值,所述微博信息为微博上微博用户发布的信息;为FEOLs(CLA)中各个元素设置共情系数SmlIdx,共情系数SmlIdx的初始值为0;对同一条共览信息RMsg,如果一个微博用户执行了重复浏览、点赞、转发、关注或者评论中至少一个操作,则为该用户对该共览信息RMsg生成负态标签NFlag并赋值为FALSE;如果一个微博用户执行了取消关注、不喜欢、或者举报中至少一个操作,则为该用户对该共览信息RMsg生成负态标签NFlag并赋值为TRUE;其中,用户对于微博信息的操作包括:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对微博的信息分类方法,其特征在于,所述方法包括以下步骤:S100,获取微博用户的互相关注列表;S200,通过互相关注列表获得交集系数;S300,通过互相关注列表获得共情系数;S400,通过交集系数和共情系数计算社交域平衡值;S500,根据社交域平衡值对微博信息进行分类;其中,通过互相关注列表获得交集系数的方法是:以一个微博用户作为主用户CLA,与主用户CLA互相关注的微博用户作为从用户记作CLB,所有从用户的集合作为主用户CLA的互相关注列表FEOLs(CLA), FEOLs(CLA)={CLB
i1
},i1∈[1,nFEO],其中i1为CLA的互相关注列表FEOLs(CLA)中从用户CLB的序号,以CLB
i1
表示互相关注列表中第i1个元素,nFEO表示FEOLs(CLA)中元素的数量;设置一个变量λ作为互相关注度,初始化互相关注度λ的值为1;设定一个变量i2作为第一遍历变量,初始化i2的值为1,跳转到步骤S201;S201,如果i2≤nFEO,以FEOLs(CLB
i2
)表示从用户CLB
i2
的互相关注列表;获得主用户CLA的互相关注列表FEOLs(CLA)与从用户CLB
i2
的互相关注列表FEOLs(CLB
i2
)的交集,为互相关注列表中各个元素设定一个变量作为主交集量,以所述交集中元素的个数作为FEOLs(CLA)中第i2个元素的主交集量FCrs(i2),其中CLB
i2
表示FEOLs(CLA)中的第i2个从用户;设定一个变量i3作为第二遍历变量,初始化i3的值为1;新建一个空的集合作为互相关注列表附表PFEOLs,设定一个变量作为从交集总量SumCr,初始化从交集总量SumCr的值为0;跳转到步骤S202;如果i2>nFEO,跳转到步骤S204;S202,如果i3≤nFEO

1,跳转到步骤S203;否则跳转到步骤S2031;S203,如果i2≠i3,获得从用户CLB
i2
的互相关注列表FEOLs(CLB
i2
)与从用户CLB
i3
的互相关注列表FEOLs(CLB
i3
)的交集TSubSCrs(i2,i3),所述交集TSubSCrs(i2,i3)中元素的个数作为从交集量分量SubSCrs(i2,i3),将从交集量分量SubSCrs(i2,i3)与从交集总量SumCr的和作为新的从交集总量SumCr,其中CLB
i3
表示FEOLs(CLA)中的第i3个元素;如果存在TSubSCrs(i2,i3)中的元素不存在于FEOLs(CLA)且不存在于PFEOLs,则把这些元素加入PFEOLs中,将i3的值加1,跳转到步骤S202;如果i2=i3,将i3的值加1,跳转到步骤S202;S2031,计算FEOLs(CLA)中第i2个元素的从交集量SCrs(i2),SCrs(i2)=SumCr /(nFEO

1),将i2的值加1,跳转到步骤S201;S204,如果互相关注度λ的值为1,求得FEOLs(CLA)中各个微博用户的互相关注列表里的元素数量的算术平均值作为互相关注均值Efans;计算PFEOLs中所有元素的互相关注度λ且不再更改互相关注度λ,计算互相关注度λ的方法如下:;其中i4为累加变量;将PFEOLs中的元素并入FEOLs(CLA),nFEO的值得到更新,初始化i2的值为1,跳转到步骤S201;如果互相关注度λ的值不为1,计算交集系数ACrs,设定一个变量i5作为FEOLs(CLA)中的中元素的序号,其中FEOLs(CLA)中的第i5个元素的交集系数ACrs
i5
的计算方法是:
;其中λ
i5
为表示FEOLs(CLA)中的第i5个元素的互相关注度,FCrs
i5 和SCrs
i5
分别表示FEOLs(CLA)中的第i5个元素的主交集量和从交集量,m1为累积变量,U(SCrs
i5
)表示所有SCrs值的集合中数值比SCrs
i5
大的数值的平均值,以各个交集系数ACrs的集合作为交集空间zAC;其中,通过互相关注列表获得共情系数的方法是:获取一段时间prd内FEOLs(CLA)中各个元素对应的微博用户有过共同浏览记录的微博信息作为共览信息RMsg,其中所述时间prd的范围在10到180天内取值,所述微博信息为微博用户发布的文本信息;为FEOLs(CLA)中各个元素设置共情系数SmlIdx,共情系数SmlIdx的初始值为0;对同一条共览信息RMsg,如果一个微博用户执行了点赞、转发、关注、评论或者多次浏览中至少一个操作,...

【专利技术属性】
技术研发人员:赵一
申请(专利权)人:广东海洋大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1