融合L1正则化与链接属性的社交媒体数据特征选择方法技术

技术编号:34009744 阅读:44 留言:0更新日期:2022-07-02 14:17
本发明专利技术属于数据分析领域,具体涉及融合L1正则化与链接属性的社交媒体数据特征选择方法,包括如下步骤S1、输入社交媒体数据,其行为样本,列为对应社交内容的特征;S2、规范化表示社交媒体数据;S3、提取4种常见的社交媒体数据的链接关系;S4、结合L1正则化实现对应链接链接关系下的特征选择;S5、对不同链接关系获得的特征子集取并输出得到最终的特征集合。实现了具有链接属性的社交媒体数据特征选择,解决了传统特征选择方法无法解决的社交媒体数据关联特性,为大规模社交媒体数据的降维以及重要特征分析等后续操作打下坚实的基础。要特征分析等后续操作打下坚实的基础。要特征分析等后续操作打下坚实的基础。

【技术实现步骤摘要】
融合L1正则化与链接属性的社交媒体数据特征选择方法


[0001]本专利技术属于数据分析领域,具体涉及融合L1正则化与链接属性的社交媒体数据特征选择方法。

技术介绍

[0002]当前无数社交媒体服务的发展,使人们能够方便、轻松地进行沟通和表达自己,例如微博。社交媒体的广泛使用以前所未有的速度产生了海量数据,例如每天有数亿条微博被发送和转载,海量、高维的社交媒体数据对分类、聚类等数据挖掘任务提出了新的挑战。特征选择被广泛应用于高维数据的挖掘当中,传统的特征选择方法,如L1正则化,目的是从高维数据中选择相关的特征,以获得简洁、准确的数据表示,它可以减轻维数灾难,加快学习过程,提高学习模型的泛化能力。社交媒体数据主要由(1)传统的高维属性值数据(如帖子、评论和图像等)和(2)描述社交媒体用户之间关系以及发布帖子的人等的链接数据组成。社交媒体数据这一特性给特征选择带来了新的挑战,传统的特征选择方法无法利用链接数据中的附加信息。此外,社交媒体的性质还决定了其数据是海量的、嘈杂的和不完整的,这使得本来就具有挑战性的针对社交媒体链接数据的特征选择问题更加严峻。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.融合L1正则化与链接属性的社交媒体数据特征选择方法,其特征在于:S1、输入社交媒体数据,其行为样本,列为对应社交内容的特征;S2、规范化表示社交媒体数据;S3、提取4种常见的社交媒体数据的链接关系;S4、结合L1正则化实现对应链接链接关系下的特征选择;S5、对不同链接关系获得的特征子集取并输出得到最终的特征集合。2.根据权利要求1所述的融合L1正则化与链接属性的社交媒体数据特征选择方法,其特征在于:所述步骤S1中,对包含链接关系的社交媒体数据进行规范化的表示。3.根据权利要求2所述的融合L1正则化与链接属性的社交媒体数据特征选择方法,其特征在于:所述步骤S2中,在社会关联理论的指导下,可以从关联数据中提取各种链接关系,基于下述4种链接关系,可以将其与现有的特征选择方法结合,建模为新的特征选择法则,从而实现社交媒体中链接数据的特征选择,所述链接关系包括1)Co

post:即多个帖子来自同一用户或者说来自同一个用户的社交媒体实例更相似;2)Co

following:即如果两个用户关注同一个用户,那么这两个用户所产生的帖子更相似;3)Co

followed:即如果两个用户被同一个用户关注,则他们的帖子是可能相似的;4)Following:即如果一个用户关注另外一个用户,则这两个用户可能具有相同的兴趣点,从而他们的帖子可能相似。4.根据权利要求3所述的融合L1正则化与链接属性的社交媒体数据特征选择方法,其特征在于:所述步骤S3中,在完成链接关系的构建之后,我们以L1正则化为基础特征选择模型,结合上述链接关系,构造新的特征选择优化对象,L1正则化的优化目标函数如下:其中,W代表特征权重,参数α控制W的稀疏度,;令L(X,Y)代表5.根据权利要求4所述的融合L1正则化与链接属性的社交媒体数据特征选择方法,其特征在于:所述步骤S3中,还...

【专利技术属性】
技术研发人员:潘晓光令狐彬张娜张雅娜陈智娇
申请(专利权)人:山西三友和智慧信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1