一种用于分析社交网络信息的高质量信息获取方法和系统技术方案

技术编号:26170925 阅读:45 留言:0更新日期:2020-10-31 13:40
本申请公开了一种用于分析社交网络信息的高质量信息获取方法和系统,方法,包括如下步骤:S1、预设数据流阀值和单信息重复阀值;S2、根据数据流阀值和单信息重复阀值,获取社交网络信息数据流;S3、对所获取的社交网络信息数据流进行特征量提取,并生成特征量集合;S4、根据特征量集合,计算获取社交网络信息数据流的质量评分、重复规避评分和独立评分;S5、根据质量评分、重复规避评分和独立评分,计算获取社交网络信息数据流的有效性评分,获取高质量的社交网络信息数据流。本发明专利技术提出了基于有效性过滤的真实信息提取方法,采用基于线性的计算方式对数据进行快速计算,能够过滤低质量信息,真实有效的信息以供后续分析使用。

A high quality information acquisition method and system for analyzing social network information

【技术实现步骤摘要】
一种用于分析社交网络信息的高质量信息获取方法和系统
本申请涉及互联化信息处理
,尤其涉及一种用于分析社交网络信息的高质量信息获取方法和系统。
技术介绍
随着信息技术的发展,社交网络作为一种重要高效的信息传递平台,参与其中的人员越来越多。通过这个平台,个人可在网络中拓展人脉、获取信息,而企业主要关注点在于找到消费者,并能分析消费者,了解消费者,与消费者达到最简洁快速的沟通。企业通过数据分析找到消费者所在的圈子,倾听这个圈子的声音,并通过意见领袖让企业想传达的信息进一步扩大,辐射整个圈子,最终从而吸纳更多的忠实消费者。企业进行信息评估时,主要基于社交网络上的各种转发和评论信息,这些对企业的价值是巨大的,对这些数据加以分析,可助于改进现有产品及更好的定位未来的产品走向。然而对社交网络的信息分析存在固有的难题,首先是社交网络中充斥着虚假信息与低质量信息,统一的对所有信息进行观测理解,无法反映真实的问题;其次由于参与的人员众多,导致信息是无界的,信息可以在网络中无限扩展,甚至最后影响到现实,如此海量的原始信息难以完全理解和有效抽取,最终用以本文档来自技高网...

【技术保护点】
1.一种用于分析社交网络信息的高质量信息获取方法,其特征在于,包括如下步骤:/nS1、预设数据流阀值和单信息重复阀值;/nS2、根据数据流阀值和单信息重复阀值,获取社交网络信息数据流;/nS3、对所获取的社交网络信息数据流进行特征量提取,并生成特征量集合;/nS4、根据特征量集合,计算获取社交网络信息数据流的质量评分、重复规避评分和独立评分;/nS5、根据质量评分、重复规避评分和独立评分,计算获取社交网络信息数据流的有效性评分,获取高质量的社交网络信息数据流。/n

【技术特征摘要】
1.一种用于分析社交网络信息的高质量信息获取方法,其特征在于,包括如下步骤:
S1、预设数据流阀值和单信息重复阀值;
S2、根据数据流阀值和单信息重复阀值,获取社交网络信息数据流;
S3、对所获取的社交网络信息数据流进行特征量提取,并生成特征量集合;
S4、根据特征量集合,计算获取社交网络信息数据流的质量评分、重复规避评分和独立评分;
S5、根据质量评分、重复规避评分和独立评分,计算获取社交网络信息数据流的有效性评分,获取高质量的社交网络信息数据流。


2.如权利要求1所述的一种用于分析社交网络信息的高质量信息获取方法,其特征在于,所述预设数据流阀值和单信息重复阀值,具体为:
设定数据流阀值G,截取超过G值的社交网络信息数据流;
设定单信息重复阀值β,过滤剔除超过β值的单信息重复数据流。


3.如权利要求1或2所述的一种用于分析社交网络信息的高质量信息获取方法,其特征在于,所述根据数据流阀值和单信息重复阀值,获取社交网络信息数据流,具体为:
截取超过G值的社交网络信息数据流,根据所设定单信息重复阀值β,过滤剔除超过β值的重复数据流,留下满足单信息状态的社交网络信息数据流;
其中,G范围为大于或等于800的整数,β范围为0-0.005;
获取G个关于社交网络信息的转发及评论的记录信息,记录为Pk;
Pk表示第k个社交网络信息的转发及评论的记录信息。


4.如权利要求3所述的一种用于分析社交网络信息的高质量信息获取方法,其特征在于,所述Pk包括对第k个社交网络信息进行转发及评论的用户的id、用户所评论的文字内容、用户的关注总人数、用户的粉丝总人数以及用户自发布的社交网络信息总量,分别记录为idk,ctk,prgk,prfk,prwk,记录Pk={idk,ctk,prgk,prfk,prwk};
其中,k=1,2,3......G。


5.如权利要求1或4所述的一种用于分析社交网络信息的高质量信息获取方法,其特征在于,所述对所获取的社交网络信息数据流进行特征量提取,并生成特征量集合,具体为:
提取k个记录信息的特征量集合,记录为PFk(l),所述PFk(l)表示第k个转发记录的第l个特征量;
其中,l=1,2,3,4;
所述PFk(l)具体为:



根据获取的G个关于社交网络信息的转发及评论的记录信息,记录G个记录信息的特征量集合,记录为PFp,p=1,2,3......G。


6.如权利要求5所述...

【专利技术属性】
技术研发人员:于霄
申请(专利权)人:北京宏博知微科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1