一种互联网多源异质数据融合的选举预测方法技术

技术编号:20160632 阅读:22 留言:0更新日期:2019-01-19 00:13
本发明专利技术公开了一种互联网多源异质数据融合的选举预测方法,属于数据挖掘领域。首先从互联网数据中,筛选能够反映选举国家或地区民心动向的信息源。然后从筛选出的互联网信息源中提取具体特征,构建基于互联网平台的候选人支持率预测指标体系。最后将提取的各类预测指标视为反映民意的信号,运用卡尔曼滤波模型进行融合,动态实时跟踪预测候选人的支持率。本发明专利技术具有数据源广泛、实时性强等特点,在舆情监控和观点分析等领域具有重要的应用价值。

【技术实现步骤摘要】
一种互联网多源异质数据融合的选举预测方法
本专利技术属于数据挖掘领域,涉及一种互联网多源异质数据融合的选举预测方法。
技术介绍
选举制度设立至今已有百余年的历史,对于大选结果的预测备受社会各界关注,涌现出了多类预测方法和技术。最初的选举预测依赖民意调查,调查机构一般来自调查组织、各大主流媒体以及大学的研究机构,他们往往基于采样调查理论进行信息收集,辅以专家的意见修正,以民意测验测评政治风向进而得到预测结果。这种基于民调的预测方法优点是:实时性较强,临近选举对民意造成影响的新信息可以包含在结果中。但是,由于调查方法、样本大小以及民调机构政党倾向性等因素的影响,民调结果往往有偏。后续,有部分学者和公司机构提出了基于宏观变量的预测方法。这类预测方法综合考虑国家层面宏观经济数据,构建预测模型对大选得票率进行预测。该类方法预测模型易得,对选举结果具有较强的解释性。但预测模型往往基于长期历史数据,时效性不强,无法在模型中引入临近选举的最新信息;且在候选人难分伯仲的情况下,很难做出准确预测。随着互联网技术的迅速发展,信息呈爆炸式增长,选举信息呈现方式也越来越多样化,大数据中蕴含的丰富信息给选举预测带来了新的解决思路。多个国家或地区的选举都证明了诸如Facebook和Twitter等社交网络在得票率预测中的作用。基于互联网大数据的选举预测方法相较于民调方法和基于宏观变量的预测方法具有更强的实时性,但目前方法多属于事后分析,且仅基于单一社交媒体数据源,没有考虑到用户参与社交媒体平台的多样性。如此,得到的候选人支持率预测结果往往有较大的偏差,难以全面反映选举舆情。
技术实现思路
为解决上述问题,本专利技术提出了一种获取选举得票率的预测方法,具体是一种互联网多源异质数据融合的选举预测方法;以参选人支持率为预测对象,通过融合社交媒体、搜索引擎和竞选主页等多源异构大数据,克服单一数据源在揭示民意方面的偏差,以实现实时跟踪以及预测候选人支持率的目标。所述的互联网多源异质数据融合的选举预测方法,具体步骤如下:步骤一:从互联网数据中,筛选能够反映选举国家或地区民心动向的信息源。筛选信息源的步骤具体为:首先,针对选举国家或地区,查找该国家或地区的互联网管理和服务机构发布的研究报告,从报告中提取出网民广泛使用的互联网平台。然后,通过对互联网平台的网站进行流量统计,得到该选举国家或地区的网站使用排名,筛选出使用最为频繁的网站。最后,从使用最为频繁的网站中,保留社交网络类和搜索引擎类等带有用户生成内容的信息源。同时,在候选信息源中加入候选人竞选主页,进而通过流量统计网站,分析民众对于不同候选人竞选网站的关注程度。步骤二:从筛选出的互联网信息源中提取具体特征,构建基于互联网平台的候选人支持率预测指标体系。所述的预测指标包括:社交网络预测指标、搜索引擎预测指标和候选人竞选主页预测指标。具体构建过程如下:(一)从数量和情感两个方面构建社交网络预测指标;在数量方面,通过社交网络中提及候选人的发帖比例作为预测指标。具体而言,若第t日在社交网络平台中提及候选人i的帖子数量为则当日该候选人i在该平台获得的提及支持率指标计算方式如下:或者以候选人每一日平均每条帖文获得的赞数作为网民对该候选人的支持度。具体而言,若第t日候选人i在社交网络平台发布了n条帖子,每条帖子j获得赞数为则当日该候选人i在该平台获得的赞数支持率指标计算方式如下:在情感方面,对社交网络中的文本信息进行情感分类,并计算积极情感和消极情感的比例,从而作为网民对候选人的支持率预测指标。具体而言,若第t日社交网络中关于候选人i的发帖共有条,其中积极情感帖子为条,消极情感帖子为条,则该候选人i的文本情感支持率指标计算方式如下:(二)构建搜索引擎预测指标;首先,选取选举国家或地区使用量最大的搜索引擎;然后,获取候选人i在第t日的搜索量计算候选人i在第t日搜索引擎中的关注度指标:(三)构建候选人竞选主页预测指标;候选人i通过竞选网站在第t日的IP访问量为计算候选人i在t日的竞选主页关注度指标:步骤三:将提取的各类预测指标视为反映民意的信号,运用卡尔曼滤波模型进行融合,动态实时跟踪预测候选人的支持率。具体过程如下:步骤301、运用移动平均法对提取出的各类预测指标进行平滑,得到各预测指标平滑值当对t+1日候选人i支持率进行预测时,先计算t-l至t日每日的各指标值c∈{count,like,senti,search,IP},然后分别计算移动平均后的各预测指标平滑值计算方法如下:步骤302、根据民众对候选人i在t-1日的状态,演变计算该候选人i在第t日的真实状态值B为控制输入变量系数矩阵;ut-1为控制输入变量;wt-1为过程噪声向量,该噪声向量服从均值为0、协方差矩阵为Qt的多元正态分布,wt~N(0,Qt)。步骤303、在每一时刻,将各预测指标平滑值作为真实状态值的反映;构建第t日的测量值与真实状态值之间的映射关系。测量值Ht为真实状态值到观测测量值的映射矩阵;vt为测量的高斯白噪声,服从均值为0、协方差矩阵为Rt的多元正态分布,vt~N(0,Rt)。假设状态演变过程中,初始状态过程噪声wt和测量噪声vt相互独立。步骤304、当第t日观测到测量值后输入卡尔曼滤波模型,卡尔曼滤波根据当日候选人支持率的先验状态估计值和观测值,运用卡尔曼增益系数加权融合预测出当日的后验状态估计值表示根据前t-1日的观测值对候选人i在第t日的支持率的估计值。Kt为卡尔曼增益系数,用以衡量先验状态估计值和测量值在融合过程中的权重。步骤305、运用卡尔曼滤波将第t日的后验状态估计值和状态转移方程进行更新,得到下一日支持率的后验状态估计值。本专利技术的优点在于:一种互联网多源异质数据融合的选举预测方法,考虑到用户使用互联网平台的多样性,具有数据源广泛、实时性强等特点,在舆情监控和观点分析等领域具有重要的应用价值。附图说明图1是本专利技术一种互联网多源异质数据融合的选举预测方法的流程图。图2是本专利技术将提取的预测指标进行融合后动态实时跟踪预测候选人的支持率的流程图。具体实施方式下面将结合附图和实施例对本专利技术作进一步的详细说明。鉴于大数据体量巨大、数据类型繁多、价值密度低、处理速度要快等特性,本专利技术考虑到互联网平台上用户的广泛参与性,提出了针对选举这一类事件,从互联网平台中挖掘民意的方法;同时考虑到用户使用互联网平台的多样性,提出了基于卡尔曼滤波模型的多源异质数据融合的候选人支持率预测方法;该方法首先考虑选举国家或地区互联网使用情况,筛选出能够反映民心动向的互联网平台。进而,从纷杂的互联网平台中筛选出能够反映选举国家或地区民心动向的信息源;进而,针对每个筛选出的信息源本专利技术提出了民意预测指标提取方法;构建基于互联网平台的候选人支持率预测指标体系。最后,将提取出的指标视为反映民意的信号,运用信号处理模型——卡尔曼滤波模型实时对多源异质预测指标融合,实现候选人得票率的动态跟踪预测。一种互联网多源异质数据融合的选举预测方法,具体流程如图1所示,实施步骤如下:步骤一:筛选能够反映选举国家或地区民心动向的信息源。面对丰富的互联网数据,找到能够反映选举国家或地区民心动向的可靠信源是准确预测选举结果的基础。在筛选信息源方面,主要分为两步:步骤101,查找选举国本文档来自技高网...

【技术保护点】
1.一种互联网多源异质数据融合的选举预测方法,其特征在于,具体步骤如下:步骤一:从互联网数据中,筛选能够反映选举国家或地区民心动向的信息源;步骤二:从筛选出的互联网信息源中提取具体特征,构建基于互联网平台的候选人支持率预测指标体系;所述的预测指标包括:社交网络预测指标、搜索引擎预测指标和候选人竞选主页预测指标;具体构建过程如下:(一)从数量和情感两个方面构建社交网络预测指标;在数量方面,通过社交网络中提及候选人的发帖比例作为预测指标;具体而言,若第t日在社交网络平台中提及候选人i的帖子数量为

【技术特征摘要】
1.一种互联网多源异质数据融合的选举预测方法,其特征在于,具体步骤如下:步骤一:从互联网数据中,筛选能够反映选举国家或地区民心动向的信息源;步骤二:从筛选出的互联网信息源中提取具体特征,构建基于互联网平台的候选人支持率预测指标体系;所述的预测指标包括:社交网络预测指标、搜索引擎预测指标和候选人竞选主页预测指标;具体构建过程如下:(一)从数量和情感两个方面构建社交网络预测指标;在数量方面,通过社交网络中提及候选人的发帖比例作为预测指标;具体而言,若第t日在社交网络平台中提及候选人i的帖子数量为则当日该候选人i在该平台获得的提及支持率指标计算方式如下:或者以候选人每一日平均每条帖文获得的赞数作为网民对该候选人的支持度;具体而言,若第t日候选人i在社交网络平台发布了n条帖子,每条帖子j获得赞数为则当日该候选人i在该平台获得的赞数支持率指标计算方式如下:在情感方面,对社交网络中的文本信息进行情感分类,并计算积极情感和消极情感的比例,从而作为网民对候选人的支持率预测指标;具体而言,若第t日社交网络中关于候选人i的发帖共有条,其中积极情感帖子为条,消极情感帖子为条,则该候选人i的文本情感支持率指标计算方式如下:(二)构建搜索引擎预测指标;首先,选取选举国家或地区使用量最大的搜索引擎;然后,获取候选人i在第t日的搜索量计算候选人i在第t日搜索引擎中的关注度指标:(三)构建候选人竞选主页预测指标;候选人i通过竞选网站在第t日的IP访问量为计算候选人i在t日的竞选主页关注度指标:步骤三:将提取的各类预测指标视为反映民意的信号,运用卡尔曼滤波模型进行融合,动态实时跟踪预测候选人的支持率;具体过程如下:步骤301、运用移动平均法对提取出的各类预测指标进行平滑,得到各预测指标平滑值当对t+1日候选人i支持率进行预测时,先计算t-l至t日每日的各指标值c∈{c...

【专利技术属性】
技术研发人员:赵忠华吴俊杰解峥袁翠欣孙小宁李欣万欣欣
申请(专利权)人:国家计算机网络与信息安全管理中心北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1