一种互联网多源异质数据融合的选举预测方法技术

技术编号：20160632 阅读：22 留言：0更新日期：2019-01-19 00:13

本发明专利技术公开了一种互联网多源异质数据融合的选举预测方法，属于数据挖掘领域。首先从互联网数据中，筛选能够反映选举国家或地区民心动向的信息源。然后从筛选出的互联网信息源中提取具体特征，构建基于互联网平台的候选人支持率预测指标体系。最后将提取的各类预测指标视为反映民意的信号，运用卡尔曼滤波模型进行融合，动态实时跟踪预测候选人的支持率。本发明专利技术具有数据源广泛、实时性强等特点，在舆情监控和观点分析等领域具有重要的应用价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种互联网多源异质数据融合的选举预测方法
本专利技术属于数据挖掘领域，涉及一种互联网多源异质数据融合的选举预测方法。
技术介绍
选举制度设立至今已有百余年的历史，对于大选结果的预测备受社会各界关注，涌现出了多类预测方法和技术。最初的选举预测依赖民意调查，调查机构一般来自调查组织、各大主流媒体以及大学的研究机构，他们往往基于采样调查理论进行信息收集，辅以专家的意见修正，以民意测验测评政治风向进而得到预测结果。这种基于民调的预测方法优点是：实时性较强，临近选举对民意造成影响的新信息可以包含在结果中。但是，由于调查方法、样本大小以及民调机构政党倾向性等因素的影响，民调结果往往有偏。后续，有部分学者和公司机构提出了基于宏观变量的预测方法。这类预测方法综合考虑国家层面宏观经济数据，构建预测模型对大选得票率进行预测。该类方法预测模型易得，对选举结果具有较强的解释性。但预测模型往往基于长期历史数据，时效性不强，无法在模型中引入临近选举的最新信息；且在候选人难分伯仲的情况下，很难做出准确预测。随着互联网技术的迅速发展，信息呈爆炸式增长，选举信息呈现方式也越来越多样化，大数据中蕴含的丰富信息给选举预测带来了新的解决思路。多个国家或地区的选举都证明了诸如Facebook和Twitter等社交网络在得票率预测中的作用。基于互联网大数据的选举预测方法相较于民调方法和基于宏观变量的预测方法具有更强的实时性，但目前方法多属于事后分析，且仅基于单一社交媒体数据源，没有考虑到用户参与社交媒体平台的多样性。如此，得到的候选人支持率预测结果往往有较大的偏差，难以全面反映选举舆情。
技术实现思路
...

【技术保护点】
1.一种互联网多源异质数据融合的选举预测方法，其特征在于，具体步骤如下：步骤一：从互联网数据中，筛选能够反映选举国家或地区民心动向的信息源；步骤二：从筛选出的互联网信息源中提取具体特征，构建基于互联网平台的候选人支持率预测指标体系；所述的预测指标包括：社交网络预测指标、搜索引擎预测指标和候选人竞选主页预测指标；具体构建过程如下：(一)从数量和情感两个方面构建社交网络预测指标；在数量方面，通过社交网络中提及候选人的发帖比例作为预测指标；具体而言，若第t日在社交网络平台中提及候选人i的帖子数量为

【技术特征摘要】
1.一种互联网多源异质数据融合的选举预测方法，其特征在于，具体步骤如下：步骤一：从互联网数据中，筛选能够反映选举国家或地区民心动向的信息源；步骤二：从筛选出的互联网信息源中提取具体特征，构建基于互联网平台的候选人支持率预测指标体系；所述的预测指标包括：社交网络预测指标、搜索引擎预测指标和候选人竞选主页预测指标；具体构建过程如下：(一)从数量和情感两个方面构建社交网络预测指标；在数量方面，通过社交网络中提及候选人的发帖比例作为预测指标；具体而言，若第t日在社交网络平台中提及候选人i的帖子数量为则当日该候选人i在该平台获得的提及支持率指标计算方式如下：或者以候选人每一日平均每条帖文获得的赞数作为网民对该候选人的支持度；具体而言，若第t日候选人i在社交网络平台发布了n条帖子，每条帖子j获得赞数为则当日该候选人i在该平台获得的赞数支持率指标计算方式如下：在情感方面，对社交网络中的文本信息进行情感分类，并计算积极情感和消极情感的比例，从而作为网民对候选人的支持率预测指标；具体而言，若第t日社交网络中关于候选人i的发帖共有条，其中积极情感帖子为条，消极情感帖子为条，则该候选人i的文本情感支持率指标计算方式如下：(二)构建搜索引擎预测指标；首先，选取选举国家或地区使用量最大的搜索引擎；然后，获取候选人i在第t日的搜索量计算候选人i在第t日搜索引擎中的关注度指标：(三)构建候选人竞选主页预测指标；候选人i通过竞选网站在第t日的IP访问量为计算候选人i在t日的竞选主页关注度指标：步骤三：将提取的各类预测指标视为反映民意的信号，运用卡尔曼滤波模型进行融合，动态实时跟踪预测候选人的支持率；具体过程如下：步骤301、运用移动平均法对提取出的各类预测指标进行平滑，得到各预测指标平滑值当对t+1日候选人i支持率进行预测时，先计算t-l至t日每日的各指标值c∈{c...

【专利技术属性】
技术研发人员：赵忠华，吴俊杰，解峥，袁翠欣，孙小宁，李欣，万欣欣，
申请(专利权)人：国家计算机网络与信息安全管理中心，北京航空航天大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人