当前位置: 首页 > 专利查询>东北大学专利>正文

基于深度学习的网络舆情信息源影响力评估方法及系统技术方案

技术编号:26171325 阅读:49 留言:0更新日期:2020-10-31 13:43
本发明专利技术提供一种基于深度学习的网络舆情信息源影响力评估方法及系统,涉及信息源影响力评估及深度学习技术领域。该方法及系统首先获取多个目标信息源结构及其中的半结构化和非结构化数据,并将获取的数据处理成统一格式的结构化数据;然后建立网络信息源评估数据集及深度学习Xgboost评估模型并设定模型参数;对模型进行训练测试,得到测试集上的模型准确率;优化修改模型参数后对模型进行迭代训练,保存准确率最高的模型;最后将获取的多个目标信息源数据输入到准确率最高的模型中,得到各目标信息源的评分以及排名。该方法及系统可以更高效、可靠地评估舆情信息源,大大提高舆情信息搜索的准确度。

Evaluation method and system of network public opinion information source influence based on deep learning

【技术实现步骤摘要】
基于深度学习的网络舆情信息源影响力评估方法及系统
本专利技术涉及信息源影响力评估及深度学习
,尤其涉及一种基于深度学习的网络舆情信息源影响力评估方法及系统。
技术介绍
信息源质量是舆情大数据的准确性及质量保证的前提条件,为了舆情数据能够为舆情分析以及舆情预测提供准确的数据支撑,于是如何从海量信息源中评估出优质信息源也成为了重中之重。如何有效评估舆情信息源是一项极具挑战性的任务,国内外的网站影响力评价方法主要有两种:定性方法和定量方法。当前大多数的影响力评价的研究都是使用定量的方法:即基于网络计量学的角度,通过入链接数、出链接数、网络影响因子、网站的访问量等一些可量化的指标来对网站影响力进行评价分析。但是,很少有对网络舆情信息源影响力的评价工作,并且几乎未有将深度学习技术应用到舆情信息源影响力评估上的方法。舆情信息的发出者是信息源,收受者是网民。信息源通过发布信息、转载信息或引用信息等方式向网民传播舆情信息。同时,网民通过发表文章、点击、回复等方式表达对各种舆情信息的感兴趣程度,这些方式也隐含了网民被信息源影响的程度。因此,本文档来自技高网...

【技术保护点】
1.一种基于深度学习的网络舆情信息源影响力评估方法,其特征在于:包括以下步骤:/n步骤1:利用Web应用程序测试工具获取多个目标信息源结构,使用爬虫库解析目标信息源,获取目标信息源中的半结构化和非结构化数据,然后利用工具库将获取的数据处理成统一格式的结构化数据,最后将半结构化、非结构化数据以及结构化数据存入到关系型数据库中;/n步骤2:利用已有的从网络上爬取并处理好的数据,建立网络信息源评估数据集;/n步骤3:建立深度学习Xgboost评估模型并设定模型参数;/n步骤4:利用K折交叉验证及网络信息源评估数据集中的数据对Xgboost评估模型进行训练测试,得到测试集上的模型准确率并保存模型;/n...

【技术特征摘要】
1.一种基于深度学习的网络舆情信息源影响力评估方法,其特征在于:包括以下步骤:
步骤1:利用Web应用程序测试工具获取多个目标信息源结构,使用爬虫库解析目标信息源,获取目标信息源中的半结构化和非结构化数据,然后利用工具库将获取的数据处理成统一格式的结构化数据,最后将半结构化、非结构化数据以及结构化数据存入到关系型数据库中;
步骤2:利用已有的从网络上爬取并处理好的数据,建立网络信息源评估数据集;
步骤3:建立深度学习Xgboost评估模型并设定模型参数;
步骤4:利用K折交叉验证及网络信息源评估数据集中的数据对Xgboost评估模型进行训练测试,得到测试集上的模型准确率并保存模型;
步骤5:对步骤3中的模型参数进行优化修改,获得新的Xgboost评估模型;
步骤6:重复执行步骤4至步骤5,对Xgboost评估模型进行迭代训练,直至迭代次数达到预设的模型训练的最大次数epoch的值或模型准确率达到阈值,停止迭代,并保存准确率最高的Xgboost模型;
步骤7:将步骤1得到的多个目标信息源数据输入到步骤6保存的准确率最高的Xgboost模型中,得到各目标信息源的评分以及排名。


2.根据权利要求1所述的基于深度学习的网络舆情信息源影响力评估方法,其特征在于:所述获取的目标信息源中半结构化和非结构化数据包括网页内容中的文本、图片、HTML、各类报表、图像和音频/视频信息;所述结构化数据包括信息源月预估流量、收录数、反链数、关键词数、权重值、网民关注度、舆情主题相关度、信息源信息完整度和信息源时效性。


3.根据权利要求1所述的基于深度学习的网络舆情信息源影响力评估方法,其特征在于:所述网络信息源评估数据集中包括信息源的网民关注度、舆情主题相关度、信息源信息完整度、信息源时效性、百度权重、360权重、Alexa排名、关键词数、PR值、百度预估流量、收录、单月收录、百度索引量、百度反链数、Alexa流量排名、谷歌收录数及谷歌反链数。


4.根据权利要求1所述的基于深度学习的网络舆情信息源影响力评估方法,其特征在于:所述设定的模型参数具体为:采用线性回归reg:linear作为Xgboost评估模型的损失函数,选用线性模型求解方法作为booster值确定模型的求解方式,选取均方误差作为模型的优化指标;同时,设定模型最大训练次数ep...

【专利技术属性】
技术研发人员:王之琼信俊昌唐俊日王司亓隋玲雷盛楠汪宇李嘉欣
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1