当前位置: 首页 > 专利查询>河海大学专利>正文

一种金融证券舆情信息爬取方法及装置制造方法及图纸

技术编号:27975792 阅读:19 留言:0更新日期:2021-04-06 14:10
本发明专利技术公开了一种金融证券舆情信息爬取方法及装置,该爬取方法包括以下步骤:下载金融社交网站的页面数据,利用爬虫爬取页面中针对证券市场不同股票板块的权重股股票舆情;根据股票代码构造种子URL,将不同流通市值的股票对其所属板块影响不同这一特性与该只股票所对应的URL序列结合,得到面向金融证券的主题型结构化舆情信息,并提供一种爬取金融证券舆情信息的爬虫装置。本发明专利技术适用于金融证券领域的主题型舆情爬取任务,可以快速地从金融社交平台中抓取、采集多个与主题相关的页面。本发明专利技术的爬取方法在爬取时间和爬取准确率两个方面表现较为优秀,能更加有效地完成金融证券舆情信息爬取的任务,提高了爬取金融证券舆情信息的利用率。

【技术实现步骤摘要】
一种金融证券舆情信息爬取方法及装置
本专利技术涉及一种信息爬取方法及装置,尤其涉及一种金融证券舆情信息爬取方法及装置。
技术介绍
信息通信技术的迅猛发展促使网络信息传播的交互性增强、数据更新的频率提高。常见的通用型爬虫,可以对互联网大部分网页进行无差别抓取,其目标就是尽可能多地采集信息页面。但在抓取过程中,通用型爬虫需要消耗很大的资源和网络带宽,却未必能换来采集页面的高可利用率,且在对页面的采集策略和被采集页面的主题相关性等方面也并无特殊考虑。在金融证券领域,财经类新闻资讯的迭代及时、快速,互动型金融社交平台活跃、用户量大,产生了海量舆情信息。如何利用舆情信息对股票板块的走势进行短期预测,需要爬取各股票板块的股票舆情信息,而在股票板块中权重股的影响力较大,权重股的舆情就要比非权重股的舆情相对更重要。因此,提供面向金融证券舆情信息的高效、精准的主题型爬虫成为目前金融信息领域的一项需求。
技术实现思路
专利技术目的:本专利技术的第一目的为提供一种提升爬取效率和爬取准确率的金融证券舆情信息爬取方法,本专利技术的第二目的为提供一种爬本文档来自技高网...

【技术保护点】
1.一种金融证券舆情信息爬取方法,其特征在于,包括以下步骤:/n(1)下载金融社交网站的页面数据,利用爬虫爬取页面中针对金融证券市场中不同板块权重股的股票舆情;/n(2)查询权重股的股票名称和代码,根据股票代码构造种子URL,将不同流通市值的股票对其所属板块影响不同这一特性与该只股票所对应的URL序列结合,得到面向金融证券的主题型结构化舆情信息。/n

【技术特征摘要】
1.一种金融证券舆情信息爬取方法,其特征在于,包括以下步骤:
(1)下载金融社交网站的页面数据,利用爬虫爬取页面中针对金融证券市场中不同板块权重股的股票舆情;
(2)查询权重股的股票名称和代码,根据股票代码构造种子URL,将不同流通市值的股票对其所属板块影响不同这一特性与该只股票所对应的URL序列结合,得到面向金融证券的主题型结构化舆情信息。


2.根据权利要求1所述金融证券舆情信息爬取方法,其特征在于,步骤(1)中,所述爬虫的爬取策略如下:通过种子URL链接,进入相应的网页后爬取更多的URL,重复上述步骤,直至进入预设的层数后返回。


3.根据权利要求1所述金融证券舆情信息爬取方法,其特征在于,步骤(1)中,所述股票舆情来源为金融社交网站中的股票评论信息。


4.根据权利要求1所述金融证券舆情信息爬取方法,其特征在于,步骤(1)中,选取板块股票流通市值排名前30%的股票作为板块权重股。


5.根据权利要求1所述金融证券舆情信息爬取方法,其特征在于,步骤(2)的具体步骤如下:
(a)查询股票板块的所有股票名称和代码,根据股票代码构造种子URL;
(b)以每只股票的流通市值作为权重构建股票板块的树型结构,离根节点越近的叶子节点权重越大,种子节点包含一个队列结构用于管理一只股票的URL序列;
(c)将所有板块股票的流通市值加和,构建成线段;
(d)在所述线段长度的范围内随机生成一个数,该数值坐落的区间即对应一只股票;
(e)从所述树型结构中查找到相应的股票,爬取相应的股票队列中存储序列第一位的URL链接;
(f)选取板块股票流通...

【专利技术属性】
技术研发人员:陶飞飞章猛叶小舟朱晓瑞刘生伟庄展鹏顾将赢
申请(专利权)人:河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1