信息采集系统技术方案

技术编号:23289449 阅读:20 留言:0更新日期:2020-02-08 19:09
本申请公开了一种信息采集系统,包括数据采集模块、数据处理模块和数据整理模块。其中,数据采集模块用于获取与待监测交易所挂牌项目相关的网页。数据处理模块用于从所述网页中提取与挂牌项目相关的信息,以及,对提取的与挂牌项目相关的信息进行数据清洗。数据整理模块用于对经过清洗后的与挂牌项目相关的信息进行整理统计,并输出整理统计结果。这样,智能地完成对各交易所的信息监测工作,节省了人力成本并确保了工作质量和数据准确性。

Information acquisition system

【技术实现步骤摘要】
信息采集系统
本申请涉及信息服务
,尤其涉及针对于各地方交易所的挂牌项目的信息采集系统。
技术介绍
收集同行业内的其他主体的经营活动信息,有利于深入了解行业动态以优化自身经营活动。例如,作为中国银行间市场交易商协会的指定交易平台以及财政部指定的金融类国有资产交易平台的北京金融资产交易所有限公司,其需要对各地方交易所的金融国资类项目进行信息监测。然而,目前该信息监测工作靠人工来完成。随着信息监测内容涉及的内容点逐渐增多,内容面逐渐扩广以及信息更新更为频繁,人力成本飞速上涨。同时,受人力因素影响,工作质量和数据准确性难以保证。因此,提供一款专门针对于各地方交易所的挂牌项目的信息采集系统。
技术实现思路
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种针对于各地方交易所的挂牌项目的信息采集系统,其能够智能地完成对各交易所的信息监测工作,节省了人力成本并确保了工作质量和数据准确性。根据本申请的一方面,提供了一种信息采集系统,包括:数据采集模块,用于获取与待监测交易所挂牌项目相关的网页;数据处理模块,用于从所述网页中提取与挂牌项目相关的信息,以及,对提取的与挂牌项目相关的信息进行数据清洗;以及数据整理模块,用于对经过清洗后的与挂牌项目相关的信息进行整理统计,并输出整理统计结果。在根据本申请的信息采集系统中,所述数据采集模块基于网络信息抓取技术获取与待监测交易所挂牌项目相关的网页。在根据本申请的信息采集系统中,所述整理统计结果包括各交易所挂牌的数量、各交易所挂牌交易额和个交易所54号令下的项目数。在根据本申请的信息采集系统中,所述整理统计结果通过表格的形式输出。在根据本申请的信息采集系统中,所述信息采集系统进一步包括数据查询模块,用于接收查询请求,以及,响应于接收到所述查询请求,输出匹配的查询结果。在根据本申请的信息采集系统中,各交易所挂牌项目为金融国资类项目。根据本申请另一方面,提供一种信息采集系统,其包括:用户层,其中,在所述用户层上设有普通用户和系统管理员两种用户角色,并且,为所述普通用户和所述系统管理员配置不同的访问权限和功能;表现层,用于显示与待监测交易所挂牌项目相关的数据和/或整理统计结果;应用层,用于搜索与待监测交易所挂牌项目相关的数据;浏览与管理待监测交易所挂牌项目相关的数据;以及,对所述信息采集系统进行系统管理;分析层,用于对与待监测交易所挂牌项目相关的数据进行清洗、识别和/或分析;采集层,用于采集与待监测交易所挂牌项目相关的数据;以及基础设施层,用于部署操作系统、数据库系统、应用服务器、分布式缓存系统、文件服务器和全文检索系统。在根据本申请的信息采集系统中,为普通用户配置的功能包括:数据查询、数据统计和报表输出;为系统管理员配置的功能包括:用户管理、交易所站点库管理和系统数据管理。本申请提供的所述信息采集系统能够智能地完成对各交易所的信息监测工作,节省了人力成本并确保了工作质量和数据准确性。附图说明通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。图1图示了根据本申请实施例的信息采集系统的框图示意图。图2图示了根据本申请实施例的信息采集系统的工作流程示意图。图3图示了根据本申请实施例的信息采集系统的逻辑架构示意图。图4图示了根据本申请实施例的信息采集系统的另一框图示意图。具体实施方式下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。示例性信息采集系统如图1所示,基于本申请实施例的信息采集系统被阐明。特别地,在本申请实施例中,所述信息采集系统为专门针对于各地方交易所的挂牌项目(尤其是金融国资类项目)的信息采集系统,其中,通过所述信息采集系统能够智能地完成对各交易所的信息监测工作,节省了人力成本并确保了工作质量和数据准确性。如图1所示,根据本申请实施例的所述信息采集系统100包括:数据采集模块110、数据处理模块120、数据整理模块130和数据查询模块140。其中,数据采集模块110用于获取与待监测交易所挂牌项目相关的网页。所述数据处理模块120用于从所述网页中提取与挂牌项目相关的信息,以及,对提取的与挂牌项目相关的信息进行数据清洗。所述数据整理模块130用于对经过清洗后的与挂牌项目相关的信息进行整理统计,并输出整理统计结果。所述数据查询模块140用于接收查询请求,以及,响应于接收到所述查询请求,输出匹配的查询结果。具体来说,在本申请实施例中,所述数据采集模块110基于网络信息花去技术获取与待监测交易所挂牌项目相关的网页。本领域普通技术人员应知晓,网络信息抓取技术,例如网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本(另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫)。按照系统结构和实现技术分来,网络爬虫大致可以分为以下几个类型:通用网络爬虫(GeneralPurposeWebCrawler)、聚焦网络爬虫(FocusedWebCrawler)、增量式网络爬虫(IncrementalWebCrawler)、深层网络爬虫(DeepWebCrawler),并且,在具体应用中,还可以将上述几种爬虫技术相结合。本领域普通技术人员应了解,在本申请实施例中,所述网络爬虫技术的选择并不为本申请所局限。应可以理解,在通过网络爬虫技术抓取网页前,需提供待监测交易所的名单。特别地,在本申请实施例中,各交易所为地方交易所,包括但不限于:天津金融资产交易所(简称天金所)、上海联合产权交易所(简称上海联交所)、重庆金融资产交易所(简称重金所)等。这样,便可以通过网络爬虫技术获取与待监测交易所挂牌项目相关的网页(作为原始数据)。进一步地,所述数据处理模块120用于从所述网页中提取与挂牌项目相关的信息,以及,对提取的与挂牌项目相关的信息进行数据清洗。也就是说,从原始数据中提取与挂牌项目相关的信息(目的信息),并对提取的与挂牌项目相关的信息进行清洗处理。在具体实施中,数据清洗过程,包括但不限于:缺失值处理、特征变量转化、特征选择和维度变化和标准化/归一化/稀疏化等。并且,在进行数据清洗之后,可将清洗之后的数据加载到数据库(例如,SQL数据库)中。进一步地,所述数据整理模块130用于对经过清洗后的与挂牌项目相关的信息进行整理统计,并输出整理统计结果。特别地,所述整理统计结果包括但不限于各交易所挂牌的数量、各交易所挂牌交本文档来自技高网...

【技术保护点】
1.一种信息采集系统,其特征在于,包括:/n数据采集模块,用于获取与待监测交易所挂牌项目相关的网页;/n数据处理模块,用于从所述网页中提取与挂牌项目相关的信息,以及,对提取的与挂牌项目相关的信息进行数据清洗;以及/n数据整理模块,用于对经过清洗后的与挂牌项目相关的信息进行整理统计,并输出整理统计结果。/n

【技术特征摘要】
1.一种信息采集系统,其特征在于,包括:
数据采集模块,用于获取与待监测交易所挂牌项目相关的网页;
数据处理模块,用于从所述网页中提取与挂牌项目相关的信息,以及,对提取的与挂牌项目相关的信息进行数据清洗;以及
数据整理模块,用于对经过清洗后的与挂牌项目相关的信息进行整理统计,并输出整理统计结果。


2.根据权利要求1所述的信息采集系统,其中,所述数据采集模块基于网络信息抓取技术获取与待监测交易所挂牌项目相关的网页。


3.根据权利要求1所述的信息采集系统,其中,所述整理统计结果包括各交易所挂牌的数量、各交易所挂牌交易额和各交易所54号令下的项目数。


4.根据权利要求3所述的信息采集系统,其中,所述整理统计结果通过表格的形式输出。


5.根据权利要求1所述的信息采集系统,进一步包括数据查询模块,用于接收查询请求,以及,响应于接收到所述查询请求,输出匹配的查询结果。


6.根据权利要求1所述的信息...

【专利技术属性】
技术研发人员:孟蕾
申请(专利权)人:北京金融资产交易所有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1