一种出版物发行分析系统和方法技术方案

技术编号:15792136 阅读:43 留言:0更新日期:2017-07-09 23:28
本发明专利技术实施例公开了一种出版物发行分析系统和方法。其中,所述系统包括:数据采集子系统,用于获取出版物关联的互联网爬虫数据和/或地面销售数据;清洗层,用于对获取的数据进行清洗,得到原始数据;数据层,用于存储所述原始数据;处理层,用于读取所述数据层的原始数据,对所述原始数据进行调度和挖掘分析,得到基础分析数据;应用分析子系统,用于根据所述基础分析数据得到出版发行分析结果数据;展现层,用于根据所述出版发行分析结果数据展现分析结果。本发明专利技术实施例提供的技术方案,依托海量的互联网数据和/或地面销售数据,采用大数据处理,为出版发行提供了精确、可靠的分析结果,为出版发行提供了精确和有效的决策信息。

【技术实现步骤摘要】
一种出版物发行分析系统和方法
本专利技术实施例涉及出版发行
,尤其涉及种一种出版物发行分析系统和方法。
技术介绍
随着互联网行业的日益发展,传统出版行业正逐步与互联网接轨。在过去信息量贫乏和渠道单一的时代,出版物的发行和销售一直都处于监控难,信息收集慢的境况。而对于出版发行后的市场反馈信息,更是稀疏不齐。在信息爆炸时代,读者消费出版产品呈现“碎片化”和“瞬变化”特征。图书选题,一直是出版社工作决策的关键一步。及时了解时下热点议题,悉知大众最新的阅读期待和阅读需求,洞见热点图书选题的发展趋势和分布,是出版单位对数据支撑系统的普遍需求。然而现有出版行业信息化程度高,自动化程度低。缺少对出版物发行分析的有效方法,无法为出版发行提供有效的决策信息。
技术实现思路
本专利技术提供一种出版物发行分析系统和方法,以对海量数据进行分析和挖掘,为出版发行提供精确和有效的决策信息。第一方面,本专利技术实施例提供了一种出版物发行分析系统,该系统包括:数据采集子系统,用于获取出版物关联的互联网爬虫数据和/或地面销售数据;清洗层,用于对获取的数据进行清洗,得到原始数据;数据层,用于存储所述原始数据;处理层,用于读取所述数据层的原始数据,对所述原始数据进行调度和挖掘分析,得到基础分析数据;应用分析子系统,用于根据所述基础分析数据得到出版发行分析结果数据;展现层,用于根据所述出版发行分析结果数据展现分析结果。第二方面,本专利技术实施例还提供了一种出版物发行分析方法,该方法包括:获取出版物关联的互联网爬虫数据和/或地面销售数据;对获取的数据进行清洗,得到原始数据;存储所述原始数据;读取所述数据层的原始数据,对所述原始数据进行调度和挖掘分析,得到基础分析数据;根据所述基础分析数据得到出版发行分析结果数据;根据所述出版发行分析结果数据展现分析结果。本专利技术实施例提供的技术方案,通过获取出版物关联的互联网爬虫数据和/或地面销售数据,对这些数据进行存储的和相应的处理,得到出版发行分析结果数据,并展示分析结果。即依托丰富的互联网爬虫数据和地面销售数据,基于调度、挖掘和分析,得到出版物发行分析结果数据,分析的维度更加丰富,得出的结果更精确。提供一种有效的出版发行分析方法,为出版发行提供精确和有效的决策信息。附图说明图1A是本专利技术实施例提供的一种出版物发行分析系统的结构示意图;图1B是本专利技术实施例提供的另一种出版物发行分析系统的结构示意图;图1C是本专利技术实施例提供的另一种出版物发行分析系统的结构示意图;图2是本专利技术实施例提供的一种出版物发行分析方法的流程示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。图1A是本专利技术实施例提供的一种出版物发行分析系统的结构示意图。本专利技术实施例可适用于对出版发行进行分析,为用户提供决策信息的情况,所述系统可由硬件和/或软件实现,本专利技术实施例提供的出版物发行分析系统包括:数据采集子系统11,用于获取出版物关联的互联网爬虫数据和/或地面销售数据。出版物可包括图书、杂志、报纸、音像读物等。在本专利技术实施中,出版物优选为图书。数据采集子系统11可通过灵活的自定义爬虫,通过丰富的网络资源进行目标数据爬取。采取多线程并发、共享任务池、横向扩展等方式来提高性能。例如通过三节点爬虫组可支撑百万级数据爬取与解析。数据采集子系统11可基于标题、作者、发布时间、正文、来源、编辑、点击量和评论数等数据采集指标,获取出版物关联的互联网爬虫数据和/或地面销售数据,也就是说,获取的数据是与出版物的标题、作者、发布时间、正文、来源、编辑、点击量和评论数相关数据。在本专利技术实施例中,优选的,数据采集子系统11可爬取与出版物关联的门户网站数据、论坛数据、微博数据、微信数据和第三方数据中的至少一种数据,获取出版物关联的地面销售数据。用户可定向关注,自定义爬取源,选择需要的解析模板,例如用户可以选择爬取与出版物关联的主流书评网站数据,或者选择爬取与出版物关联的论坛数据,也可选择从多个互联网的数据源爬取数据,而地面销售数据一般是被导入到系统中,可直接获取。清洗层12,用于对获取的数据进行清洗,得到原始数据。例如,清洗层12可通过RPC协议,与数据采集子系统11进行高效通信,通过分布式消息服务保证数据的高可靠性传输。通过配置中心管理多节点,高效接收流式数据,批量进行数据分发处理。具体地,清洗层12用于对数据采集子系统11获取的数据进行过滤、去重和补全等操作,例如清洗噪声数据、异常数据、重复数据等。数据层13,用于存储原始数据。数据层13具有高可靠数据存储能力,基于Streaming的实时高效数据处理,采取ORC文件的高效读写。数据层支持ORC、TXT、CSV等常规大小文件,同时支持LZO、GZIP、SNAPPY等多种压缩格式,以节省存储资源,减少文件流网络成本。存储的数据类型支持结构化和非结构化数据,包括稀疏数据的存储,热点数据映射。例如包括基于HDFS分布式文件存储和基于HBase的非结构化稀疏数据的列式存储,HBase基于rowkey和region的优化、Elasticsearch基于API和DSL的封装。可适应不同上层引擎的处理需求。并且提供高效的基于文档的多维度搜索和毫秒级数据定位能力。处理层14,用于读取数据层13的原始数据,对原始数据进行调度和挖掘分析,得到基础分析数据。处理层14可对原始数据进行基本的分析,得到粗粒度数据或周期数据,处理层14输出的粗粒度数据或周期数据将作为应用分析子系统的基础数据源。应用分析子系统15,用于根据基础分析数据得到出版发行分析结果数据。应用分析子系统15主要为展现层16提供灵活的定制分析。应用分析子系统15可定时分析数据采集子系统11采集的数据,经过语义分析、内容聚合、分类等操作,生成各种选题推荐数据,市场监测数据,定向关注,预警数据等。用户可以根据当前市场热销图书的相关信息,发起临时分析任务,应用分析子系统15根据用户输入的关键词等信息,从已采集数据中和处理层14输出的基础分析数据中抽取、聚合、分类相关信息,生成选题推荐相关数据。用户也可通过配置应用分析子系统15的分析参数,如相似度阈值、分类种子等数据,对关注的相关图书或者选题信息进行动态分析,生成选题推荐相关数据,如选题排行、作者分析、读者分析数据等。例如,对于图书,可以基于热点、热评、热销等分析指标,对基础分析数据进行趋势分析、溯源分析、发布人分析、粉丝数变化曲线、热度趋势分析、媒反馈分析、专家名人分析等,得到畅销书排行分析结果数据、选题排行分析结果数据、作者排行分析结果数据、图书查重分析结果数据等。展现层16,用于根据出版发行分析结果数据展现分析结果。在得到出版发行分析结果数据之后,展现层16可根据这些分析结果数据,以文字、图表等形式展现分析结果。本专利技术实施例提供的技术方案,通过获取出版物关联的互联网爬虫数据和/或地面销售数据,对这些数据进行存储的和相应的处理,得到出版发行分析结果数据,并展示分析结果。依托丰富的互联网爬虫数据和地面销售数据,基于调度、挖掘和分析,基于文本分析和机器学习等大数本文档来自技高网...
一种出版物发行分析系统和方法

【技术保护点】
一种出版物发行分析系统,其特征在于,包括:数据采集子系统,用于获取出版物关联的互联网爬虫数据和/或地面销售数据;清洗层,用于对获取的数据进行清洗,得到原始数据;数据层,用于存储所述原始数据;处理层,用于读取所述数据层的原始数据,对所述原始数据进行调度和挖掘分析,得到基础分析数据;应用分析子系统,用于根据所述基础分析数据得到出版发行分析结果数据;展现层,用于根据所述出版发行分析结果数据展现分析结果。

【技术特征摘要】
1.一种出版物发行分析系统,其特征在于,包括:数据采集子系统,用于获取出版物关联的互联网爬虫数据和/或地面销售数据;清洗层,用于对获取的数据进行清洗,得到原始数据;数据层,用于存储所述原始数据;处理层,用于读取所述数据层的原始数据,对所述原始数据进行调度和挖掘分析,得到基础分析数据;应用分析子系统,用于根据所述基础分析数据得到出版发行分析结果数据;展现层,用于根据所述出版发行分析结果数据展现分析结果。2.根据权利要求1所述的系统,其特征在于,所述数据采集子系统具体用于:爬取与出版物关联的门户网站数据、论坛数据、微博数据、微信数据和第三方数据中的至少一种数据;获取出版物关联的地面销售数据。3.根据权利要求1所述的系统,其特征在于,所述处理层包括:任务调度引擎,用于对所述原始数据进行周期调度处理得到周期数据;数据挖据引擎,用于对所述周期数据的内容进行归类、中文分词、词性标注和语义分析处理,得到挖掘结果数据;其中,所述周期性数据包括销售数据、评论数据、媒体热点数据、畅销榜单数据、作家影响力数据和读者反馈相关数据;所述应用分析子系统用于对所述周期数据、所述挖掘结果数据和/或所述原始数据进行实时分析、固定分析和智能分析,生成选题推荐相关数据、出版物营销相关数据、出版物反馈相关数据和出版市场相关数据中的至少一类数据。4.根据权利要求3所述的系统,其特征在于,所述数据挖掘引擎还用于:根据用户的配置和输入的信息,对存储的数据进行抽取、聚合和分类,生成挖掘结果数据。5.根据权利要求3或4所述的系统,其特征在于,所述展现层包括:出版市场监测子系统,用于根据所述出版市场相关数据展现出版社信息、行业政策信息、定向关注信息和预警信息中的至少一种信息;选题支撑子系统,用于根据所述选题推荐相关数据展现畅销书排行与分析信息、网络文学排行与分析信息、选题排行与分析信息、作者排行与分析信息、以及图书查重信息中的至少一种信息;营销决策支撑子系统,用于根据所述出版物营销相关数据展现出版物检索定位信息、读者特征分析信息、营销渠道分析信息和市场分析信息中的至少一种信息;出版物反馈分析子系统,用于根据所述出版物反馈相关数据展现大众反馈分析信息、网络媒体反馈分析信息和专家名人反馈分析信...

【专利技术属性】
技术研发人员:蒲庆宇杨进国王曦刘伯良陈方云
申请(专利权)人:天闻数媒科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1