基于网络信息资源的行业分析系统及方法技术方案

技术编号:18351482 阅读:39 留言:0更新日期:2018-07-02 01:25
本发明专利技术涉及信息分析领域,提出了一种基于网络信息资源的行业分析系统,旨在解决行业信息分析需要消耗大量的人力物力,且无法达到实时性的问题。该系统包括:数据采集模块、数据预处理模块、数据分析模块和前台交互模块,其中,数据采集模块,配置为采集与行业相关的网络信息;数据预处理模块,配置为对上述网络信息进行结构化处理,与平台数据进行融合,构建产业结构树;数据分析模块,配置为通过自然语言处理技术和数据挖掘算法分析上述平台数据,提取与上述关键词相关的数据作为交互数据;前台交互模块,配置为于通过上述交互数据与用户终端进行交互。本发明专利技术实现从海量网络信息中挖掘有价值的数据,为用户实时地呈现行业的分析结果。

【技术实现步骤摘要】
基于网络信息资源的行业分析系统及方法
本专利技术涉及计算机网络信息应用领域,具体涉及网络信息资源的数据挖掘应用领域,特别涉及一种基于网络信息资源的行业分析系统及方法。
技术介绍
随着信息技术的快速发展,各领域的信息数据呈现出爆炸式增长,也给这些行业的工作者带来了巨大的挑战和压力,如何从这些海量数据中,挖掘出有价值的行业信息,实时追踪产业信息变化,了解产业上下游分工和竞争对手的发展动向,辅助行业管理层、决策层针对市场变化,做出快速有效的应对策略,具有重要的借鉴意义。行业分析,是一种系统性的行业信息整合分析结果,对于企业发现行业商机、把握市场脉搏、评估投资风险等方面,具有重要的借鉴意义。通常由企业内部或专业的市场研究公司,收集相关数据,并结合相关的从业经验来进行行业分析报告。由于行业分析报告需要调研后编制,需要消耗大量的人力物力,且无法达到实时性,这与瞬息万变的信息时代,存在巨大的反差。
技术实现思路
为了解决现有技术中的上述问题,即为了解决在行业分析报告需要调研后编制,需要消耗大量的人力物力,且无法达到实时性的问题,本专利技术采用以下技术方案以解决上述问题:第一方面,本申请提供了基于网络信息资源的行业分析系统,该系统包括:数据采集模块、数据预处理模块、数据分析模块和前台交互模块,其中,上述数据采集模块,配置为采集与用户所关注行业相关的网络信息;上述数据预处理模块,配置为对上述网络信息进行结构化处理,与预设的平台数据进行融合,构建产业结构的领域知识树和产业结构的领域知识树节点之间的关联关系;上述数据分析模块,配置为通过自然语言处理方法和数据挖掘算法分析上述平台数据和领域知识树,提取与上述行业相关的数据作为交互数据;上述前台交互模块,配置为通过上述交互数据与用户终端进行交互。在一些示例中,上述数据采集模块包括垂直网络爬虫和学术网络爬虫,上述垂直网络爬虫,配置为根据预设的第一初始种子节点,通过分析统一资源定位符从行业垂直网站抓取网页信息;上述学术网络爬虫,配置为根据预设的第二初始种子节点从学术网站抓取学术文章。在一些示例中,上述数据预处理模块包括数据结构化子模块、平台数据子模块、领域术语提取子模块和领域知识树子模块,上述数据结构化子模块,配置为对上述垂直网络爬虫收集的垂直网页信息进行结构化分析;上述平台数据子模块,配置为存储平台用户以及收集的网络信息数据,并为上述分析模块提供数据;上述领域术语提取子模块,配置为从上述学术网络爬虫所爬取的学术文章中提取领域相关术语;上述领域知识树子模块,配置为结合领域专家知识,对提取的所述领域术语进行结构化组织,构建产业结构的领域知识树,并分析上述领域知识树的节点之间的产业关联关系。在一些示例中,上述领域术语提取子模块,进一步配置为分析学术网络爬虫获取的学术文章,使用文本分析方法分析文章标题、关键词和摘要中的词频,提取领域专业术语。在一些示例中,上述数据分析模块包括实体识别子模块和数据挖掘子模块,上述实体识别子模块,配置为通过文本分词、词性标注和句法分析来构建实体识别特征,融合条件随机场和基于规则的方法,识别平台数据中所包含的地域实体、机构名实体和领域术语实体;上述数据挖掘子模块,配置为利用有监督的机器学习算法,将识别出的实体与领域知识树相关联,统计分析新闻数据、公司数据与领域知识树之间的关联关系,从而分析网络信息数据在地域和产业链各节点的分布情况以及变化趋势;根据用户在平台的操作数据,推理用户所关注的产业节点,使用基于内容的推荐算法,为用户推荐个性化的新闻、公司和产品。在一些示例中,上述前台交互模块包括可视化子模块和地图子模块,上述可视化子模块,配置为通过领域知识树、地图、折线图、柱状图和列表综合的方式将上述数据分析模块分析的结果数据与用户进行交互;上述地图子模块,配置为用户呈现所选取区域的区域地图。第二方面,本申请提供了一种基于网络信息资源的行业分析方法,该方法包括:采集与用户所关注行业相关的网络信息;对所述网络信息进行结构化处理,与预设的平台数据进行融合,构建产业结构树;通过自然语言处理技术和数据挖掘算法分析所述平台数据,提取与所述行业相关的数据作为交互数据;通过所述交互数据与用户终端进行交互。在一些示例中,上述与行业相关的网络信息包括网页信息和学术文章,上述采集与用户所关注行业相关的网络信息,包括:根据预设的第一初始种子节点,利用垂直网络爬虫通过分析上述第一初始种子节点所包含的统一资源定位符从行业垂直网站抓取网页信息;根据预设的第二初始种子节点,利用学术网络爬虫为从学术网站抓取学术文章。在一些示例中,上述对上述网络信息进行结构化处理,与预设的平台数据进行融合,构建产业结构的领域知识树,包括对垂直网络爬虫采集的垂直网页信息进行结构化分析;从上述学术网络爬虫所爬取的学术文章中提取领域相关术语;结合领域专家知识,对提取的领域术语以及关键技术进行结构化组织,构建产业结构树,并分析结构树节点之间的产业关联关系。在一些示例中,上述从上述学术网络爬虫所爬取的学术文章中提取领域相关术语,包括:为分析学术网络爬虫获取的学术文章,使用文本分析算法分析文章标题、关键词和摘要中的词频,提取领域专业术语。在一些示例中,上述通过自然语言处理方法和数据挖掘算法分析上述平台数据,提取与上述行业相关的数据作为交互数据,包括:通过文本分词、词性标注和句法分析来构建实体识别特征,融合条件随机场和基于规则的方法,识别平台数据中所包含的地域实体、机构名实体和领域术语实体;利用有监督的机器学习算法,将识别出的实体与领域知识树相关联,统计分析新闻数据、公司数据与领域知识树之间的关联关系,从而分析网络信息数据在地域和产业链各节点的分布情况以及变化趋势;根据用户在平台的数据,推理用户所关注的产业节点,使用基于内容的推荐算法,为用户推荐个性化的新闻、公司和产品。在一些示例中,上述通过上述交互数据与用户终端进行交互,包括:通过领域知识树、地图、折线图、柱状图和列表综合的方式将上述交互数据与用户进行交互;为用户呈现所选取区域的地图。本申请提供的基于网络信息资源的行业分析系统及方法,数据采集模块采集与用户所在行业相关的信息,通过数据预处理模块将上述信息进行结构化处理,并构建行业的领域知识树,利用数据分析模块对预处理后的信息进行分析挖掘得到行业信息的分析结果,通过前台交互模块与用户进行交互。实现了从海量数据中,挖掘出有价值的行业信息,实时追踪产业信息变化,了解产业上下游分工和竞争对手信息,辅助行业管理层、决策层针对市场变化,做出快速有效的应对策略。附图说明图1是根据本申请的基于网络信息资源的行业分析系统的一实施例的结构示意图;图2是本申请的实施例中垂直网络爬虫爬取网页信息流程的基本框架图;图3是本申请的实施例中领域知识树子模块构建的机器人行业产业链知识树的示例性应用的示意图;图4a是在行业产业链中构建的产业节点的上下游节点关系示意图;图4b是在行业产业链中构建的机器人产业链中系统集成产业节点的上下游节点关系示意图;图5是本申请实施例中利用文本分析算法执行文本分词、词性标注和句法分析的实例结果示意图;图6是应用于本申请的基于网络信息资源的行业分析方法的一实施例示意图。具体实施方式下面参照附图来描述本专利技术的优选实施方式。本领域技术本文档来自技高网...
基于网络信息资源的行业分析系统及方法

【技术保护点】
1.一种基于网络信息资源的行业分析系统,其特征在于,所述系统包括:数据采集模块、数据预处理模块、数据分析模块和前台交互模块,其中,所述数据采集模块,配置为采集与用户所关注行业相关的网络信息;所述数据预处理模块,配置为对所述网络信息进行结构化处理,与预设的平台数据进行融合,构建产业结构的领域知识树和产业结构的领域知识树节点之间的关联关系;所述数据分析模块,配置为通过自然语言处理方法和数据挖掘算法分析所述平台数据和所述领域知识树,提取与所述行业相关的数据作为交互数据;所述前台交互模块,配置为通过所述交互数据与用户终端进行交互。

【技术特征摘要】
1.一种基于网络信息资源的行业分析系统,其特征在于,所述系统包括:数据采集模块、数据预处理模块、数据分析模块和前台交互模块,其中,所述数据采集模块,配置为采集与用户所关注行业相关的网络信息;所述数据预处理模块,配置为对所述网络信息进行结构化处理,与预设的平台数据进行融合,构建产业结构的领域知识树和产业结构的领域知识树节点之间的关联关系;所述数据分析模块,配置为通过自然语言处理方法和数据挖掘算法分析所述平台数据和所述领域知识树,提取与所述行业相关的数据作为交互数据;所述前台交互模块,配置为通过所述交互数据与用户终端进行交互。2.根据权利要求1所述的基于网络信息资源的行业分析系统,其特征在于,所述数据采集模块包括垂直网络爬虫和学术网络爬虫,所述垂直网络爬虫,配置为根据预设的第一初始种子节点,通过分析统一资源定位符从行业垂直网站抓取网页信息;所述学术网络爬虫,配置为根据预设的第二初始种子节点从学术网站抓取学术文章。3.根据权利要求2所述的基于网络信息资源的行业分析系统,其特征在于,所述数据预处理模块包括数据结构化子模块、平台数据子模块、领域术语提取子模块和领域知识树子模块,所述数据结构化子模块,配置为对所述垂直网络爬虫所爬取的垂直网页信息进行结构化分析;所述平台数据子模块,配置为存储平台用户以及收集的网络信息数据,并为所述分析模块提供数据;所述领域术语提取子模块,配置为从所述学术网络爬虫所爬取的学术文章中提取领域相关术语;所述领域知识树子模块,配置为结合领域专家知识,对提取的所述领域术语进行结构化组织,构建产业结构的领域知识树,并分析产业结构的领域知识树节点之间的产业关联关系。4.根据权利要求3所述的基于网络信息资源的行业分析系统,其特征在于,所述领域术语提取子模块,进一步配置为分析所述学术网络爬虫获取的学术文章,使用文本分析方法分析文章标题、关键词和摘要中的词频,提取领域专业术语。5.根据权利要求1所述的基于网络信息资源的行业分析系统,其特征在于,所述数据分析模块包括实体识别子模块和数据挖掘子模块,所述实体识别子模块,配置为通过文本分词、词性标注和句法分析来构建实体识别特征,融合条件随机场和基于规则的方法,识别所述平台数据中所包含的地域实体、机构名实体和领域术语实体;所述数据挖掘子模块,配置为利用有监督的机器学习算法,将识别出的实体与所述领域知识树相关联,统计分析新闻数据、公司数据与所述领域知识树之间的关联关系,从而分析网络信息数据在地域和产业链各节点的分布情况以及变化趋势;根据所述用户在平台的操作数据,推理所述用户所关注的产业节点,使用基于内容的推荐算法,为用户推荐个性化的新闻、公司和产品。6.根据权利要求1所述的基于网络信息资源的行业分析系统,其特征在于,所述前台交互模块包括可视化子模块...

【专利技术属性】
技术研发人员:张海东倪晚成
申请(专利权)人:中国科学院自动化研究所中国科学院自动化研究所洛阳机器人与智能装备创新研究院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1