一种全球产业链的展示方法技术

技术编号:20724974 阅读:21 留言:0更新日期:2019-03-30 17:42
本发明专利技术涉及一种全球产业链的展示方法,其包括步骤1、根据网址库中的公司网址对公司网页进行数据采集,获取相应的网页文本信息;步骤2、进行数据清洗,保留信息完整的公司信息,即通过自然语言处理,从步骤1获取的网页文本信息中抽取公司数据;步骤3、根据步骤2所获得的公司数据,并结合相应公司的地理位置信息,构建出全球企业知识图谱;步骤4、根据相应的图数据库的查询语言,通过特定国家城市的关键词进行查询,获取对应城市的产业分布情况,并进行可视化展示。

【技术实现步骤摘要】
一种全球产业链的展示方法
本专利技术涉及数据处理领域,具体涉及一种全球产业链的展示方法。
技术介绍
一个城市的产业分布情况可能会影响该城市的产业发展布局,也有可能决定着一个公司在该城市的规划与发展。然而,目前还没有一种全球产业链展示方法能够直观地获知一个地区或一个城市的产业分布情况。
技术实现思路
本专利技术的目的在于提供一种全球产业链的展示方法,其通过对全球网页数据采集,挖掘网页内公司信息,从而构建全球产业链的知识图谱进行展示。为实现上述目的,本专利技术采用的技术方案是:一种全球产业链的展示方法,其包括以下步骤:步骤1、根据网址库中的公司网址对公司网页进行数据采集,获取相应的网页文本信息;步骤2、进行数据清洗,保留信息完整的公司信息,即通过自然语言处理,从步骤1获取的网页文本信息中抽取公司数据,该公司数据包括公司名、公司主题关键词、公司联系电话和公司地址;当公司数据中缺少公司名、公司主题关键词、公司联系电话或公司地址中的任意一个数据时,丢弃该公司数据;步骤3、根据步骤2所获得的公司数据,并结合相应公司的地理位置信息,构建出全球企业知识图谱;首先,根据步骤2所获得的公司数据,按照国家、城市两个层级对公司进行归类,归类完成后,统计每个城市的公司的关键词,从而得到每个城市的关键词词典;根据每个城市的每个关键词,统计每个关键词对应的公司数量,并按照关键词所包含的公司数对关键词进行排序,获得全球企业知识;然后,利用图数据库存储上述全球企业知识,得到全球企业知识图谱;具体存储过程为:以大洲、国家、城市、关键词、公司名为实体,并以大洲、国家、城市、关键词、公司名之间的关系为图数据库的边,建立连接进行存储,其中,图数据库的边的定义分为:国家,partof,大洲;城市,partof,国家;城市,hasindustry,关键词;关键词,includecompany,公司名。步骤4、根据相应的图数据库的查询语言,通过特定国家城市的关键词进行查询,获取对应城市的产业分布情况,并进行可视化展示。所述展示方法还包括一数据更新机制,其具体如下:全球企业知识图谱构建完成后,以时间T为周期,重复对网址库中的公司网址进行数据采集,获取相应的网页文本信息,然后重复步骤2和步骤3,构建新的全球企业知识图谱,并将该新的全球企业知识图谱进行单独存储。所述步骤1中,网页文本信息的获取具体如下:首先,通过人工整理,获取第一批公司网址,并将其存入网址库中,然后由网址库中的网址出发,通过爬虫技术爬取相应的公司网页,获取公司网页中的网页文本信息,以及包含在公司网页中的链接网址;当网址库中没有该链接网址时,将该链接网址存入网址库中,以更新网址库,然后采用爬虫技术爬取与该链接网址对应的公司网页,获取相应的网页文本信息;若该链接网址对应的公司网页中还包含链接网址,则继续爬取,循环往复获取网页文本信息。采用上述方案后,本专利技术通过对公司网页进行数据采集,挖掘网页中的公司数据,从而构建全球企业知识图谱,根据该全球企业知识图谱可获取特定国家城市产业的公司分布情况,并对该城市产业的公司分布情况进行可视化展示。此外,本专利技术引入数据更新机制,对网址库中的公司网址对应的公司网页进行定期的数据采集,重复抓取网页文本信息,获取网页文本信息中的公司数据,构建新的全球企业知识图谱。因为不同周期的全球企业知识图谱为分开存储,这样在进行特定国家城市产业分布情况查询时,可以获取对应城市动态变化的产业分布情况,从而看出该城市的产业链变化趋势。附图说明图1为本专利技术实施例的流程图。具体实施方式如图1所示,本专利技术揭示了一种全球产业链的展示方法,其包括以下步骤:步骤1、根据网址库中的公司网址对公司网页进行数据采集,获取相应的网页文本信息,为全球企业知识图谱的构建提供语料库。首先,通过人工整理,获取第一批公司网址,并将其存入网址库中;然后由网址库中的网址出发,通过爬虫技术爬取相应的公司网页,获取公司网页中的网页文本信息,以及包含在公司网页中的链接网址。当网址库中没有该链接网址时,将该链接网址存入网址库中,以更新网址库,然后采用爬虫技术爬取与该链接网址对应的公司网页,获取相应的网页文本信息。若该链接网址对应的公司网页中还包含链接网址,则继续爬取,循环往复,得到亿级别的公司网站。步骤2、进行数据清洗,保留信息完整的公司信息,即通过自然语言处理,从步骤1获取的网页文本信息中抽取公司数据,该公司数据包括公司名、公司主题关键词、公司联系电话和公司地址;当公司数据中缺少公司名、公司主题关键词、公司联系电话或公司地址中的任意一个数据时,丢弃该公司数据。其中,公司名是通过开源自然语言处理工具提供的命名实体识别功能从网页文本信息中抽取得到,如斯坦福大学提供的coreNLP可从网页文本信息中提取出公司名。公司主题关键词通过TF-IDF算法从网页文本信息中提取得到,该公司主题关键词代表了公司的产品服务。公司联系电话通过正则表达式进行提取。公司地址则通过网页标签解析得到,如从<addr>厦门市思明区前埔路国金广场602</addr>的网页文本信息,提取出公司所在地址。步骤3、根据步骤2所获得的公司数据,并结合相应公司的地理位置信息,构建出全球企业知识图谱。首先,根据步骤2所获得的公司数据,按照国家、城市两个层级对公司进行归类。归类完成后,统计每个城市的公司的关键词,从而得到每个城市的关键词词典。最后根据每个城市的每个关键词,统计每个关键词对应的公司数量,由此完成“国家-城市-关键词-公司”四个层级的内容,按照关键词所包含的公司数进行排序,获得全球企业知识。例如,中国厦门市,软件(800家公司),金融服务(700家公司)汽车制造(600家公司)等,由此可以看出某地区的产业分布状况。然后,利用图数据库存储上述全球企业知识,得到全球企业知识图谱。具体存储过程为:以大洲、国家、城市、关键词、公司名为实体,以大洲、国家、城市、关键词、公司名之间的关系为边,建立连接进行存储,其中图数据库的边的定义分为:国家,partof,大洲;城市,partof,国家;城市,hasindustry,关键词;关键词,includecompany,公司名。全球企业知识图谱构建完成后,定期对数据进行更新,即以时间T为周期,重复对网址库中的公司网址进行数据采集,获取相应的网页文本信息,然后重复步骤2和步骤3,构建新的全球企业知识图谱,并将该新的全球企业知识图谱进行单独存储,也就是说每个周期得到的全球企业知识图谱是分开存储的。该实施例中时间T为30天。步骤4、根据相应的图数据库的查询语言如SPARSQL,通过特定国家城市的关键词进行查询,可以获取对应城市的不同周期内产业分布情况,并进行可视化展示。在进行显示时,不同的关键词可以用不同的颜色展示,从而看出该城市的产业链变化趋势。本专利技术的关键在于,本专利技术通过对公司网页进行数据采集,挖掘网页中的公司数据,从而构建全球企业知识图谱,根据该全球企业知识图谱可获取特定国家城市产业的公司分布情况,并对该城市产业的公司分布情况进行可视化展示。此外,本专利技术引入数据更新机制,对网址库中的公司网址对应的公司网页进行定期的数据采集,重复抓取网页文本信息,获取网页文本信息中的公司数据,构建新的全球企业知识图谱。因为本文档来自技高网...

【技术保护点】
1.一种全球产业链的展示方法,其特征在于:所述展示方法包括以下步骤:步骤1、根据网址库中的公司网址对公司网页进行数据采集,获取相应的网页文本信息; 步骤2、进行数据清洗,保留信息完整的公司信息,即通过自然语言处理,从步骤1获取的网页文本信息中抽取公司数据,该公司数据包括公司名、公司主题关键词、公司联系电话和公司地址;当公司数据中缺少公司名、公司主题关键词、公司联系电话或公司地址中的任意一个数据时,丢弃该公司数据;步骤3、根据步骤2所获得的公司数据,并结合相应公司的地理位置信息,构建出全球企业知识图谱;首先,根据步骤2所获得的公司数据,按照国家、城市两个层级对公司进行归类,归类完成后,统计每个城市的公司的关键词,从而得到每个城市的关键词词典;根据每个城市的每个关键词,统计每个关键词对应的公司数量,并按照关键词所包含的公司数对关键词进行排序,获得全球企业知识;然后,利用图数据库存储上述全球企业知识,得到全球企业知识图谱;具体存储过程为:以大洲、国家、城市、关键词、公司名为实体,并以大洲、国家、城市、关键词、公司名之间的关系为图数据库的边,建立连接进行存储,其中,图数据库的边的定义分为:国家,part of,大洲;城市,part of,国家;城市,has industry,关键词;关键词,include company,公司名;步骤4、根据相应的图数据库的查询语言,通过特定国家城市的关键词进行查询,获取对应城市的产业分布情况,并进行可视化展示。...

【技术特征摘要】
1.一种全球产业链的展示方法,其特征在于:所述展示方法包括以下步骤:步骤1、根据网址库中的公司网址对公司网页进行数据采集,获取相应的网页文本信息;步骤2、进行数据清洗,保留信息完整的公司信息,即通过自然语言处理,从步骤1获取的网页文本信息中抽取公司数据,该公司数据包括公司名、公司主题关键词、公司联系电话和公司地址;当公司数据中缺少公司名、公司主题关键词、公司联系电话或公司地址中的任意一个数据时,丢弃该公司数据;步骤3、根据步骤2所获得的公司数据,并结合相应公司的地理位置信息,构建出全球企业知识图谱;首先,根据步骤2所获得的公司数据,按照国家、城市两个层级对公司进行归类,归类完成后,统计每个城市的公司的关键词,从而得到每个城市的关键词词典;根据每个城市的每个关键词,统计每个关键词对应的公司数量,并按照关键词所包含的公司数对关键词进行排序,获得全球企业知识;然后,利用图数据库存储上述全球企业知识,得到全球企业知识图谱;具体存储过程为:以大洲、国家、城市、关键词、公司名为实体,并以大洲、国家、城市、关键词、公司名之间的关系为图数据库的边,建立连接进行存储,其中,图数据库的边的定义分为:国家,partof,大洲;城市,p...

【专利技术属性】
技术研发人员:陈志杰孙锦彬王凯锋
申请(专利权)人:厦门笨鸟电子商务有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1