一种基于爬虫技术的核电厂化学品知识库构建方法技术

技术编号:36604788 阅读:13 留言:0更新日期:2023-02-04 18:25
本发明专利技术提供了一种基于爬虫技术的核电厂化学品知识库构建方法,包括以下步骤:步骤1:通过爬虫程序爬取指定网站上的化学品MSDS文件;步骤2:对爬取下来的化学品MSDS文件进行解析,将数据结构化保存至关系型数据库中;步骤3:将数据展示在核电厂业务系统中以利于核电员工查询学习。本发明专利技术提供的核电厂化学品知识库构建方法建立完善化学品知识库,配合智能搜索引擎,可保证数据实时性,并可便捷高效对化学品信息进行查询学习,能够便捷的、系统的、全面的提供员工学习核电领域使用的化学品知识。面的提供员工学习核电领域使用的化学品知识。面的提供员工学习核电领域使用的化学品知识。

【技术实现步骤摘要】
一种基于爬虫技术的核电厂化学品知识库构建方法


[0001]本专利技术涉及核电厂化学品知识库构建
,尤其涉及一种基于爬虫技术的核电厂化学品知识库构建方法。

技术介绍

[0002]在核电厂的生产运行和检修活动中,用到了大量的化学品,其中包括多种危险化学品,化学品若使用、保管不当,不仅会对核电系统、设备造成危害,还会影响社会环境与人体健康,因此核电员工需要对化学品的特性十分了解,而目前核电领域并没有形成一套完整的化学品知识库,供核电员工查询学习。当员工需了解一个化学品时需去网上搜索下载该化学品的MSDS,由于下载版本多样,或者MSDS文件内容又极为冗长,核电领域关注重点不够突出,查找下载文件过程费时费力,效率低下,员工进行查询学习极为不便而且不能系统地学习了解。员工对化学品特性不了解,容易造成乱用、用错、防护不当,当遭遇危险化学品突发事件时,若员工对危险化学品应急预案不熟悉,不知如何处理,也不能快速处理,易造成人因事故,对核电系统、设备或者社会环境及人体健康造成危害。

技术实现思路

[0003]本专利技术的目的在于克服现有技术中所述的缺陷,从而提供一种基于爬虫技术的核电厂化学品知识库构建方法,解决员工查找下载文件过程费时费力、无法及时获得化学品应急预案的问题。
[0004]为了实现上述目的,本专利技术提供如下技术方案:
[0005]一种基于爬虫技术的核电厂化学品知识库构建方法,包括以下步骤:
[0006]步骤1:通过爬虫程序爬取指定网站上的化学品MSDS文件;
[0007]步骤2:对爬取下来的化学品MSDS文件进行解析,将数据结构化保存至关系型数据库中;
[0008]步骤3:将数据展示在核电厂业务系统中以利于核电员工查询学习。
[0009]步骤1具体包括如下步骤:
[0010]步骤11:对核电领域常用化学品进行数据分析,根据分析结果配置爬虫的搜索策略;
[0011]步骤12:启动爬虫程序对指定网站爬取最新版本化学品MSDS文件。
[0012]步骤2具体包括如下步骤:
[0013]步骤21:通过文件解析将数据结构化,建立数据实体映射关系;
[0014]步骤22:将结构化数据保存至关系型数据库中并记录数据版本。
[0015]其中,化学品MSDS文件格式为PDF格式。
[0016]步骤3具体包括如下步骤:
[0017]步骤31:选取核电领域所关注的化学品字段信息展示在核电厂业务系统上,通过智能化搜索引擎,便于核电员工查询学习;
[0018]步骤32:利用移动端APP,通过扫化学品二次标签上二维码随时查看化学品应急预案。
[0019]化学品字段信息包括化学品成分信息、健康危害信息、使用时预防措施、特性、应急响应信息。
[0020]基于爬虫技术的核电厂化学品知识库构建方法还包括步骤4:配置定时任务定期去指定网站爬取最新版本的化学品MSDS,解析保存至关系型数据库中,以保证化学品MSDS及时升版。
[0021]与现有技术相比,本专利技术提供的基于爬虫技术的核电厂化学品知识库构建方法具有以下有益效果:
[0022]本专利技术提供的核电厂化学品知识库构建方法建立完善化学品知识库,配合智能搜索引擎,可保证数据实时性,并可便捷高效对化学品信息进行查询学习,能够便捷的、系统的、全面的提供员工学习核电领域使用的化学品知识。
[0023]进一步地,本专利技术建立完善化学品知识库,配合移动端APP,通过扫描化学品二次标签上二维码,可随时获取对应化学品应急预案,保证员工能在最短事件内处理事件,避免人因事故发生。
附图说明
[0024]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0025]图1为本专利技术实施例所提供的基于爬虫技术的核电厂化学品知识库构建方法的运行流程图。
具体实施方式
[0026]下面通过具体实施方式进一步详细说明。
[0027]如图1所示,本专利技术提供了一种基于爬虫技术的核电厂化学品知识库构建方法,包括以下步骤:
[0028]步骤1:通过爬虫程序爬取指定网站上的化学品MSDS文件。
[0029]步骤2:对爬取下来的化学品MSDS文件进行解析,将数据结构化保存至关系型数据库中。
[0030]步骤3:将数据展示在核电厂业务系统中,或结合移动端扫码,供核电员工查询学习;也就是说,给每个电厂化学品都赋予了二维码,二维码与知识库连接,通过手机APP扫码可以获取化学品在知识库里的信息。
[0031]步骤4:配置定时任务,定期去指定网站爬取最新版本的化学品MSDS,解析保存至关系型数据库中,保证化学品MSDS及时升版。定时任务例如每天凌晨1点启动爬虫程序去指定网站爬取最新的MSDS。
[0032]步骤1具体包括以下步骤:
[0033]步骤11:对核电领域常用化学品进行数据分析,根据分析结果配置爬虫的搜索策
略;每种化学品都有一个CAS号,根据CAS号去搜索化学品的MSDS,搜索来的MSDS有多个版本,需要自动筛选出最新版本的MSDS。
[0034]步骤12:启动爬虫程序对指定网站爬取最新版本化学品MSDS文件。
[0035]步骤2具体包括以下步骤:
[0036]步骤21:爬取下来的化学品MSDS文件格式大多为PDF格式,通过文件解析将数据结构化,建立好数据实体映射关系。
[0037]步骤22:将结构化数据保存至关系型数据库中并记录数据版本。
[0038]步骤3具体包括以下步骤:
[0039]步骤31:选取核电领域所关注的化学品字段信息,如成分、健康危害信息、使用时预防措施、特性、应急响应等展示在核电厂业务系统上,建立智能化搜索引擎,便于核电员工查询学习使用;提供一种便捷的、多维度的搜索,可以根据化学品CAS号、名称、特性、防护措施等搜索化学品信息。
[0040]步骤32:利用移动端APP,通过扫化学品二次标签上二维码,员工可随时查看化学品应急预案。
[0041]可见,现有技术是核电厂员工通过去网上搜索下载化学品MSDS文件去学习了解化学品信息,MSDS文件内容冗长,不能突出核电领域关注重点,且版本多样,查找下载文件过程费时费力,效率低下,员工进行查询学习极为不便。而本专利技术建立完善化学品知识库,配合智能搜索引擎,可保证数据实时性,并可便捷高效对化学品信息进行查询学习。
[0042]此外,现有技术中核电厂员工需处置危险化学品突发事件时,若员工对危险化学品应急预案不熟悉,不能快速处理,易造成人因事故,对核电系统、设备或者社会环境及人体健康造成危害。本专利技术建立完善化学品知识库,配合移动端APP,通过扫描化学品二次标签上二维码,可随时获取对应化学品应急预案本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于爬虫技术的核电厂化学品知识库构建方法,其特征在于,包括以下步骤:步骤1:通过爬虫程序爬取指定网站上的化学品MSDS文件;步骤2:对爬取下来的化学品MSDS文件进行解析,将数据结构化保存至关系型数据库中;步骤3:将数据展示在核电厂业务系统中以利于核电员工查询学习。2.根据权利要求1所述的基于爬虫技术的核电厂化学品知识库构建方法,其特征在于,步骤1具体包括如下步骤:步骤11:对核电领域常用化学品进行数据分析,根据分析结果配置爬虫的搜索策略;步骤12:启动爬虫程序对指定网站爬取最新版本化学品MSDS文件。3.根据权利要求1所述的基于爬虫技术的核电厂化学品知识库构建方法,其特征在于,步骤2具体包括如下步骤:步骤21:通过文件解析将数据结构化,建立数据实体映射关系;步骤22:将结构化数据保存至关系型数据库中并记录数据版本。4.根据权利要求3所述的基...

【专利技术属性】
技术研发人员:郭天宇刘国仿白喆姚祥英黄萍
申请(专利权)人:核动力运行研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1