鱼类信息的获取方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:26376611 阅读:44 留言:0更新日期:2020-11-19 23:45
本发明专利技术实施例公开了一种鱼类信息的获取方法、装置、电子设备及可读存储介质,本发明专利技术实施例中,获取多个国家的鱼类物种名录文件,得到鱼类物种名录数据库;根据鱼类物种名录数据库中的物种名信息编写目标网站的URL;根据URL在目标网站中爬取对应的网页信息,得到物种信息数据库;解析物种信息数据库中网页信息,得到物种信息数据库内容;基于物种信息数据库内容,根据物种信息数据库内容中的流域信息,确定特定流域物种名录;基于特定流域物种名录中的物种名,批量提取与物种名的相对应的鱼类信息。该方法可以根据鱼类信息的获取装置批量提取鱼类信息,将有关人员从大量机械重复的操作中解放出来,大大提高了工作效率。

【技术实现步骤摘要】
鱼类信息的获取方法、装置、电子设备及可读存储介质
本专利技术涉及生物信息
,具体涉及一种鱼类信息的获取方法、装置、电子设备及可读存储介质。
技术介绍
世界鱼类数据库(FishBase)是一个提供鱼类所有种类和亚种的相关信息的全球数据库。该数据库中不仅有全球鱼类物种,还囊括了鱼类形态信息,生态数据以及分布数据等等。FishBase在信息获得和提取上仍有一些不足,譬如,FishBase只支持按国家划分以此获得国家鱼类物种名录,并不支持针对于特定流域的鱼类物种名录的获取。鱼类目录数据库(Catalogoffishes,Cas)也是一个提供全球鱼类相关信息的全球数据库。相对于FishBase,其分类信息较为完善,但是囊括的数据量远远不如FishBase,仅仅包含了物种名的历史变更信息、现存物种名以及分布数据。全球生物多样性信息网络(GlobalBiodiversityInformationFacility,GBIF)数据库中包含了文献中所上传的所有物种详细样点的坐标信息,并且GBIF数据库与美国国家生物技术信息中心(NationalCenterforBiotechnologyInformation,NCBI)数据库关联,因此能够获得更为完善的信息。由于这三个数据库各有优劣,因此,人们在使用的过程中,通常会结合这三个数据库依次获取相对完整的信息。流域鱼类物种信息的获取,是进行鱼类研究的前提条件,但现有方法对于特定流域物种名录的获取,需要得到流域所经国家全部的物种名录,然后人工依次从公开数据库进行一一核对,这种方法费时费力,工作效率很低。
技术实现思路
本专利技术实施例提供一种鱼类信息的获取方法、装置、电子设备及可读存储介质,可以提高工作效率。第一方面,本专利技术实施例提供了一种鱼类信息的获取方法,包括:获取目标流域;确定所述目标流域流经的多个国家;获取多个所述国家的鱼类物种名录文件,得到鱼类物种名录数据库;根据所述鱼类物种名录数据库中的物种名信息编写目标网站的URL,所述目标网站包括FishBase网站和Cas网站;根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库;解析所述物种信息数据库所述中网页信息,得到物种信息数据库内容,所述物种信息数据库内容包括物种的流域信息以及物种的基本信息,所述物种的基本信息包括物种形态数据、物种习性数据、物种分布数据以及物种名历史变更数据;基于所述物种信息数据库内容,根据所述物种信息数据库内容中的流域信息,确定特定流域物种名录;基于所述特定流域物种名录中的物种名,提取与所述物种名的相对应的鱼类信息,所述鱼类信息包括物种的基本信息和地理位置信息。在一些实施方式中,所述根据所述鱼类物种名录数据库中的物种名信息编写目标网站的URL,包括:根据所述鱼类物种名录数据库中的物种名信息编写所述FishBase网站的第一URL,所述第一URL与get请求相对应;根据所述鱼类物种名录数据库中的物种名信息编写所述Cas网站的第二URL,所述第二URL与post请求相对应。在一些实施方式中,所述根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库,包括:检测所述爬取是否中断;若所述爬取中断,则保存已爬取的网页信息至所述物种信息数据库,并记录最后一次爬取的物种名;若所述爬行未中断,则根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。在一些实施方式中,所述根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库,包括:检测所述爬行对应的用户ip是否被封禁;若被封禁,则从ip数据库中更换用户ip,继续根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。在一些实施方式中,所述根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库,包括:间隔预设时间间隔,根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。在一些实施方式中,解析所述物种信息数据库所述中网页信息,得到物种信息数据库内容,包括:根据Css解析库或正则表达式解析所述物种信息数据库所述中网页信息。在一些实施方式中,所述基于所述特定流域物种名录中的物种名,提取与所述物种名的相对应的鱼类信息,包括:从所述特定流域物种名录中提取物种名;向GBIF数据库批量发送所述物种名;从所述GBIF数据库获得与所述物种名对应的鱼类信息。第二方面,本专利技术实施例还提供了一种鱼类信息的获取装置,包括:第一获取单元,用于获取目标流域;第一确定单元,用于确定所述目标流域流经的多个国家;第二获取单元,用于获取多个所述国家的鱼类物种名录文件,得到鱼类物种名录数据库;编写单元,用于根据所述鱼类物种名录数据库中的物种名信息编写目标网站的URL,所述目标网站包括FishBase网站和Cas网站;爬取单元,用于根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库;解析单元,用于解析所述物种信息数据库所述中网页信息,得到物种信息数据库内容,所述物种信息数据库内容包括物种的流域信息以及物种的基本信息,所述物种的基本信息包括物种形态数据、物种习性数据、物种分布数据以及物种名历史变更数据;第二确定单元,用于基于所述物种信息数据库内容,根据所述物种信息数据库内容中的流域信息,确定特定流域物种名录;提取单元,用于基于所述特定流域物种名录中的物种名,提取与所述物种名的相对应的鱼类信息,所述鱼类信息包括物种的基本信息和地理位置信息。在一些实施方式中,所述编写单元具体用于:根据所述鱼类物种名录数据库中的物种名信息编写所述FishBase网站的第一URL,所述第一URL与get请求相对应;根据所述鱼类物种名录数据库中的物种名信息编写所述Cas网站的第二URL,所述第二URL与post请求相对应。在一些实施方式中,所述爬取单元具体用于:检测所述爬取是否中断;若所述爬取中断,则保存已爬取的网页信息至所述物种信息数据库,并记录最后一次爬取的物种名;若所述爬行未中断,则根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。在一些实施方式中,所述爬取单元还具体用于:检测所述爬行对应的用户ip是否被封禁;若被封禁,则从ip数据库中更换用户ip,继续根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。在一些实施方式中,所述爬取单元还具体用于:间隔预设时间间隔,根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。在一些实施方式中,所述解析单元具体用于:根据Css解析库或正则表达式解析所述物种信息数据库所述中网页信息。在一些实施方式中,所述提取单元具体用于:<本文档来自技高网
...

【技术保护点】
1.一种鱼类信息的获取方法,其特征在于,包括:/n获取目标流域;/n确定所述目标流域流经的多个国家;/n获取多个所述国家的鱼类物种名录文件,得到鱼类物种名录数据库;/n根据所述鱼类物种名录数据库中的物种名信息编写目标网站的URL,所述目标网站包括FishBase网站和Cas网站;/n根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库;/n解析所述物种信息数据库所述中网页信息,得到物种信息数据库内容,所述物种信息数据库内容包括物种的流域信息以及物种的基本信息,所述物种的基本信息包括物种形态数据、物种习性数据、物种分布数据以及物种名历史变更数据;/n基于所述物种信息数据库内容,根据所述物种信息数据库内容中的流域信息,确定特定流域物种名录;/n基于所述特定流域物种名录中的物种名,提取与所述物种名的相对应的鱼类信息,所述鱼类信息包括物种的基本信息和地理位置信息。/n

【技术特征摘要】
1.一种鱼类信息的获取方法,其特征在于,包括:
获取目标流域;
确定所述目标流域流经的多个国家;
获取多个所述国家的鱼类物种名录文件,得到鱼类物种名录数据库;
根据所述鱼类物种名录数据库中的物种名信息编写目标网站的URL,所述目标网站包括FishBase网站和Cas网站;
根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库;
解析所述物种信息数据库所述中网页信息,得到物种信息数据库内容,所述物种信息数据库内容包括物种的流域信息以及物种的基本信息,所述物种的基本信息包括物种形态数据、物种习性数据、物种分布数据以及物种名历史变更数据;
基于所述物种信息数据库内容,根据所述物种信息数据库内容中的流域信息,确定特定流域物种名录;
基于所述特定流域物种名录中的物种名,提取与所述物种名的相对应的鱼类信息,所述鱼类信息包括物种的基本信息和地理位置信息。


2.根据权利要求1所述的方法,其特征在于,所述根据所述鱼类物种名录数据库中的物种名信息编写目标网站的URL,包括:
根据所述鱼类物种名录数据库中的物种名信息编写所述FishBase网站的第一URL,所述第一URL与get请求相对应;
根据所述鱼类物种名录数据库中的物种名信息编写所述Cas网站的第二URL,所述第二URL与post请求相对应。


3.根据权利要求1所述的方法,其特征在于,所述根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库,包括:
检测所述爬取是否中断;
若所述爬取中断,则保存已爬取的网页信息至所述物种信息数据库,并记录最后一次爬取的物种名;
若所述爬行未中断,则根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。


4.根据权利要求1所述的方法,其特征在于,所述根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库,包括:
检测所述爬行对应的用户ip是否被封禁;
若被封禁,则从ip数据库中更换用户ip,继续根据所述URL在所述目标网站中爬取对应的网页信息,得到物种信息数据库。


5.根据权利要求1所述的方法,其特征在于,所述根据所述URL在所述目标网站中爬取对应的网页信息,...

【专利技术属性】
技术研发人员:胡嘉欣何德奎冯秀隋晓云朱仁
申请(专利权)人:中国科学院水生生物研究所
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1