【技术实现步骤摘要】
基于BP神经网络数据挖掘的自动化数字采集与整合方法
[0001]本专利技术属于计算机
,特别是涉及一种基于BP神经网络数据挖掘的自动化数字采集与整合方法。
技术介绍
[0002]今时今日,随着互联网信息的爆炸式增长,网络上每时每刻都在产生大量的数据,而数据在计算机
具有至关重要的意义,是指所有能输入计算机并被计算机程序处理的符号的介质的总称,是计算机存储和处理的对象,是为用户提供服务的基础。如何在浩如烟海的数据中选择、存储并利用我们需要的信息,已经成为现代计算机数据工程非常重要的一部分。数据采集系统根据用户提供的任务主题,为用户推荐可靠的数据源,并将数据从互联网采集整理并存储于本地,为进一步利用创造条件。
[0003]因为数据源的多样性,需要的信息所处的源网址可能拥有不同的反爬虫规则和差异巨大的网页结构,如果按照传统的数据采集方式,想要得到结构化程度较高的数据,可能需要重新选择合适的爬虫,并且由具有一定网页相关知识的专业人士进行结构分析并重构代码,使得程序的可适应性变得很差,导致数据采集效率低。
【技术保护点】
【技术特征摘要】
1.基于BP神经网络数据挖掘的自动化数字采集与整合方法,其特征在于,包括以下步骤:步骤S100:获取采集任务要求信息,根据所述采集任务要求信息采用基于内容推荐算法从预设URL库中匹配满足预设要求的数据源;步骤S200:根据所述数据源的属性选择信息采集方式并进行网页内容信息提取;步骤S300:对提取到的网页内容信息进行链接抓取和采集任务子类划分,生成子类采集请求任务;步骤S400:将所述子类采集请求任务中的采集请求任务进行队列分配并进行流水线管理,遵循广度优先遍历循环完成网页抓取任务直到满足预设爬虫结束任务条件,得到抓取到的网络数据;步骤S600:对所述抓取到的网络数据进行抽取分析得到更新后的网络数据,根据所述采集任务要求信息和所述更新后的网络数据基于预设的BP神经网络进行网络数据挖掘,对挖掘后的数据进行整合并存储。2.根据权利要求1所述的方法,其特征在于,步骤S100包括:步骤S110:根据所述采集任务要求信息采用基于内容推荐算法从预设URL库对应的网页中采集信息数据;步骤S120:对采集到的信息数据进行预处理,抽取得到有效信息;步骤S130:从所述有效信息中抽取预设的关键词作为标签,对所述标签按照预设的采集步骤采集候选标签,按照预设的抽取原则对所述候选标签进行标签抽取,得到标签集;步骤S140:根据内容的协同过滤算法,循环计算所述采集任务要求信息与所述标签集的内容相关性;步骤S150:根据所述内容相关性和预设的内容相关性阈值匹配满足要求的数据源。3.根据权利要求2所述的方法,其特征在于,步骤S150包括:当所述内容相关性小于预设的内容相关性阈值时,采用广度优先遍历方式访问子链接,扩展预设URL库,并循环步骤S110至步骤S140,直到存在内容相关性大于预设的内容相关性阈值的页面;当所述内容相关性大于预设的内容相关性阈值时,选择所述内容相关性最大的网页的URL作为满足要求的数据源。4.根据权利要求1所述的方法,其特征在于,步骤S200中的信息采集方式,包括:步骤S210:利用python的requests库编写爬虫程序;或步骤S220:利用python的selenium库控制浏览器,编写爬虫程序;或步骤S230:利用SVM向量机构建验证码识别模型实现验证码识别,输入验证码,并编写爬虫程序。5.根据权利要求4所述的方法,其特征在于,步骤S200包括:步骤S240:在所述数据源中选择URL,根据所述URL的属性从所编写的爬虫程序中选择一爬虫程序;步骤S250:根据所述URL建立HTTP链接,若链接建立成功则执行步骤S260,若链接建立不成功,则标记所述URL;步骤S260:根据所述爬虫抓取所述H...
【专利技术属性】
技术研发人员:蒋成信,彭曦,张宇航,张熙,李厚锦,陈年强,梁闽,戴国柱,郭峻杰,谢嘉,彭莉莉,孙坚,
申请(专利权)人:长沙军民先进技术研究有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。