一种互联网信息人工智能采集方法及其系统技术方案

技术编号：21034574 阅读：36 留言：0更新日期：2019-05-04 05:31

本发明专利技术公开了一种互联网信息人工智能采集方法，包括以下步骤：建立网页采集模型、获取网络信息、数据分析、数据处理、结果输出以及网页采集模型再学习；采集方法通过网页采集模型对互联网数据进行检索分析，然后结合人机交互显示，通过深层神经网络的特征模式学习，利用深层神经网络对解析后的数据与特征数据做比对，更新检索和分析方式，每进行一次学习，网页采集模型都会提高数据的检索精准度，经过一定时间的学习能够达到人眼与人脑的配合水平；还提供了一种基于网页采集模型的互联网信息人工智能采集系统，包括网页采集模型模块、数据分析处理模块、数据存储模块、人机交互模块。

An Artificial Intelligence Collection Method and System for Internet Information

全部详细技术资料下载

【技术实现步骤摘要】
一种互联网信息人工智能采集方法及其系统
本专利技术涉及网络信息采集
，特别涉及一种通过网页采集模型来实现的互联网信息采集的方法以及系统。
技术介绍
随着互联网的高速发展以及大数据平台的出现，网络信息的庞大数量难以形容，而从网络数据中搜索和查询想要的数据更是麻烦，现有的搜索模式一般都是通过搜索搜索引擎或者专业的数据库中检索，但由于数据的更新速度快，每次都需要重新检索，重新排查，不仅浪费时间，而且效率低下。另外，对于一些数据采集系统，一般都是通过不断的检索不断的数据分析和去噪才能得出所需要的数据，每次重新检索都需要将之前的工作重复，非常的浪费资源。
技术实现思路
为了解决现有的互联网数据采集繁琐，浪费资源的问题，本专利技术提供一种能够快速高效的人工智能采集方法和系统。为了实现上述目的，本专利技术提供的技术方案是：一种互联网信息人工智能采集方法，包括以下步骤：建立网页采集模型，建立基于爬虫或者搜索引擎检索获取网络数据的模型；获取网络信息，利用网页采集模型对大数据平台的文章、新闻、帖子进行数据采集；数据处理，对采集的数据进行数据处理，包括图片处理，文字翻译，去噪，去重；...

【技术保护点】
1.一种基于互联网信息人工智能采集方法，其特征在于，包括以下步骤：建立网页采集模型，建立基于爬虫或者搜索引擎检索获取网络数据的模型；获取网络信息，利用网页采集模型对大数据平台的文章、新闻、帖子进行数据采集；数据处理，对采集的数据进行数据处理，包括图片处理，文字翻译，去噪，去重；数据分析，将处理后的数据按结构分割成数据单元，将数据单元进行自由组合形成数据单元组，再将数据单元组进行语义匹配，输出匹配度指数，提取匹配度指数最高的数据单元组；网页采集模型再学习，将数据分析后的结果存储并循环交替给深度神经网络，作为网页采集模型的学习样本，并且阶段性的进行阶段审阅迭代修改模型；结果输出，将数据分析后的结果...

【技术特征摘要】
1.一种基于互联网信息人工智能采集方法，其特征在于，包括以下步骤：建立网页采集模型，建立基于爬虫或者搜索引擎检索获取网络数据的模型；获取网络信息，利用网页采集模型对大数据平台的文章、新闻、帖子进行数据采集；数据处理，对采集的数据进行数据处理，包括图片处理，文字翻译，去噪，去重；数据分析，将处理后的数据按结构分割成数据单元，将数据单元进行自由组合形成数据单元组，再将数据单元组进行语义匹配，输出匹配度指数，提取匹配度指数最高的数据单元组；网页采集模型再学习，将数据分析后的结果存储并循环交替给深度神经网络，作为网页采集模型的学习样本，并且阶段性的进行阶段审阅迭代修改模型；结果输出，将数据分析后的结果分模块展现在人机交互界面中。2.根据权利要求1所述的互联网信息人工智能采集方法，其特征在于：所述深度神经网络通过获取多组内容混排特征数据，将所述特征数据输入到深度神经网络模型中进行训练，每组数据通过网络输出预测结果并以训练数据更新深度神经网络模型参数，使用更新后的深度神经网络进行下一组训练，直到深度神经网络模型参数收敛。3.根据权利要求2所述的互联网信息人工智能采集方法，其...

【专利技术属性】
技术研发人员：李凤生，郏建，邱梦凌，徐超，曾光，陈鹤，
申请(专利权)人：淮河水利委员会水文局信息中心，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人