一种互联网信息人工智能采集方法及其系统技术方案

技术编号:21034574 阅读:23 留言:0更新日期:2019-05-04 05:31
本发明专利技术公开了一种互联网信息人工智能采集方法,包括以下步骤:建立网页采集模型、获取网络信息、数据分析、数据处理、结果输出以及网页采集模型再学习;采集方法通过网页采集模型对互联网数据进行检索分析,然后结合人机交互显示,通过深层神经网络的特征模式学习,利用深层神经网络对解析后的数据与特征数据做比对,更新检索和分析方式,每进行一次学习,网页采集模型都会提高数据的检索精准度,经过一定时间的学习能够达到人眼与人脑的配合水平;还提供了一种基于网页采集模型的互联网信息人工智能采集系统,包括网页采集模型模块、数据分析处理模块、数据存储模块、人机交互模块。

An Artificial Intelligence Collection Method and System for Internet Information

【技术实现步骤摘要】
一种互联网信息人工智能采集方法及其系统
本专利技术涉及网络信息采集
,特别涉及一种通过网页采集模型来实现的互联网信息采集的方法以及系统。
技术介绍
随着互联网的高速发展以及大数据平台的出现,网络信息的庞大数量难以形容,而从网络数据中搜索和查询想要的数据更是麻烦,现有的搜索模式一般都是通过搜索搜索引擎或者专业的数据库中检索,但由于数据的更新速度快,每次都需要重新检索,重新排查,不仅浪费时间,而且效率低下。另外,对于一些数据采集系统,一般都是通过不断的检索不断的数据分析和去噪才能得出所需要的数据,每次重新检索都需要将之前的工作重复,非常的浪费资源。
技术实现思路
为了解决现有的互联网数据采集繁琐,浪费资源的问题,本专利技术提供一种能够快速高效的人工智能采集方法和系统。为了实现上述目的,本专利技术提供的技术方案是:一种互联网信息人工智能采集方法,包括以下步骤:建立网页采集模型,建立基于爬虫或者搜索引擎检索获取网络数据的模型;获取网络信息,利用网页采集模型对大数据平台的文章、新闻、帖子进行数据采集;数据处理,对采集的数据进行数据处理,包括图片处理,文字翻译,去噪,去重;数据分析,将处理后的数据按结构分割成数据单元,将数据单元进行自由组合形成数据单元组,再将数据单元组进行语义匹配,输出匹配度指数,提取匹配度指数最高的数据单元组;网页采集模型再学习,将数据分析后的结果存储并循环交替给深度神经网络,作为网页采集模型的学习样本,并且阶段性的进行阶段审阅迭代修改模型;结果输出,将数据分析后的结果分模块展现在人机交互界面中。在上述技术方案中,所述深度神经网络通过获取多组内容混排特征数据,将所述特征数据输入到深度神经网络模型中进行训练,每组数据通过网络输出预测结果并以训练数据更新深度神经网络模型参数,使用更新后的深度神经网络进行下一组训练,直到深度神经网络模型参数收敛。在上述技术方案中,进一步的,所述特征数据包括网站类型、URL、文章标题、文章来源、文章发表时间、文章转载量、文章点击数、文章评论数、文章摘要、文章作者。作为优选的一种技术方案,所述图片处理通过OCR图片识别模块进行图片处理。另外,本专利技术提供一种互联网信息人工智能采集系统,包括:网页采集模块,用于采集互联网或大数据平台的数据,提取所需文章、新闻、帖子或者微博数据,并通过深度神经网络进行再学习;数据处理分析模块,用于分析网页采集模型采集的数据,包括图片处理,文字翻译,关键字提取,去噪,去重,匹配度指数与相似度分析;数据存储模块,用于存储网页采集模型采集的数据以及数据分析模块的数据;人机交互模块,用于将分析处理后的数据分模块展现在人机交互界面中,同时可通过人机交互界面修改所需采集的内容。在该系统中,优选的,所述图片处理通过OCR图片识别模块进行图片处理。进一步的,在该系统中,所述人机交互模块分为信息模块、报告模块、过滤模块、任务模块、统计模块。本专利技术相对于现有技术的有益效果是:该采集方法基于网页采集模型对互联网数据进行检索分析,然后结合人机交互显示,通过深层神经网络的特征模式学习,利用深层神经网络对解析后的数据与特征数据做比对,更新检索和分析方式,每进行一次学习,网页采集模型都会提高数据的检索精准度,经过一定时间的学习能够达到人眼与人脑的配合水平;同样的,该采集系统通过网页采集模型的学习,能够达到无需人工干预的效果。附图说明图1是本专利技术的方法流程图;图2是本专利技术的方法的详细流程图;图3是本专利技术的系统结构图;图4是本专利技术的系统详细结构图;图5是本系统的整体框架图。具体实施方式下面结合附图对本专利技术的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本专利技术,但并不构成对本专利技术的限定。此外,下面所描述的本专利技术各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。如图1和图2所示,一种互联网信息人工智能采集方法,包括以下步骤:S10:建立网页采集模型;建立通过爬虫或者搜索引擎检索获取网络数据的模型,该模块用于采集互联网或大数据平台的数据,提取所需文章、新闻、帖子或者微博数据,并通过深度神经网络进行再学习;S20:获取网络数据;通过网页采集模型对大数据平台的文章、新闻、帖子进行数据采集,具体包括采集网站类型、URL、文章标题、文章来源、文章发表时间、文章转载量、文章点击数、文章评论数、文章摘要、文章作者,等等数据,并将数据进行缓存,如图2所示,任务处理引擎按计划任务将待执行的采集任务获取后,任务处理引擎将任务下达至采集下载引擎下载采集网络信息,然后忘了页面解析引擎处理解析网络数据,即接下来的步骤S30。S30:数据处理;对采集的数据进行数据处理,结果处理引擎将采集的数据包括图片处理,通过OCR图片识别模块对图片进行处理,提取图片中的文字或者图案;文字翻译,通过翻译模块对网站中的非中文文字翻译成中文,然后将文字关键字提取出来与用户设置的关键字进行对比;再进行去噪,将相关度低的信息删除,再将内容相同或者近似度高的文章、新闻等删除即去重。S40:数据分析,将处理后的数据按结构分割成数据单元,数据单元包括文字的标题以及文章的内容,每个标题或者内容都是一个数据单元,然后将这些数据单元进行自由组合形成数据单元组,再将数据单元组进行语义匹配,利用分词技术将数据单元组中的两个或者多个数据单元进行匹配,计算出词频、情感、正负面等相关技术指标,然后将上述指标进行加权平均最终得出匹配度指数,提取匹配度指数最高的数据单元组;S50:结果输出,将分析处理后的数据,即匹配度指数最高的数据单元组中的数据(文章的标题、文章的内容)分模块展现在人机交互界面中,例如文章模块、新闻模块、微博模块、帖子模块用这些模块将检索信息分别放置在对应的模块中,方便用户查阅;S60:网页采集模型再学习,网页采集引擎特征优化、样本在学习,将数据分析后的结果以及人机交互中修改的采集数据存储并循环交替给深度神经网络,作为网页采集模型的学习样本,并且阶段性的进行阶段审阅迭代修改模型。深度神经网络通过获取多组内容混排特征数据,特征数据包括网站类型、URL、文章标题、文章来源、文章发表时间、文章转载量、文章点击数、文章评论数、文章摘要、文章作者,然后将所述特征数据输入到深度神经网络模型中进行训练,每组数据通过网络输出预测结果并以训练数据更新深度神经网络模型参数,使用更新后的深度神经网络进行下一组训练,直到深度神经网络模型参数收敛,网页采集模型再学习完成。通过深层神经网络的特征模式学习,利用深层神经网络对解析后的数据与特征数据做比对,更新检索和分析方式,每进行一次学习,网页采集模型都会对数据的检索更加的精准,经过一定时间的学习能够达到人眼与人脑的配合水平。另外,如图3和图4所示,本专利技术提供还一种互联网信息人工智能采集系统,包括:网页采集模块,该模块通过爬虫或者搜索引擎检索获取网络数据的模型,该模块用于采集互联网或大数据平台的数据,提取所需文章、新闻、帖子或者微博数据,并通过深度神经网络进行再学习。具体的再学习是网页采集模块将数据分析模块分析后的结果以及人机交互中修改的采集数据存储并循环交替给深度神经网络,作为网页采集模型的学习样本,并且阶段性的进行阶段审阅迭代修改模型。深度神经网络通过获取多组内本文档来自技高网...

【技术保护点】
1.一种基于互联网信息人工智能采集方法,其特征在于,包括以下步骤:建立网页采集模型,建立基于爬虫或者搜索引擎检索获取网络数据的模型;获取网络信息,利用网页采集模型对大数据平台的文章、新闻、帖子进行数据采集;数据处理,对采集的数据进行数据处理,包括图片处理,文字翻译,去噪,去重;数据分析,将处理后的数据按结构分割成数据单元,将数据单元进行自由组合形成数据单元组,再将数据单元组进行语义匹配,输出匹配度指数,提取匹配度指数最高的数据单元组;网页采集模型再学习,将数据分析后的结果存储并循环交替给深度神经网络,作为网页采集模型的学习样本,并且阶段性的进行阶段审阅迭代修改模型;结果输出,将数据分析后的结果分模块展现在人机交互界面中。

【技术特征摘要】
1.一种基于互联网信息人工智能采集方法,其特征在于,包括以下步骤:建立网页采集模型,建立基于爬虫或者搜索引擎检索获取网络数据的模型;获取网络信息,利用网页采集模型对大数据平台的文章、新闻、帖子进行数据采集;数据处理,对采集的数据进行数据处理,包括图片处理,文字翻译,去噪,去重;数据分析,将处理后的数据按结构分割成数据单元,将数据单元进行自由组合形成数据单元组,再将数据单元组进行语义匹配,输出匹配度指数,提取匹配度指数最高的数据单元组;网页采集模型再学习,将数据分析后的结果存储并循环交替给深度神经网络,作为网页采集模型的学习样本,并且阶段性的进行阶段审阅迭代修改模型;结果输出,将数据分析后的结果分模块展现在人机交互界面中。2.根据权利要求1所述的互联网信息人工智能采集方法,其特征在于:所述深度神经网络通过获取多组内容混排特征数据,将所述特征数据输入到深度神经网络模型中进行训练,每组数据通过网络输出预测结果并以训练数据更新深度神经网络模型参数,使用更新后的深度神经网络进行下一组训练,直到深度神经网络模型参数收敛。3.根据权利要求2所述的互联网信息人工智能采集方法,其...

【专利技术属性】
技术研发人员:李凤生郏建邱梦凌徐超曾光陈鹤
申请(专利权)人:淮河水利委员会水文局信息中心
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1