基于动态配置结合文本识别的同类网络信息获取系统及方法技术方案

技术编号:21799228 阅读:30 留言:0更新日期:2019-08-07 10:31
本发明专利技术公开了一种基于动态配置结合文本识别的同类网络信息获取系统及方法,包括爬取信息初始配置模块,人为网络信息获取记录学习模块、数据采集及其需求信息标记模块、系统自主学习模块以及网络相似信息获取模块。本发明专利技术可以采用模拟人为搜索引擎获取信息的过程来记录获取信息过程,并通过前期自动获取信息的过程时加入语音输入来进行同类信息标记。从而方便后期通过自主学习实现自动判定同类文本信息的获取,从而避免了现有搜索引擎获取信息时受到竞价排名影响极其数据量大、页数大,而不能获取较全面信息的缺陷,适应于未来数据为主导的时代数据获取的发展。

Similar Network Information Acquisition System and Method Based on Dynamic Configuration and Text Recognition

【技术实现步骤摘要】
基于动态配置结合文本识别的同类网络信息获取系统及方法
本专利技术涉及一种基于动态配置结合文本识别的同类网络信息获取系统及方法。
技术介绍
在网络信息化日益发展的时代之下,数据的重要性也日益增重,如何就网络相似信息的快速获取,并进行后期的统计分析显得极其重要,而今,网络数据的错综复杂,商业化利益化的驱使使得网络数据的复杂性愈加显重,查询结果的正确性也愈加低,比如在复杂情况下,查询某种产品的生产厂家,往往搜索引擎给出的不仅仅是厂家的信息,还要更多其他的相关信息,同时由于页面的限制,得到的信息数量只是其中的极少部分,除以之外,现代化的利益驱使,搜索引擎因为广告商的投入,给定的排序并非是最符合信息获取者的最直接需求。对现有的国内外使用比较多的搜索引擎进行分析,谷歌世界上使用人数最多的英文搜索引擎,被认为效率最高最准确,排序也是最科学的搜索引擎,但是于2010年退出中国大陆市场,将服务器搬离北京至香港,目前,大陆地区暂时无法使用。必应(Bing)搜索。微软开发的搜索引擎,因与微软系统的IE浏览器捆绑,使用率比较高。对国内用户而言,IE使用率越来越低,Bing搜索用户较少。国内使用最多的本文档来自技高网...

【技术保护点】
1.基于动态配置结合文本识别的同类网络信息获取系统,其特征在于,包括:爬取信息初始配置模块,用于对需要爬取的网络信息进行初始化配置;人为网络信息获取记录学习模块,用于记录人为第一次搜索需求信息时的浏览器动作,通过学习模拟人为搜索引擎获取需求信息的过程,记录得到需求信息的浏览器交互动作,实现自主爬取网页信息;数据采集及其需求信息标记模块,用于完成人为网络信息获取记录学习模块获取到的信息的准确性标记,通过人为网络信息获取记录学习模块能够实现自主获取网页信息;系统自主学习模块,用于对数据采集及其需求信息标记模块处理过后的网络信息分类建模,采用机器学习分类算法,对获取到的标记文本进行训练、分类,创建学...

【技术特征摘要】
1.基于动态配置结合文本识别的同类网络信息获取系统,其特征在于,包括:爬取信息初始配置模块,用于对需要爬取的网络信息进行初始化配置;人为网络信息获取记录学习模块,用于记录人为第一次搜索需求信息时的浏览器动作,通过学习模拟人为搜索引擎获取需求信息的过程,记录得到需求信息的浏览器交互动作,实现自主爬取网页信息;数据采集及其需求信息标记模块,用于完成人为网络信息获取记录学习模块获取到的信息的准确性标记,通过人为网络信息获取记录学习模块能够实现自主获取网页信息;系统自主学习模块,用于对数据采集及其需求信息标记模块处理过后的网络信息分类建模,采用机器学习分类算法,对获取到的标记文本进行训练、分类,创建学习模型;网络相似信息获取模块,用于对训练好的学习模型进行判定,来确定新爬取到的信息是否是需求的相似信息,并进行存储。2.根据权利要求1所述的基于动态配置结合文本识别的同类网络信息获取系统,其特征在于,浏览器动作包括人为浏览器输入信息以及鼠标操作动态信息。3.一种采用权利要求1或2所述系统的基于动态配置结合文本识别的同类网络信息获取方法,其特征在于,包括以下步骤:步骤1:系统初始配置搜索引擎,并搜索信息;步...

【专利技术属性】
技术研发人员:陈富民关宗泊姜洪权陈琨高智勇
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1