指定需求范围的网页信息自主搜集筛选系统技术方案

技术编号:27935826 阅读:77 留言:0更新日期:2021-04-02 14:16
本发明专利技术提供的指定需求范围的网页信息自主搜集筛选系统,为互联网上指定需求范围的自主搜集筛选设计解决方案,一是针对网页数据自主搜集筛选的工作需求,策划了一个符合互联网指定需求范围监测业务特点的系统解决方案;二是对网络指定需求范围信息自主搜集筛选的各个关键技术进行了研发和实现,并对一些关键技术进行了改进和优化,使系统更加符合指定需求范围监测业务实际需求;三是对网页信息自主搜集筛选系统测试和性能指标评价,通过对测试结论的分析,验证了系统的实用可靠性,达到了预期的效果,证明本发明专利技术网页信息自主搜集筛选系统具有很高的实用价值,对实施指定需求范围网络监测工作具有较好的参考价值。

【技术实现步骤摘要】
指定需求范围的网页信息自主搜集筛选系统技术范围本专利技术涉及一种网页信息自主搜集筛选系统,特别涉及一种指定需求范围的网页信息自主搜集筛选系统,属于网页搜集筛选技术范围。
技术介绍
在互联网高速发展的今天,万维网已成为一个巨大的、全球化的分布广泛的信息传输和服务中心,众多官方或者民间的机构、团体,甚至个人均在互联网上建立了各种类型的网页,内容上包罗万象,涉及到政治、经济、娱乐、生活、文化等方方面面,积累的信息容量更是以几何指数爆发式增长。从互联网中搜集信息,不但是人们获取知识的重要途径,也是门户网页的新闻、行业资讯搜集以及竞争信息获取等工作的主要方法和手段。面对海量的资源信息,仅仅依靠传统的人工搜集和处理方式,越来越难以满足网络信息处理的要求。为解决此类矛盾,一些科研机构和公司在信息检索领域进行了大量研究,开发出了多种搜索引擎,提高了网络信息检索的效率,获得了广泛的应用。但针对特定领域的信息检索要求,这些通用的搜索引擎存在较大的不足,最突出的表现有以下几个方面:一是这类搜索引擎基于全文或者关键字的检索机制,易出现噪声信息多、有效信息少的现象,使得用户的检索意图本文档来自技高网...

【技术保护点】
1.指定需求范围的网页信息自主搜集筛选系统,其特征在于,系统设计主要包括:一是指定需求范围网页数据智能获取,二是清洗网页数据和提取文本,三是提取文本特征,四是网页数据保存,五是网页数据筛选,六是筛选数据输出;本专利技术采用广度优先的网页抓取方式,依据某些重点url,对其进行拓展获取,并在后续工作中分析提取其文本内容,在提取文本内容的同时采用基于DOM分块方法对网页进行分块,在此基础上对噪声网页数据进行清洗,最后对所获取的网页通过HTML结构化解析和中文分词处理,表示成特征向量,应用文本分类算法分别计算其与训练语料库中向量类别的相似性,保留大于临界值的类别,滤除无效网页数据;/n指定需求范围的网...

【技术特征摘要】
1.指定需求范围的网页信息自主搜集筛选系统,其特征在于,系统设计主要包括:一是指定需求范围网页数据智能获取,二是清洗网页数据和提取文本,三是提取文本特征,四是网页数据保存,五是网页数据筛选,六是筛选数据输出;本发明采用广度优先的网页抓取方式,依据某些重点url,对其进行拓展获取,并在后续工作中分析提取其文本内容,在提取文本内容的同时采用基于DOM分块方法对网页进行分块,在此基础上对噪声网页数据进行清洗,最后对所获取的网页通过HTML结构化解析和中文分词处理,表示成特征向量,应用文本分类算法分别计算其与训练语料库中向量类别的相似性,保留大于临界值的类别,滤除无效网页数据;
指定需求范围的网页信息自主搜集筛选系统由三个分系统构成,分别为:网页信息自主搜集分系统、网页数据自主分类分系统、信息检索输出分系统,各分系统根据用户需求和系统设计,分别有不同的分工;网页信息自主搜集分系统主要完成主题网页的搜索、下载和清洗工作,搜索并保存指定需求范围相关的互联网信息,监测网页上指定范围事件发生、发展的最新动态,使系统使用人员能够及时、完整的掌控所关注的内容;网页数据自主分类分系统将网页信息自主搜集分系统处理后的与主题内容相关的网页数据,利用中文分词、信息提取、文本分类方法进行自主分类处理,并滤除无效网页;信息检索输出分系统主要是实现站内信息的关联分析、内容检索和数据输出显示;
指定需求范围的网页信息自主搜集筛选系统工作流程原理为:
流程一:网页信息自主搜集分系统搜集URL、下载网页并清洗网页;
流程二:网页数据自主分类分系统负责将系统搜集到有效网页进行中文分词、特征项提取、文本分类,并滤除无效信息;
流程三:信息检索输出分系统进行站内信息的关联挖掘、检索和结果输出;
网页数据自主分类分系统主要算法包括:一是文本前置处理:文本前置处理主要包括剔除停用词、文本分词、统计参数过程;二是分类过程,分类过程步骤为:
第1步:对需判断类别属性的新文本进行HTML文件解析、中文分词、特征项提取,将文本表示为特征向量;
第2步:计算第1步得到的特征向量与训练文档集每个类别向量的距离,得到相似度最大的候选类别列表;
第3步:基于训练得到的每个类别的临界值,将第2步的结果与之比较,保留大于某个临界值的属性类别作为分类结果。


2.根据权利要求1所述的指定需求范围的网页信息自主搜集筛选系统,其特征在于,指定需求范围网页数据的智能获取是系统的起始环节,其主要工作为:从某主题网站的初始网页出发,下载并分析这个网页,获取与这个网页相链接的全部网页的URL,再把这个URL集全部加到一个有序的待搜集队列中,由搜集器顺序取出URL,获取这些URL所指向的页面,再从新的网页中解析出新的URL,如此不停的爬取,直到根据某种策略停止搜集;
设计搜集程序时,需要采用哈希表来记录哪些网页已经下载过,避免同一个网页被多次下载;判断一个网页的URL是否已经下载过,采用哈希表平均只需约一次的查找就可实现,如果遇到已下载的网页,搜集程序就跳过,如果没有下载过,除了要下载该网页,还需在下载完成后,把此网页的URL保存入哈希表中;
本系统搜集程序主要是自主爬取互联网络并下载与指定需求范围相关的网页,并将这些网页经过初步处理后把结果保存到本地,其中第1步就是解析网页的HTML代码,获取其中的所有URL,再利用搜索策略开始搜集程序;
基于网页蜘蛛技术的搜索策略,在设计搜集程序时最主要的是在有限时间内尽可能多的抓取最重要的网页,各网站最重要的网页是它的首页,搜集程序应当是爬取网页的首页及首页直接链接的所有网页,从系统功能需求出发,主要是搜集主题明确的指定需求范围相关的网页,所以采用广度优先的搜索策略,从某些重点URL出发,对其进行拓展爬取PageRank排名高的主题网页,后续进行文本内容提取,并且在文本提取的同时清洗无效网页,最后剔除相似网页。


3.根据权利要求1所述的指定需求范围的网页信息自主搜集筛选系统,其特征在于,清洗网页数据和提取文本:清洗过程只需考虑文本内容,对图像、视频不用理会,网页清洗通过剔除掉网页中噪声干扰,仅保留网页的主题内容,网页清洗通过将网页分块,来区别一个网页中的主题内容和噪声信息,本发明采用基于DOM的网页分块方法。


4.根据权利要求3所述的指定需求范围的网页信息自主搜集筛选系统,其特征在于,基于DOM的网页分块方法:HTML是web上使用最多的数据形式,通过采用一组标记来区分标题、段落各种文档特性,HTML网页的布局,用HTML语言定义一套标签树表示,构造工具为DOM树,它按照嵌套的关系将网页布局标签整理成树状结构,根据标签结果对网页内容分块,DOM树结构通过把半结构化HTML页面布局转化为结构化DOM树结构,理解和实现网页清洗、信息提取分析工作;
DOM通过把HTML/XML文本解析为树状的数据结构,进行访问和操作,把文档中的字、段落和标题看作树结点来描述和访问,这种结构化的DOM树比非结构化的Web页面更易于访问和操作;
DOM树型结构设计:HTML文件由标题、头部、段落、超链接组件构成的数据集合,文件管理以基于数据的形式,各种组件在文件的位置和显示顺序一致,文件树型逻辑结构是DOM通过对HTML的再解释,生成的HTML文件的树形内部结构,每个组件不仅代表数据本身,还包含属性和方法,DOM对文件树形逻辑结构进行解释时,将<HTML>看作树的根,将其他组件看作树的结点,其中,结点看作是包含其他结点的父结点,也视为包含于父结点的子结点,同级结点为兄弟结点,在DOM逻辑结构中,文档标签被解析成DOM树的内部结点,而文本、超链接组件被解析成叶结点,通过DOM定义的应用程序接口,建立、修改和删除HTML文档的结构、元素和内容。


5.根据权利要求1所述的指定需求范围的网页信息自主搜集筛选系统,其特征在于,提取文本特征利用分词算法实现,算法设计为:
一是词典的内存格式,采用分层保存的形式,形成三层树型结构,每一个字母代表一个字,第一层保存所有单字,第二层保存所有的双字词,第三层保存以某一双字开头的所有词;
二是文本切分算法描述,假设对一个句子HIJKLMN……进行分词处理,处理流程为:
第一步,首先取前两个字,在词典中查找HI是否存在;
第二步,如果HI不存在,判H为单字词,分词结束,保存结果并返回第一步;
第三步,如果HI存在,判断HI是否为词,同时从词典中查找HI在下一层中字的最大长度,设为m;
第四步,如果m=0,则HI为词,本次分词结束,保存结果并返回第一步;
第五步,否则,设i=0;
第六步,i=i+1,若i=n+1,转第八步,否则,转第七步;
第七步,往后再取一个字,如J,判断在第三层中是否存在以JK…开始的字;
第八步...

【专利技术属性】
技术研发人员:刘秀萍
申请(专利权)人:荆门汇易佳信息科技有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1