一种自动解析互联网网页的方法技术

技术编号:10877872 阅读:126 留言:0更新日期:2015-01-08 00:13
本发明专利技术涉及一种自动解析互联网网页的方法,属于网页解析领域;用户利用垂直搜索抽取某个行业涉及的网站的结构化数据,根据抽取的结构化数据建立模板,具体步骤如下:①选取行业涉及的代表网页,在行业分词词库最新的情况下,对代表网页进行分词并展现给用户;②根据网页分词结果的图形化展示,提供正则表达式匹配项;③根据正则表达式匹配项,选取需要提取的数据并设置数据名称;④根据正则表达式,自动生成抽取结构化数据程序,建立垂直搜索模板;⑤给垂直搜索模板加标签,根据垂直搜索模板,自动解析行业涉及的所有网页;本发明专利技术利用分词、正则表达式及标签解析技术,达到垂直搜索引擎实现了智能网页解析的目的。

【技术实现步骤摘要】
-种自动解析互联网网页的方法
本专利技术涉及,属于网页解析领域。
技术介绍
广大网民用户获取信息,通过在网页搜索获取结果,没法提供按行业特征进行分 类筛选的服务,无法分类显示,然而哪些内容是用户本次搜索中想搜到的则无法进行判断, 用户需要花很长时间在结果中找自己需要的信息。而垂直搜索,是网站针对其站内信息的 搜索服务,其网站内的信息是由其站内用户直接将各种信息添加入该网站的各个分类中, 虽然分类清晰,但搜索范围较窄,而且即使相同类的网站每个网站的组织形式、网页结构千 差万别,需要从中抽取所需信息相当困难,用户需通过与其他搜索引擎配合使用才能了解 到全面的信息。然而,本专利技术提供,在垂直搜索的基础上 利用正则表达式及标签解析技术对进行网页进行解析,对所有采集网页进行模板分类后, 对每一类网页取出网页代表进行结构化抽取,得到相同类网页的结构化数据作为模板,使 用户可以直接利用某个行业相同类的模板对不同网站进行搜索,获取想要获得的信息。 正则表达式,英语为Regular Expression、regex或regexp,缩写为RE,也译为正 规表示法、常规表示法,在计算机科学中,是指一个用来描述或者匹配一系列符合某个句法 规则的字符串的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检 索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进 行字符串操作。
技术实现思路
本专利技术针对现有技术存在的不足和问题,提供, 提出的具体方案是: ,用户利用垂直搜索抽取某个行业涉及的网站的结构 化数据,根据抽取的结构化数据建立模板,具体步骤如下: ① 选取行业涉及的代表网页,在行业分词词库最新的情况下,对代表网页进行分词并 展现给用户; ② 根据网页分词结果的图形化展示,提供正则表达式匹配项; ③ 根据正则表达式匹配项,选取需要提取的数据并设置数据名称; ④ 根据正则表达式,自动生成抽取结构化数据程序,建立垂直搜索模板; ⑤ 给垂直搜索模板加标签,根据垂直搜索模板,自动解析行业涉及的所有网页。 所述的步骤①中行业的代表网页是用户认为的且选择的一行业涉及的网页。 所述的步骤②中正则表达式的形式是数字替换,替换指定内容,删除指定内容,删 除空行,指定数字,指定内容中的一种或几种组合。 所述的步骤⑤中标签是TAG标签和GET标签。 本专利技术的有益之处是:本专利技术,利用垂直搜索引 擎和普通的网页搜索引擎的区别,对网页信息进行了结构化信息抽取,将网页的非结构化 数据抽取成特定的结构化信息数据;然后将这些数据存储到数据库,进行进一步的加工处 理,最后分词、索引再以搜索的方式满足用户的需求;本专利技术利用分词、正则表达式及标签 解析技术,达到垂直搜索引擎实现了智能网页解析的目的。 【附图说明】 图1 流程示意图。 【具体实施方式】 结合实例,对本专利技术进行具体描述。 实施例1 以购物网站为例,用户利用垂直搜索在网站搜索,具体步骤如下: ① 选取购物网站的代表网页比如淘宝,搜索男士衬衫,在行业分词词库最新的情况下, 对代表网页进行分词并展现给用户,最常出现的情况,将男士和衬衫进行了分词; ② 根据网页分词结果的图形化展示,提供正则表达式匹配项,正则表达式采用数字替 换,比如男士替换成222,衬衫为444 ; ③ 根据正则表达式匹配项,选取需要提取的数据并设置数据名称; ④ 根据正则表达式,自动生成抽取结构化数据程序,建立垂直搜索模板遇到购物网站, 搜索男士衬衫就利用正则表达式替换成222, 444进行搜索; ⑤ 给垂直搜索模板加 TAG标签,根据垂直搜索模板,自动解析行业涉及的所有网页。 实施例2 以教育网站为例,用户利用垂直搜索在网站搜索,具体步骤如下: ① 选取教育网站的代表网页比如新东方,搜索中学英语,在行业分词词库最新的情况 下,对代表网页进行分词并展现给用户,最常出现的情况,将中学和英语进行了分词; ② 根据网页分词结果的图形化展示,提供正则表达式匹配项,正则表达式采用替换内 容方式,比如中学替换成zx,英语为yy ; ③ 根据正则表达式匹配项,选取需要提取的数据并设置数据名称; ④ 根据正则表达式,自动生成抽取结构化数据程序,建立垂直搜索模板遇到教育网站, 搜索中学英语就利用正则表达式替换成zx, yy进行搜索; ⑤ 给垂直搜索模板加 GET标签,根据垂直搜索模板,自动解析行业涉及的所有网页。 实施例3 以旅游网站为例,用户利用垂直搜索在网站搜索,具体步骤如下: ① 选取旅游网站的代表网页比如中青旅,搜索花海,在行业分词词库最新的情况下,对 代表网页进行分词并展现给用户,出现的情况,将花和海进行了分词或花海; ② 根据网页分词结果的图形化展示,提供正则表达式匹配项,正则表达式采用删除指 定内容或删除空格的方式,比如花海替换成花或海或花海; ③ 根据正则表达式匹配项,选取需要提取的数据并设置数据名称; ④ 根据正则表达式,自动生成抽取结构化数据程序,建立垂直搜索模板遇到旅游网站, 搜索花海就利用正则表达式替换成花或海或花海进行搜索; ⑤给垂直搜索模板加 TAG标签,根据垂直搜索模板,自动解析行业涉及的所有网页。本文档来自技高网...

【技术保护点】
一种自动解析互联网网页的方法,其特征是用户利用垂直搜索抽取某个行业涉及的网站的结构化数据,根据抽取的结构化数据建立模板,具体步骤如下:选取行业涉及的代表网页,在行业分词词库最新的情况下,对代表网页进行分词并展现给用户;②根据网页分词结果的图形化展示,提供正则表达式匹配项;③根据正则表达式匹配项,选取需要提取的数据并设置数据名称;④根据正则表达式,自动生成抽取结构化数据程序,建立垂直搜索模板;⑤给垂直搜索模板加标签,根据垂直搜索模板,自动解析行业涉及的所有网页。

【技术特征摘要】
1. 一种自动解析互联网网页的方法,其特征是用户利用垂直搜索抽取某个行业涉及的 网站的结构化数据,根据抽取的结构化数据建立模板,具体步骤如下: D选取行业涉及的代表网页,在行业分词词库最新的情况下,对代表网页进行分词并 展现给用户; ② 根据网页分词结果的图形化展示,提供正则表达式匹配项; ③ 根据正则表达式匹配项,选取需要提取的数据并设置数据名称; ④ 根据正则表达式,自动生成抽取结构化数据程序,建立垂直搜索模板; ⑤ 给垂直搜索模板加标签,根据垂直搜...

【专利技术属性】
技术研发人员:范莹于治楼梁华勇
申请(专利权)人:浪潮集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1