网络小说介绍页的提取方法及装置制造方法及图纸

技术编号:9926975 阅读:97 留言:0更新日期:2014-04-16 18:12
本发明专利技术公开一种网络小说介绍页的提取方法及装置,其方法包括:对小说介绍页进行网页分块,根据网页分块结果识别出二级导航块以及小说介绍信息块;基于识别出的二级导航块以及小说介绍信息块从小说介绍页中提取小说介绍性字段。本发明专利技术将复杂的网络小说介绍页进行结构化,提取其中核心的介绍性字段,从而精简网络小说介绍页的内容,为小说描述及用户浏览提供了便利,尤其实现了网络小说在移动终端上的有效浏览。

【技术实现步骤摘要】
【专利摘要】本专利技术公开一种网络小说介绍页的提取方法及装置,其方法包括:对小说介绍页进行网页分块,根据网页分块结果识别出二级导航块以及小说介绍信息块;基于识别出的二级导航块以及小说介绍信息块从小说介绍页中提取小说介绍性字段。本专利技术将复杂的网络小说介绍页进行结构化,提取其中核心的介绍性字段,从而精简网络小说介绍页的内容,为小说描述及用户浏览提供了便利,尤其实现了网络小说在移动终端上的有效浏览。【专利说明】网络小说介绍页的提取方法及装置
本专利技术涉及移动互联网
,尤其涉及一种网络小说介绍页的提取方法及装置。
技术介绍
目前,随着互联网的发展,网络小说的Wffff页面呈井喷式增长;而随着移动互联网的快速发展,使用手机上网阅读小说的用户也越来越多。但是,由于WWW页面主要用于PC端浏览,其页面复杂且包含较多无关信息,无法直接展示于手机侧。因此如何将WWW网页结构化,并为移动阅读用户提供优质清爽的阅读体验是目前急需解决的一大难题。此外,为了方便用户阅读,各小说网站设置有相应的小说介绍页,提供给用户进行选择阅读,小说介绍页是一种描述网络小说主要信息的页面。如:http://www.qidian.com/Book/2342810, aspx。由于小说介绍页面比较复杂,且各网页风格不一,因此目前主要采用类似XPATH的模板技术进行网站适配,并提取相应字段。但是,这种模板技术的缺陷在于一次只能适配一个网站,想要覆盖所有小说网站,则人工成本太高;另外一般较大网站都会经常更新,而网站更新会导致模板技术失效,由此增加了人工维护成本。
技术实现思路
本专利技术的主要目的在于提供一种网络小说介绍页的提取方法及装置,旨在精简网络小说介绍页的内容,实现网络小说在移动终端上的有效浏览,降低成本。为了达到上述目的,本专利技术提出一种网络小说介绍页的提取方法,包括:对小说介绍页进行网页分块,根据网页分块结果识别出二级导航块以及小说介绍信息块;基于识别出的所述二级导航块以及小说介绍信息块从所述小说介绍页中提取小说介绍性字段。本专利技术还提出一种网络小说介绍页的提取装置,包括:识别模块,用于对小说介绍页进行网页分块,根据网页分块结果识别出二级导航块以及小说介绍信息块;提取模块,用于基于识别出的所述二级导航块以及小说介绍信息块从所述小说介绍页中提取小说介绍性字段。本专利技术提出的一种网络小说介绍页的提取方法及装置,将复杂的网络小说介绍页进行结构化,提取其中核心的介绍性字段,从而精简网络小说介绍页的内容,为小说描述及用户浏览提供了便利,尤其实现了网络小说在移动终端上的有效浏览。【专利附图】【附图说明】图1是本专利技术网络小说介绍页的提取方法较佳实施例的流程示意图;图2是本专利技术网络小说介绍页的提取方法较佳实施例中一种网络小说介绍页分块后的效果不意图。图3是图2中的小说介绍页根据提取的介绍性字段重新排版后效果示意图;图4是本专利技术网络小说介绍页的提取装置第一实施例的结构示意图;图5是本专利技术网络小说介绍页的提取装置第二实施例的结构示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。【具体实施方式】以下将结合附图及实施例,对实现专利技术目的的技术方案作详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例的主要解决技术方案是:对小说介绍页进行网页分块,将复杂的网络小说介绍页进行结构化,提取其中核心的介绍性字段,为小说描述及用户浏览提供便利。如图1所示,本专利技术较佳实施例提出的一种网络小说介绍页的提取方法,包括:步骤S101,对小说介绍页进行网页分块,根据网页分块结果识别出二级导航块以及小说介绍信息块;为了实现对网络小说介绍页的智能提取,首先对小说介绍页进行网页分块,网页分块技术在现有技术中已有成熟方案,在此不再赘述。通过网页分块技术识别出小说介绍页中的二级导航块以及小说介绍信息块,以便根据识别出的小说介绍页中的二级导航块以及小说介绍信息块提取小说介绍页中的核心介绍性字段。如图2所示,图2是本实施例中一种网络小说介绍页分块后的效果示意图。图2中每一个线条框表示一个独立的块,针对每个独立块,需要识别其中的二级导航块和小说介绍信息块。其中:二级导航块,单独成行,且含有诸如”〉”、”> ”、〃 一 〃、”您的位置”等导航性符号。图2中框A即为二级导航块。小说介绍信息块,包含一些小说的介绍性信息,比如类别、字数、更新时间等。识别此小说介绍信息块主要利用其中的两种特征:一种是小说介绍信息块的面积和位置特征,介绍信息块属于小说介绍页的核心内容块,因此一般具有较大面积,且位于页面的焦点区域;另一种是小说介绍信息块中的介绍性关键词。图2中框B即为小说介绍信息块。步骤S102,基于识别出的所述二级导航块以及小说介绍信息块从所述小说介绍页中提取小说介绍性字段。根据获取到的小说介绍页中二级导航块以及小说介绍信息块的面积、位置特征以及介绍性关键词,从所述小说介绍页中提取小说介绍性字段。其中,提取的小说介绍性字段主要包括:小说名称、小说作者、小说类别、更新时间、小说字数、小说书号、小说封面图片、小说出版社以及小说目录URL等,这些小说介绍性字段基本覆盖了所有小说网页的常用字段。下面分别描述各字段及识别方法:小说名称:字体最大,一般出现在二级导航块及页面标题里。小说作者:一般出现在小说名称后的有限范围内,且有“作者:XXX”或“文/XXX”等模式。小说类别:事先收集一个小说类别表,包含诸如武侠、言情、玄幻等20多种类别,然后在二级导航块及小说介绍信息块中查找。更新时间:来自于小说介绍信息块,一般有“更新时间”、“最后更新”等相关字眼。小说字数:来自于小说介绍信息块,一般有“字数”、“小说长度”等相关字眼。小说书号:来自于二级导航块或小说介绍信息块,一般有“书号”等相关字眼。小说封面图片:主要利用利用其位置信息进行提取,小说封面图片通常位于页面上半部分;小说封面图片高度大于宽度,且宽高在一定范围之内;对于小说封面图片的属性,该图片的描述文字一般含有小说名及“封面”/ “图片”这样的字眼。小说出版社,来自于小说介绍信息块,一般有“出版社”等相关字眼。小说目录URL,一般有“点击阅读”、“章节列表”等链接文字字眼。从小说介绍页中提取出小说介绍性字段后,即可简化小说介绍页的描述,同时还可以根据提取的小说介绍性字段重新排版小说介绍页并显示。如图3所示,图3是利用本实施例方案对图2所示的小说介绍页进行介绍性字段提取,以从中获得的部分字段重新排版出来的效果示意图。本实施例通过上述方案,将复杂的小说介绍页进行了结构化,提取了核心的介绍字段,为小说描述及用户浏览提供了便利,尤其可以实现网络小说在移动终端上的有效浏览,避免了现有技术中小说介绍页无法直接展示于手机侧的弊端,并且极大降低人工维护成本。如图4所示,本专利技术第一实施例提出一种网络小说介绍页的提取装置,包括:识别模块201以及提取模块202,其中:识别模块201,用于对小说介绍页进行网页分块,根据网页分块结果识别出二级导航块以及小说介绍信息块;提取模块202,用于基于识别出的所述二级导航块以及小说介绍信息块从所述小说介绍页中提取小说介绍性字段。为了实现对网络小说介绍页的智本文档来自技高网...

【技术保护点】
一种网络小说介绍页的提取方法,其特征在于,包括:对小说介绍页进行网页分块,根据网页分块结果识别出二级导航块以及小说介绍信息块;基于识别出的所述二级导航块以及小说介绍信息块从所述小说介绍页中提取小说介绍性字段。

【技术特征摘要】

【专利技术属性】
技术研发人员:蔡兵朱章厚徐羽
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1