一种客户端设备制造技术

技术编号:8626161 阅读:202 留言:0更新日期:2013-04-25 23:18
本发明专利技术公开了一种客户端设备,其上安装有浏览器,所述浏览器中设置有对网页文本内容可进行提取的装置,所述客户端设备,根据用户的网页浏览指令启动所述对网页文本内容可进行提取的装置,并将该对网页文本内容可进行提取的装置提取出的网页文本内容在浏览器中展示给用户;所述对网页文本内容可进行提取的装置包括:匹配设置配置单元,适于在浏览器侧预设至少一网页文本内容匹配设置;下载单元,适于在浏览器侧进行网页内容下载;匹配单元,适于将所述网页内容分别与所述网页文本内容匹配设置进行匹配,直至所述网页内容匹配成功;提取单元,适于利用与所述网页内容匹配成功的网页文本内容匹配设置,提取所述网页内容中的网页文本内容。

【技术实现步骤摘要】
一种客户端设备
本专利技术涉及网络
,特别涉及一种客户端设备。
技术介绍
随着互联网技术的普及,网络已经成为人们获取信息的重要途径之一,网页中的文本内容是信息的主要载体。然而,通常情况下网页中除了文本内容,还包括大量广告图片、非文章内容等无用信息,严重影响了用户的阅读体验。现有技术提供的提取网页文本内容的方案中,网页在浏览器中加载完毕后,将网页中的内容进行拆分,然后由浏览器中的匹配规则文件对网页内容进行定位,抽取出所需的字段内容并显示出来,从而用户可以看到文本筛选后的网页,使用户能够方便和专注的阅读。现有提取网页文本内容的方案中至少存在如下缺陷:现有方案针对某一预定网页结构设置一匹配规则文件,该匹配规则文件仅适用于预定结构下网页文本内容的提取,然而由于网络资源的更新速度非常快,网页结构会时常变动,则已有的匹配规则文件将无法对变动后的网页进行文本提取,而重新生成新的匹配规则文件,再将新的匹配规则文件设置在浏览器中,又导致实现匹配的操作过于繁琐,工作量较大、效率低下。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的客户端设备。依据本专利技术,本专利技术实施例提供了一种客户端设备,该客户端设备上安装有浏览器,浏览器中设置对网页文本内容可进行提取的装置,客户端设备,根据用户的网页浏览指令启动对网页文本内容可进行提取的装置,并将该对网页文本内容可进行提取的装置提取出的网页文本内容在浏览器中展示给用户;所述对网页文本内容可进行提取的装置包括:匹配设置配置单元,适于在浏览器侧预设至少一网页文本内容匹配设置;下载单元,适于在浏览器侧进行网页内容下载;匹配单元,适于将网页内容分别与网页文本内容匹配设置进行匹配,直至网页内容匹配成功;提取单元,适于利用与网页内容匹配成功的网页文本内容匹配设置,提取网页内容中的网页文本内容。其中,匹配设置配置单元,适于建立一匹配设置文件并将至少一网页文本内容匹配设置保存在匹配设置文件中;其中,该匹配设置文件中包括至少一个网站节点,每个网站节点中包括至少一种网页节点,至少部分网页节点中设有两个以上的匹配设置描述节点,每个匹配设置描述节点对应一网页文本内容匹配设置,至少两个网页文本内容的匹配设置中分别包括对相同类型文本内容的不同匹配设置项。其中,匹配单元,适于在匹配设置文件中查找网页内容对应的网站节点及网页节点;在查找到的网页节点下,将网页内容与该网页节点中的第一匹配设置描述节点中的匹配设置项依次进行匹配;对匹配成功的匹配设置项,将匹配结果设置为利用该匹配设置项提取出的网页文本内容;对匹配失败的匹配设置项,在该网页节点中除第一匹配设置描述节点之外的匹配设置描述节点中查找与该匹配失败的匹配设置项相对应的匹配设置项,将查找到的匹配设置项与网页内容进行匹配,直至查找到的匹配设置项与网页内容匹配成功,并将匹配结果设置为根据该匹配设置项提取出的网页文本内容。其中,提取单元,适于将所有根据匹配成功的匹配设置项提取出的网页文本内容作为识别出的网页内容中的网页文本内容。其中,匹配设置配置单元,适于为每种类型的网站建立一个网站节点;在一个网站节点下,为该网站节点相应的网站下每种类型的网页建立一个网页节点;根据网页的内容建立每个网页节点的匹配设置描述节点中的匹配设置项,其中在网页节点的第一匹配设置描述节点中,为该网页节点相应的网页中每种类型的文本内容建立至少一条匹配设置项;以及,对于网页中相同类型的文本内容,在第一匹配设置描述节点中建立的匹配设置项和在该网页节点中除第一匹配设置描述节点之外的匹配设置描述节点中建立的匹配设置项各不相同。其中,匹配设置配置单元,还适于在网页节点中设置下载模式属性和元素过滤属性,该元素过滤属性指示的过滤方式包括:过滤图片、过滤级联样式表CSS、过滤Javascript脚本语言、过滤框架、过滤对象和过滤嵌入内容中的一种或多种,上述装置还包括加载控制单元和过滤单元,加载控制单元,适于在查找到的网页节点下,将网页内容与该网页节点中的第一匹配设置描述节点中的匹配设置项依次进行匹配之前,判断查找到的网页节点中的下载模式属性的属性值是否为预定值,若是,启动过滤单元,然后在查找到的网页节点下,将过滤后的网页内容与该网页节点中的第一匹配设置描述节点中的匹配设置项依次进行匹配;若否,直接将网页内容下载在浏览器中;过滤单元,适于根据元素过滤属性指示的过滤方式对网页中的内容进行过滤。其中,匹配设置配置单元配置的网页文本内容匹配设置包括为网页内容的统一资源定位符URL建立网页URL匹配设置项,网页URL匹配设置项中包含:匹配属性设置项,该匹配属性设置项包括:网页URL以预定内容作为开头;和/或,网页URL包含预定内容,该预定内容的预定位置包含任意字符;和/或,网页URL不包含预定内容,该预定内容包含任意字符。其中,匹配设置配置单元建立的网页URL匹配设置项还网页标识属性设置项、网页标识提取属性设置项和转化属性设置项,网页标识属性设置项包括:将网页的URL中预定位置的字符作为该网页内容的网页标识;网页标识提取属性设置项包括:在根据网页标识属性设置项匹配得到的网页标识中选取预定位置的字符作为网页标识;转化属性设置项包括:根据获知的网页内容的网页标识和URL的组成格式转化得到该网页的URL。其中,匹配设置配置单元建立的网页URL匹配设置项还包括网页标题提取属性设置项,该网页标题提取属性设置项包括:将网页内容中预定字符之前的内容提取为标题。其中,匹配设置配置单元,还适于在第一匹配设置描述节点中为网页中每种类型的文本内容在网页内容中的超文本标记语言HTML元素建立至少一条匹配设置项;为HTML元素建立的匹配设置项包括一次定位匹配设置项,该一次定位匹配设置项至少包括:基点查找设置项:指示基点查找的方式,该方式包括查找标识、查找名称、查找类名、查找内容、查找表达式;和/或,标识定位设置项:定位与HTML元素的标识相匹配的元素;和/或,名称定位设置项:定位与HTML元素的名称相匹配的元素;和/或,类名定位设置项:定位与HTML元素的类名称相匹配的元素;和/或,内容定位设置项:定位与HTML元素的内容相匹配的元素;和/或,表达式定位设置项:定位与HTML元素中的表达式相匹配的元素;和/或,标签设置项:指示利用标识定位设置项、名称定位设置项、类名定位设置项、内容定位设置项或表达式定位设置项对元素定位时,所定位元素的类型和/或属性。其中,匹配设置配置单元为HTML元素建立的匹配设置项还包括:二次定位匹配设置项,该二次定位匹配设置项至少包括:父查询设置项:设置根据一次定位匹配设置项定位到的元素,查找该元素的父元素的方式;或者,子查询设置项:设置根据一次定位匹配设置项定位到的元素,查找该元素的子元素的方式;或者,当父查询设置项和子查询设置项置同时存在时,先根据父查询设置项查找一次定位匹配设置项定位到的元素的父元素,然后根据子查询设置项,从查找到的该父元素起,查找该父元素的子元素。其中,匹配设置配置单元为HTML元素建立的匹配设置项还包括:元素删除匹配设置项,该元素删除匹配设置项至少包括:删除由一次定位匹配设置项或二次定位匹配设置项定位出的元素中的预定内容;和/或本文档来自技高网...
一种客户端设备

【技术保护点】
一种客户端设备,该客户端设备上安装有浏览器,所述浏览器中设置有对网页文本内容可进行提取的装置,所述客户端设备,根据用户的网页浏览指令启动所述对网页文本内容可进行提取的装置,并将该对网页文本内容可进行提取的装置提取出的网页文本内容在浏览器中展示给用户;所述对网页文本内容可进行提取的装置包括:匹配设置配置单元,适于在浏览器侧预设至少一网页文本内容匹配设置;下载单元,适于在浏览器侧进行网页内容下载;匹配单元,适于将所述网页内容分别与所述网页文本内容匹配设置进行匹配,直至所述网页内容匹配成功;提取单元,适于利用与所述网页内容匹配成功的网页文本内容匹配设置,提取所述网页内容中的网页文本内容。

【技术特征摘要】
1.一种客户端设备,该客户端设备上安装有浏览器,所述浏览器中设置有对网页文本内容可进行提取的装置,所述客户端设备,根据用户的网页浏览指令启动所述对网页文本内容可进行提取的装置,并将该对网页文本内容可进行提取的装置提取出的网页文本内容在浏览器中展示给用户;所述对网页文本内容可进行提取的装置包括:匹配设置配置单元,适于在浏览器侧预设至少一网页文本内容匹配设置;每个网页文本内容匹配设置中包括根据网页的文本内容建立的一个或多个匹配设置项;具体地,所述匹配设置配置单元,适于建立一匹配设置文件并将所述至少一网页文本内容匹配设置保存在所述匹配设置文件中;其中,所述匹配设置文件中包括至少一个网站节点,每个网站节点中包括至少一种网页节点,至少部分所述网页节点中设有两个以上的匹配设置描述节点,每个匹配设置描述节点对应一网页文本内容匹配设置,至少两个所述网页文本内容匹配设置中分别包括对相同类型文本内容的不同匹配设置项;下载单元,适于在浏览器侧进行网页内容下载;匹配单元,适于将所述网页内容分别与所述网页文本内容匹配设置进行匹配,直至所述网页内容匹配成功;提取单元,适于利用与所述网页内容匹配成功的网页文本内容匹配设置,提取所述网页内容中的网页文本内容。2.根据权利要求1所述的客户端设备,其特征在于,所述匹配单元,适于在所述匹配设置文件中查找所述网页内容对应的网站节点及网页节点;在查找到的网页节点下,将所述网页内容与该网页节点中的第一匹配设置描述节点中的匹配设置项依次进行匹配;对匹配成功的匹配设置项,将匹配结果设置为利用该匹配设置项提取出的网页文本内容;对匹配失败的匹配设置项,在该网页节点中除第一匹配设置描述节点之外的匹配设置描述节点中查找与该匹配失败的匹配设置项相对应的匹配设置项,将查找到的匹配设置项与所述网页内容进行匹配,直至查找到的匹配设置项与所述网页内容匹配成功,并将匹配结果设置为根据该匹配设置项提取出的网页文本内容。3.根据权利要求2所述的客户端设备,其特征在于,所述提取单元,适于将所有根据所述匹配成功的匹配设置项提取出的网页文本内容作为识别出的所述网页内容中的网页文本内容。4.根据权利要求1所述的客户端设备,其特征在于,所述匹配设置配置单元,适于为每种类型的网站建立一个网站节点;在一个网站节点下,为该网站节点相应的网站下每种类型的网页建立一个网页节点;根据网页的内容建立每个网页节点的匹配设置描述节点中的匹配设置项,其中在网页节点的第一匹配设置描述节点中,为该网页节点相应的网页中每种类型的文本内容建立至少一条匹配设置项;以及,对于网页中相同类型的文本内容,在所述第一匹配设置描述节点中建立的匹配设置项和在该网页节点中除第一匹配设置描述节点之外的匹配设置描述节点中建立的匹配设置项各不相同。5.根据权利要求2所述的客户端设备,其特征在于,所述匹配设置配置单元,还适于在所述网页节点中设置下载模式属性和元素过滤属性,所述元素过滤属性指示的过滤方式包括:过滤图片、过滤级联样式表CSS、过滤Javascript脚本语言、过滤框架、过滤对象和过滤嵌入内容中的一种或多种,所述装置还包括加载控制单元和过滤单元,所述加载控制单元,适于在查找到的网页节点下,将所述网页内容与该网页节点中的第一匹配设置描述节点中的匹配设置项依次进行匹配之前,判断所述查找到的网页节点中的下载模式属性的属性值是否为预定值,若是,启动过滤单元,然后在查找到的网页节点下,将过滤后的网页内容与该网页节点中的第一匹配设置描述节点中的匹配设置项依次进行匹配;若否,直接将所述网页内容下载在浏览器中;所述过滤单元,适于根据元素过滤属性指示的过滤方式对网页中的内容进行过滤。6.根据权利要求1所述的客户端设备,其特征在于,所述匹配设置配置单元配置的网页文本内容匹配设置包括为网页内容的统一资源定位符URL建立网页URL匹配设置项,所述网页URL匹配设置项中包含:匹配属性设置项,所述匹配属性设置项包括:网页URL以预定内容作为开头;和/或,网页URL包含预定内容,该预定内容的预定位置包含任意字符;和/或,网页URL不包含预定内容,该预定内容包含任意字符。7.根据权利要求6所述的客户端设备,其特征在于,所述匹配设置配置单元建立的网页URL匹配设置项还包括网页标识属性设置项、网页标识提取属性设置项和转化属性设置项,所述网页标识属性设置项包括:将网页的URL中预定位置的字符作为该...

【专利技术属性】
技术研发人员:谢洲为潘洪学糜裕峰任寰
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1