使超文字标示语言网页转换成纯文字的方法及其系统技术方案

技术编号:2826308 阅读:347 留言:0更新日期:2012-04-11 18:40
本发明专利技术是有关一种使超文字标示语言网页转换成纯文字的方法及其系统。该方法包含执行一前置标签程序以撷取超文字标示语言网页中超文字标示语言原始码中的一具有多数字串及多数位于前述字串间的标签的部分,再计算各字串长度与位置,找出前述字串中长度为前第一预设值百分比的字串,进而分析前第一预设值百分比字串中各字串与其余字串间的位置间隔,并在位置间隔不大于一第二预设值时标示与前述位置间隔对应字串为一同一个区块,以找出一最大区块,最后删除最大区块内字串间的标签以取得一纯文字的主要内容。本发明专利技术借由对超文字标示语言网页的超文字标示语言原始码中的标签处理及以字串长度与两字串间的位置间隔来判断主要内容位置,可达到精确取得纯文字主要内容功效。

【技术实现步骤摘要】

本专利技术涉及一种网页转换成纯文字的方法,特别是涉及一种使超文字标示语言网页转换成纯文字的方法及其系统
技术介绍
随着网际网路的普及,人们愈来愈习惯通过网际网路来获得讯息与查询资料,例如直接登入网站来浏览新闻网页或文章网页等,目前网页的格式大都为超文件标示语言(Hypertext Markup Language;以下简称HTML)。又,目前网路上出现一种新资讯提供方式,称为简单联合供稿(ReallySimple Syndication,以下简称RSS),让使用者可以自行订阅想看资讯内容,而把网页中最新讯息及新闻同步发送予订阅者。详细来说,使用者端安装RSS浏览器后,可以通过RSS浏览器订阅网站所提供的各式各样RSS频道。而后,RSS浏览器会定期更新已订阅RSS频道,即RSS浏览器每隔一段时间会主动下载订阅频道中新的新闻或文章的简介(如标题、摘要与连结网址)至使用者端,让使用者即时了解频道的更新资讯。若使用者对新的新闻或文章有兴趣时,点选简介即可利用其连结网址连结对应HTML网页浏览完整内容。然而,无论是以直接登入网站或以RSS浏览器浏览HTML网页,HTLM网页经常同时存在许多无涉于主要内容的资讯,如广告、其他HTML网页的介绍、网站资讯等等,影响使用者对网页中主要内容的阅读速度,造成使用者难以迅速了解网页的主要内容。由此可见,上述现有的网路资讯提供方式在方法、结构及使用上,显然仍存在有不便与缺陷,而亟待加以进一步改进。为解决上述存在问题,相关厂商莫不费尽心思来谋求解决之道,但长久以来一直未见适用的设计被发展完成,而一般方法及产品又没有适切的方法及结构能解决上述问题,此显然是相关业者急欲解决的问题。因此如何能创设一种新的使超文字标示语言网页转换成纯文字的方法及其系统,实属当前重要研发课题之一,亦成为当前业界极需改进的目标。有鉴于上述现有的网路资讯提供方式存在的缺陷,本专利技术人基于从事此类产品设计制造多年丰富的实务经验及专业知识,并配合学理的运用,积极加以研究创新,以期创设一种新的使超文字标示语言网页转换成纯文字的方法及其系统,能够改进一般现有的网路资讯提供方式,使其更具有实-->用性。经过不断的研究、设计,并经反复试作及改进后,终于创设出确具实用价值的本专利技术。
技术实现思路
本专利技术的目的在于,克服现有的网路资讯提供方式存在的缺陷,而提供一种便于阅读的使超文字标示语言网页转换成纯文字的方法及其系统,非常适于实用。本专利技术的另一目的在于,提供一种可以达到纯文字转换精确度较高的使超文字标示语言网页转换成纯文字的方法及其系统,从而更加适于实用。本专利技术的目的及解决其技术问题是采用以下技术方案来实现的。依据本专利技术提出的一种使超文字标示语言网页转换成纯文字的方法,包含以下步骤:(A)、接收一超文字标示语言网页的超文字标示语言原始码;(B)、执行一前置标签程序以撷取前述超文字标示语言原始码中的一部分,前述部分具有多数个字串及多数个位于前述字串间的标签;(C)、计算前述字串的长度与位置,找出前述字串中长度为前第一预设值百分比的字串;(D)、分析前述前第一预设值百分比字串中各字串与其余字串间的一位置间隔,并在前述位置间隔不大于一第二预设值时标示与前述位置间隔对应字串为一同一个区块,以找出一最大区块;以及(E)、删除前述最大区块内前述字串间的标签以取得一主要内容。本专利技术的目的及解决其技术问题还可采用以下技术措施进一步实现。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的超文字标示语言网页的主要内容是一文章。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的超文字标示语言网页是一简单联合供稿新闻网页。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的超文字标示语言网页是一文章网页。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的第一预设值为3~15中的一整数,前述第二预设值为2~10中的一整数。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的步骤(B)中的前述前置标签程序是撷取前述超文字标示语言原始码的一主体。前述的使超文字标示语言网页转换成纯文字的方法,其中所述超文字标示语言原始码具有多数个标签,前述标签含有一<body>和一</body>,前述步骤(B)中撷取前述超文字原始码的前述<body>标签与</body>标签间的内容来作为一主体。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的超文字标示语言原始码具有多数个标签,前述步骤(B)中的前述前置标签程序中-->更在前述主体中标签与一第一预设标签群组相符时,删除前述相符标签间字串与前述相符标签。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的第一预设标签群组具有一<script>和一</script>、一<style>和一</style>及一<!--和一-->。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的步骤(B)中的前述前置标签程序中更在前述主体中标签与一第二预设标签群组相符时,删除前述相符标签。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的第二预设标签群组具有一元素位置标签、一颜色标签、一字体标签及一字型标签。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的第二预设标签群组具有一<font>、一<i>、一<b>、一<tt>、一<u>、一<strike>、一<sub>、一<sup>、一<pre>及一<em>。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的超文字标示语言原始码具有多数个空白,前述步骤(B)中的前述前置标签程序中更把前述主体中多个相邻空白转换成一个空白。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的步骤(E)中前述被删除标签是一段落格式标签,前述段落格式标签为<br>或一<p>和</p>。本专利技术的目的及解决其技术问题还采用以下技术方案来实现。依据本专利技术提出的一种纯文字转换系统,其包含:一前置标签处理模组,用以接收一超文字标示语言网页的超文字标示语言原始码并执行一前置标签程序以取得前述超文字标示语言原始码中的一部分,前述部分具有多数个字串及多数个位于前述字串间的标签;一区块分析模组,计算前述部分中前述字串的长度与位置,找出前述字串中长度为前第一预设值百分比的字串,及分析前述前第一预设值百分比字串中各字串与其余字串间的一位置间隔,并在前述位置间隔不大于一第二预设值时标示与前述位置间隔对应字串为一同一个区块,以找出一最大区块;以及一后续标签处理模组,删除前述最大区块内前述字串间的标签以取得一主要内容。本专利技术的目的及解决其技术问题还可采用以下技术措施进一步实现。前述的纯文字转换系统,其中所述的超文字标示语言网页是一简单联合供稿新闻网页或一文章网页。前述的纯文字转换系统,其中所述第一预设值为3~15中的一整数,前述第二预设值为2~10中的一整数。前述的纯文字转换系统,其中所述的前置标签处理模组本文档来自技高网
...

【技术保护点】
一种使超文字标示语言网页转换成纯文字的方法,其特征在于其包含以下步骤:(A)、接收一超文字标示语言网页的超文字标示语言原始码;(B)、执行一前置标签程序以撷取前述超文字标示语言原始码中的一部分,前述部分具有多数个字串及多数个位于前述字串间的标签;(C)、计算前述字串的长度与位置,找出前述字串中长度为前第一预设值百分比的字串;(D)、分析前述前第一预设值百分比字串中各字串与其余字串间的一位置间隔,并在前述位置间隔不大于一第二预设值时标示与前述位置间隔对应字串为一同一个区块,以找出一最大区块;以及(E)、删除前述最大区块内前述字串间的标签以取得一主要内容。

【技术特征摘要】
1. 一种使超文字标示语言网页转换成纯文字的方法,其特征在于其包含以下步骤:(A)、接收一超文字标示语言网页的超文字标示语言原始码;(B)、执行一前置标签程序以撷取前述超文字标示语言原始码中的一部分,前述部分具有多数个字串及多数个位于前述字串间的标签;(C)、计算前述字串的长度与位置,找出前述字串中长度为前第一预设值百分比的字串;(D)、分析前述前第一预设值百分比字串中各字串与其余字串间的一位置间隔,并在前述位置间隔不大于一第二预设值时标示与前述位置间隔对应字串为一同一个区块,以找出一最大区块;以及(E)、删除前述最大区块内前述字串间的标签以取得一主要内容。2. 如权利要求1所述的使超文字标示语言网页转换成纯文字的方法,其特征在于其中所述的超文字标示语言网页的主要内容是一文章。3. 如权利要求1或2所述的使超文字标示语言网页转换成纯文字的方法,其特征在于其中所述的超文字标示语言网页是一简单联合供稿新闻网页。4. 如权利要求1或2所述的使超文字标示语言网页转换成纯文字的方法,其特征在于其中所述的超文字标示语言网页是一文章网页。5. 如权利要求1所述的使超文字标示语言网页转换成纯文字的方法,其特征在于其中所述的第一预设值为3~15中的一整数,前述第二预设值为2~10中的一整数。6. 如权利要求1所述的使超文字标示语言网页转换成纯文字的方法,其特征在于其中所述的步骤(B)中的前述前置标签程序是撷取前述超文字标示语言原始码的一主体。7. 如权利要求6所述的使超文字标示语言网页转换成纯文字的方法,其特征在于其中所述的超文字标示语言原始码具有多数个标签,前述标签含有一<body>和一</body>,前述步骤(B)中撷取前述超文字原始码的前述<body>标签与</body>标签间的内容来作为一主体。8. 如权利要求6所述的使超文字标示语言网页转换成纯文字的方法,其特征在于其中所述的超文字标示语言原始码具有多数个标签,前述步骤(B)中的前述前置标签程序中更在前述主体中标签与一第一预设标签群组相符时,删除前述相符标签间字串与前述相符标签。9. 如权利要求8所述的使超文字标示语言网页转换成纯文字的方法,其特征在于其中所述的第一预设标签群组具有一<script>和一</script>、一<style>和一</style>及一<!--和一-->。10. 如权利要求8所述的使超文字标示语言网页转换成纯文字的方法,其特征在于其中所述的步骤(B)中的前述前置标签程序中更在前述主体中标签与一第二预设标签群组相符时,删除前述相符标签。11. 如权利要求10所述的使超文字标示语言网页转换成纯文字的方法,其特征在于其中所述的第二预设标签群组具有一元素位置标签、一颜色标签、一字体标签及一字型标签。...

【专利技术属性】
技术研发人员:黄子癸蔡弘扬
申请(专利权)人:易搜比控股公司
类型:发明
国别省市:KY[开曼群岛]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1