一种文本内容提取方法和装置制造方法及图纸

技术编号:8532960 阅读:163 留言:0更新日期:2013-04-04 16:02
本发明专利技术公开了一种文本内容提取方法和装置,所述方法包括:将输入的HTML网页分解为多个模块,根据各模块在网页布局中的位置,确定各模块的位置得分,并计算各模块的文本长度;提取各模块包含的链接地址,统计所有链接地址中使用频率最高的字符内容,将包含所述字符内容的各链接地址标记为有效链接,将不包含所述字符内容的各链接地址标记为无效链接;根据综合得分=位置得分×(文本长度+有效链接的文字长度)/无效链接的文字长度,确定各模块的综合得分,并判定综合得分超过设定阈值的模块为内容模块。本发明专利技术所述方法能够有效去除网页中非内容部分的冗余的信息,实现了更为准确的对网页的有效内容进行提取。

【技术实现步骤摘要】

本专利技术涉及通信
,尤其涉及一种文本内容提取方法和装置
技术介绍
随着互联网技术的迅猛发展,浏览网页逐渐成为人们获取信息的主要手段,而在所有接触的页面信息中,文本信息又占了其中的主要部分。如何有效的提取页面中的文本信息是很重要的,因为如果将文本的内容全部提取出来,其中必然会掺杂许多不必要的内容,如广告信息、导航信息等等,这些信息通常是大量重复的,而且并不是用户感兴趣和需要的内容;再者,大量重复和无效的信息也会降低文本聚类和文本分类的准确性,会加大内容检索的工作量。而在不同的网页中,页面的排版和布局是多种多样的,若单从模块或位置进行划分,则很难准确的获取有效的文本信息。目前,文本内容的提取手段是将输入网页分解为多个模块,并通过计算每个模块的综合得分来确定对应模块是否为内容模块。其中,综合得分的计算方式为综合得分=位置得分X文字长度/链接文字长度,然而,该计算方式仍然不够精确,并不能准确对内容进行划分。所以,目前如何能提供一种文本提取方法,实现对文本内容的准确提取成为目前亟待解决的技术问题。
技术实现思路
本专利技术提供一种文本内容提取方法和装置,用以解决现有技术中采用的文本内容提取方法不能准确提取文本内容的问题。为了解决上述问题,本专利技术采用的技术方案如下一方面,本专利技术提供一种文本内容提取方法,包括将输入的超文本标记语言HTML网页分解为多个模块,根据各模块在网页布局中的位置,确定各模块的位置得分,并计算各模块的文本长度;提取各模块包含的链接地址,统计所有链接地址中除协议字符外使用频率最高的字符内容,将包含所述使用频率最高的字符内容的各链接地址标记为有效链接,将不包含所述使用频率最高的字符内容的各链接地址标记为无效链接;根据综合得分=模块的位置得分X (模块的文本长度+模块内有效链接的文字长度)/模块内无效链接的文字长度,确定各模块的综合得分,并判定综合得分超过设定阈值的模块为内容模块。进一步地,本专利技术所述方法中,使用Table标签或Div标签将输入的HTML网页分解为多个模块。进一步地,本专利技术所述方法中,若分解得到的模块还能够继续分解且未出现标签混杂的情况,则对分解后的模块继续分解。进一步地,本专利技术所述方法中,在标记有效链接和无效链接时,统一计算各链接内的文字长度;或者,在确定各模块的综合得分时,分别计算各模块包含的每个链接内的文字长度。进一步地,本专利技术所述方法中,计算各模块的文本长度具体包括对于每个模块,提取出模块的HTML标签,根据所述HTML标签获取对应模块中包含的文本信息,计算该文本信息的长度,得到对应模块的文本长度;进一步地,本专利技术所述方法中,通过achor标签提取出各模块的链接地址。另一方面,本专利技术还提供一种文本内容提取装置,包括网页处理单元,用于将输入的超文本标记语言HTML网页分解为多个模块,根据各模块在网页布局中的位置,确定各模块的位置得分,并计算各模块的文本长度;标记处理单元,用于提取各模块包含的链接地址,统计所有链接地址中除协议字符外使用频率最高的字符内容,将包含所述使用频率最高的字符内容的各链接地址标记为有效链接,将不包含所述使用频率最高的字符内容的各链接地址标记为无效链接;内容提取单元,用于根据综合得分=模块的位置得分X (模块的文本长度+模块内有效链接的文字长度)/模块内无效链接的文字长度,确定各模块的综合得分,并判定综合得分超过设定阈值的模块为内容模块。进一步地,本专利技术所述装置中,所述网页处理单元,具体用于使用Table标签或Div标签将输入的HTML网页分解为多个模块。进一步地,本专利技术所述装置中,所述网页处理单元,还用于判断分解得到的模块是否还能够继续分解且未出现标签混杂的情况,若是,则对分解后的模块继续分解。进一步地,本专利技术所述装置中,所述标记处理单元,还用于在标记有效链接和无效链接时,统一计算各链接内的文字长度;或者,所述内容提取单元,还用于在确定各模块的综合得分时,分别计算各模块包含的每个链接内的文字长度。进一步地,本专利技术所述装置中,所述网页处理单元,具体用于对于每个模块,提取出模块的HTML标签,根据所述HTML标签获取对应模块中包含的文本信息,计算该文本信息的长度,得到对应模块的文本长度;进一步地,本专利技术所述装置中,所述标记处理单元,具体用于通过achor标签提取出各模块的链接地址。与现有技术相比,本专利技术有益效果如下本专利技术所述方法和装置,使用了普通文本同有效链接文字长度之和与无效链接文字长度的比例,能够更为准确的对HTML网页的内容进行提取,去除了冗余的广告等信息,使得后面的分词阶段的工作量大大降低,提高了文本聚类和文本分类、自动摘要的准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种文本内容提取方法的流程图;图2为本专利技术实施例中网页布局示意图;图3为本专利技术实施例提供的文本内容提取方法具体流程图4为本专利技术实施例提供的一种文本内容提取装置的结构框图。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为了解决现有技术中采用的文本内容提取方法不能准确提取文本内容的问题,本专利技术实施例提供一种文本内容提取方法和装置。如图1所示,本专利技术实施例提供的一种文本内容提取方法,具体包括步骤S101,将输入的HTML网页分解为多个模块,根据各模块在网页布局中的位置,确定各模块的位置得分,并计算各模块的文本长度;该步骤中,优选地,使用Table标签或Div标签将输入的HTML网页分解为多个模块。进一步地,该步骤中,若分解得到的模块还能够继续分解且未出现标签混杂的情况,则对分解后的模块继续分解。其中,标签混杂目前主流的页面布局方式主要分为两种,即通过〈Table〉标签或<Div>标签进行页面结构上的布局划分,但在编辑页面内容时,这两个标签也可能互相包含,即米用〈Table〉布局的页面中可能包含<Div>标签,同样米用<Div>布局的页面中也可能包含<Talbe>标签;另外,标签混杂也指控制结构的标签(如<Table>、〈hl>)和控制表现的标签(如<font>、〈b>)混杂在一起使用,造成改版和数据划分的困难。本专利技术中由于是需要对模块进行划分,所以此处所用的标签混杂主要是指〈Table〉和〈Div>标签的混杂使用。进一步地,该步骤中,计算各模块的文本长度具体包括对于每个模块,提取出模块的HTML标签,根据所述HTML标签获取对应模块中包含的文本信息,计算该文本信息的长度,得到对应模块的文本长度。步骤S102,提取各模块包含的链接地址,统计所有链接地址中除协议字符外使用频率最高的字符内容,将包含使用频率最高的字符内容的本文档来自技高网...

【技术保护点】
一种文本内容提取方法,其特征在于,包括:将输入的超文本标记语言HTML网页分解为多个模块,根据各模块在网页布局中的位置,确定各模块的位置得分,并计算各模块的文本长度;提取各模块包含的链接地址,统计所有链接地址中除协议字符外使用频率最高的字符内容,将包含所述使用频率最高的字符内容的各链接地址标记为有效链接,将不包含所述使用频率最高的字符内容的各链接地址标记为无效链接;根据综合得分=模块的位置得分×(模块的文本长度+模块内有效链接的文字长度)/模块内无效链接的文字长度,确定各模块的综合得分,并判定综合得分超过设定阈值的模块为内容模块。

【技术特征摘要】
1.一种文本内容提取方法,其特征在于,包括 将输入的超文本标记语言HTML网页分解为多个模块,根据各模块在网页布局中的位置,确定各模块的位置得分,并计算各模块的文本长度; 提取各模块包含的链接地址,统计所有链接地址中除协议字符外使用频率最高的字符内容,将包含所述使用频率最高的字符内容的各链接地址标记为有效链接,将不包含所述使用频率最高的字符内容的各链接地址标记为无效链接; 根据综合得分=模块的位置得分X (模块的文本长度+模块内有效链接的文字长度)/模块内无效链接的文字长度,确定各模块的综合得分,并判定综合得分超过设定阈值的模块为内容模块。2.如权利要求1所述的方法,其特征在于,所述方法中,使用Table标签或Div标签将输入的HTML网页分解为多个模块。3.如权利要求2所述的方法,其特征在于,所述方法中,若分解得到的模块还能够继续分解且未出现标签混杂的情况,则对分解后的模块继续分解。4.如权利要求1所述的方法,其特征在于,所述方法中,在标记有效链接和无效链接时,统一计算各链接内的文字长度;或者,在确定各模块的综合得分时,分别计算各模块包含的每个链接内的文字长度。5.如权利要求1至4中任一项所述的方法,其特征在于, 所述方法中,计算各模块的文本长度具体包括对于每个模块,提取出模块的HTML标签,根据所述HTML标签获取对应模块中包含的文本信息,计算该文本信息的长度,得到对应模块的文本长度; 所述方法中,通过achor标签提取出各模块的链接地址。6.一种文本内容提取装置,其特征在于,包括 网页处理单元,用于将输...

【专利技术属性】
技术研发人员:叶伟
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1