基于统计规则的族群网页正文提取方法及系统技术方案

技术编号:36084961 阅读:12 留言:0更新日期:2022-12-24 11:00
本发明专利技术提供了一种基于统计规则的族群网页正文提取方法及系统,以网页族群的形式获取一组待处理网页,得到网页族群列表;遍历网页族群列表,提取每个网页的原始HTML代码,形成HTML代码列表;遍历HTML代码列表,提取每个网页中的所有文本内容,根据HTML结构,将全部网页的各长文本转化为短文本字符串列表,并保留文本顺序;其中,各短文本字符串列表均属于整个网页族群的文本列表集合;遍历文本列表集合并对每个短文本字符串列表定位起始位置和结束位置;选取从起始位置到结束位置的文本,输出正文文本列表;本发明专利技术无需人工参与,无需特殊规则,能够提取不同形式的网页文本,极大的提高了提取精度和提取效率。提高了提取精度和提取效率。提高了提取精度和提取效率。

【技术实现步骤摘要】
基于统计规则的族群网页正文提取方法及系统


[0001]本专利技术涉及信息检索
,特别涉及一种基于统计规则的族群网页正文提取方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]网页正文文本内容提取是网页内容解析的前期工作。网页为了更好地展示,通常会包含很多与正文无关的信息,例如网址导航列表,网站标题,版权标志,等等。上述这些信息能够提供更好的浏览体验,但是这些信息对网页解析系统是无用且有干扰的。如果不能在前期,对以HTML形式保存的网页信息进行预处理(即抽取网页的正文文本),文本解析系统会面对大量无用且杂乱的文本,并且这些文本长度甚至可以超过正文文本本身,既增加了计算成本,也对解析效果造成一定的影响。
[0004]对于网页正文文本抽取的工作现阶段进展丰富:专利号CN111966901A公开了一种政策类网页正文提取方法、系统、设备及存储介质,其通过HTML源码判断正文位置;专利号CN110795933A公开了一种网页正文的识别处理方法及装置,其使用文字区块中的文字数量来判断正文位置;专利号CN109948089A公开了一种提取网页正文的方法及装置,其采用神经网络方法来抽取网页正文;专利号CN105183801A提供了一种网页正文抽取方法及装置,其使用HTML中的特殊结构和人工规则来判断网页正文位置。
[0005]专利技术人发现,上述方法无论是基于规则还是基于数理统计的方法,都存在一个固有的缺点,只适用于特定网页或者HTML结构规范的网页;虽然上述方法对于一些门户网站的网页正文提取十分有效,但是在实际情况中,互联网中大部分网页的HTML结构形式复杂,且不规范,往往无法实现有效的提取。

技术实现思路

[0006]为了解决现有技术的不足,本专利技术提供了一种基于统计规则的族群网页正文提取方法及系统,无需人工参与,无需特殊规则,能够提取不同形式的网页文本,且能够保留网页文本的基本顺序结构,极大的提高了提取精度和提取效率。
[0007]为了实现上述目的,本专利技术采用如下技术方案:
[0008]本专利技术第一方面提供了一种基于统计规则的族群网页正文提取方法。
[0009]一种基于统计规则的族群网页正文提取方法,包括以下过程:
[0010]以网页族群的形式获取一组待处理网页,得到网页族群列表;
[0011]遍历网页族群列表,提取每个网页的原始HTML代码,形成HTML代码列表;
[0012]遍历HTML代码列表,提取每个网页中的所有文本内容,根据HTML结构,将全部网页的各长文本转化为短文本字符串列表,并保留文本顺序;其中,各短文本字符串列表均属于整个网页族群的文本列表集合;
[0013]建立去重字典,去重字典的键为文本字符串,去重字典的值为字符串在整个网页
族群出现的次数,遍历文本列表集合并对每个短文本字符串列表去除重复的字符串,得到去重后的短文本字符串列表,并依此填充去重字典;
[0014]字符串在去重字典中对应的值大于设定阈值则被剔除,否则字符串被保留;
[0015]遍历文本列表集合并对每个短文本字符串列表定位起始位置和结束位置;
[0016]选取从起始位置到结束位置的文本,输出正文文本列表。
[0017]作为可选的一种实现方式,以网站导航栏内容为依据划定网页族群。
[0018]作为可选的一种实现方式,遍历并填充后的去重字典代表每个字符串在整个网页族群中出现的次数。
[0019]作为可选的一种实现方式,遍历文本列表集合并对每个短文本字符串列表定位起始位置,包括:
[0020]从头开始遍历短文本字符串列表,对短文本字符串列表中每个字符串在去重字典中查找出现次数,直到找到则j位置则为正文起始位置,其中,t为设定阈值。
[0021]作为可选的一种实现方式,遍历文本列表集合并对每个短文本字符串列表定位结束位置,包括:
[0022]从尾部开始遍历短文本字符串列表,对短文本字符串列表中每个字符串在去重字典中查找出现次数,直到找到则j位置则为正文结束位置,其中,t为设定阈值。
[0023]作为可选的一种实现方式,遍历文本列表集合并对每个短文本字符串列表定位起始位置和结束位置,包括:
[0024]遍历短文本字符串列表,去除在去重字典中对应的值大于设定阈值的字符串,并保留原始字符串顺序;
[0025]选择去重后的字符串数据组的第一个字符串在原始文本中的位置作为正文起始位置,选择去重后的字符串数据组的最后一个字符串在原始文本中的位置作为正文结束位置。
[0026]作为可选的一种实现方式,当需要以文本的形式输出正文时,使用特殊分隔符进行文本分割。
[0027]本专利技术第二方面提供了一种基于统计规则的族群网页正文提取系统。
[0028]一种基于统计规则的族群网页正文提取系统,包括:
[0029]网页族群列表生成模块,被配置为:以网页族群的形式获取一组待处理网页,得到网页族群列表;
[0030]HTML代码列表生成模块,被配置为:遍历网页族群列表,提取每个网页的原始HTML代码,形成HTML代码列表;
[0031]文本内容提取模块,被配置为:遍历HTML代码列表,提取每个网页中的所有文本内容,根据HTML结构,将全部网页的各长文本转化为短文本字符串列表,并保留文本顺序;其中,各短文本字符串列表均属于整个网页族群的文本列表集合;
[0032]去重字典填充模块,被配置为:建立去重字典,去重字典的键为文本字符串,去重字典的值为字符串在整个网页族群出现的次数,遍历文本列表集合并对每个短文本字符串
列表去除重复的字符串,得到去重后的短文本字符串列表,并依此填充去重字典;
[0033]字符串筛选模块,被配置为:字符串在去重字典中对应的值大于设定阈值则被剔除,否则字符串被保留;
[0034]起止位置确定模块,被配置为:遍历文本列表集合并对每个短文本字符串列表定位起始位置和结束位置;
[0035]正文文本输出模块,被配置为:选取从起始位置到结束位置的文本,输出正文文本列表。
[0036]本专利技术第三方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本专利技术第一方面所述的基于统计规则的族群网页正文提取方法中的步骤。
[0037]本专利技术第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如第一方面所述的基于统计规则的族群网页正文提取方法中的步骤。
[0038]与现有技术相比,本专利技术的有益效果是:
[0039]1、本专利技术所述的基于统计规则的族群网页正文提取方法及系统,无需人工参与,无需特殊规则,能够提取不同形式的网页文本,且能够保留网页文本的基本顺序结构,极大的提高了提取精度和提取效率。
[0040]2、本专利技术所述的基于统计规则的族群网页正文提取方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于统计规则的族群网页正文提取方法,其特征在于:包括以下过程:以网页族群的形式获取一组待处理网页,得到网页族群列表;遍历网页族群列表,提取每个网页的原始HTML代码,形成HTML代码列表;遍历HTML代码列表,提取每个网页中的所有文本内容,根据HTML结构,将全部网页的各长文本转化为短文本字符串列表,并保留文本顺序;其中,各短文本字符串列表均属于整个网页族群的文本列表集合;建立去重字典,去重字典的键为文本字符串,去重字典的值为字符串在整个网页族群出现的次数,遍历文本列表集合并对每个短文本字符串列表去除重复的字符串,得到去重后的短文本字符串列表,并依此填充去重字典;字符串在去重字典中对应的值大于设定阈值则被剔除,否则字符串被保留;遍历文本列表集合并对每个短文本字符串列表定位起始位置和结束位置;选取从起始位置到结束位置的文本,输出正文文本列表。2.如权利要求1所述的基于统计规则的族群网页正文提取方法,其特征在于:以网站导航栏内容为依据划定网页族群。3.如权利要求1所述的基于统计规则的族群网页正文提取方法,其特征在于:遍历并填充后的去重字典代表每个字符串在整个网页族群中出现的次数。4.如权利要求1所述的基于统计规则的族群网页正文提取方法,其特征在于:遍历文本列表集合并对每个短文本字符串列表定位起始位置,包括:从头开始遍历短文本字符串列表,对短文本字符串列表中每个字符串在去重字典中查找出现次数,直到找到则j位置则为正文起始位置,其中,t为设定阈值。5.如权利要求1所述的基于统计规则的族群网页正文提取方法,其特征在于:遍历文本列表集合并对每个短文本字符串列表定位结束位置,包括:从尾部开始遍历短文本字符串列表,对短文本字符串列表中每个字符串在去重字典中查找出现次数,直到找到则j位置则为正文结束位置,其中,t为设定阈值。6.如权利要求1所述的基于统计规则的族群网页正文提取方法,其特征在于:遍历文本列表集合并对每个短文本字符串列表定位起始位置和结束位置,包括:遍历短文本字符串列表,去除在去重字典...

【专利技术属性】
技术研发人员:陈通展一鸣李晓王瑞霜杨春纪丽萍
申请(专利权)人:山东亿云信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1