基于统计规则的族群网页正文提取方法及系统技术方案

技术编号:36084961 阅读:28 留言:0更新日期:2022-12-24 11:00
本发明专利技术提供了一种基于统计规则的族群网页正文提取方法及系统,以网页族群的形式获取一组待处理网页,得到网页族群列表;遍历网页族群列表,提取每个网页的原始HTML代码,形成HTML代码列表;遍历HTML代码列表,提取每个网页中的所有文本内容,根据HTML结构,将全部网页的各长文本转化为短文本字符串列表,并保留文本顺序;其中,各短文本字符串列表均属于整个网页族群的文本列表集合;遍历文本列表集合并对每个短文本字符串列表定位起始位置和结束位置;选取从起始位置到结束位置的文本,输出正文文本列表;本发明专利技术无需人工参与,无需特殊规则,能够提取不同形式的网页文本,极大的提高了提取精度和提取效率。提高了提取精度和提取效率。提高了提取精度和提取效率。

【技术实现步骤摘要】
基于统计规则的族群网页正文提取方法及系统


[0001]本专利技术涉及信息检索
,特别涉及一种基于统计规则的族群网页正文提取方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]网页正文文本内容提取是网页内容解析的前期工作。网页为了更好地展示,通常会包含很多与正文无关的信息,例如网址导航列表,网站标题,版权标志,等等。上述这些信息能够提供更好的浏览体验,但是这些信息对网页解析系统是无用且有干扰的。如果不能在前期,对以HTML形式保存的网页信息进行预处理(即抽取网页的正文文本),文本解析系统会面对大量无用且杂乱的文本,并且这些文本长度甚至可以超过正文文本本身,既增加了计算成本,也对解析效果造成一定的影响。
[0004]对于网页正文文本抽取的工作现阶段进展丰富:专利号CN111966901A公开了一种政策类网页正文提取方法、系统、设备及存储介质,其通过HTML源码判断正文位置;专利号CN110795933A公开了一种网页正文的识别处理方法及装置,其使用文字区块本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于统计规则的族群网页正文提取方法,其特征在于:包括以下过程:以网页族群的形式获取一组待处理网页,得到网页族群列表;遍历网页族群列表,提取每个网页的原始HTML代码,形成HTML代码列表;遍历HTML代码列表,提取每个网页中的所有文本内容,根据HTML结构,将全部网页的各长文本转化为短文本字符串列表,并保留文本顺序;其中,各短文本字符串列表均属于整个网页族群的文本列表集合;建立去重字典,去重字典的键为文本字符串,去重字典的值为字符串在整个网页族群出现的次数,遍历文本列表集合并对每个短文本字符串列表去除重复的字符串,得到去重后的短文本字符串列表,并依此填充去重字典;字符串在去重字典中对应的值大于设定阈值则被剔除,否则字符串被保留;遍历文本列表集合并对每个短文本字符串列表定位起始位置和结束位置;选取从起始位置到结束位置的文本,输出正文文本列表。2.如权利要求1所述的基于统计规则的族群网页正文提取方法,其特征在于:以网站导航栏内容为依据划定网页族群。3.如权利要求1所述的基于统计规则的族群网页正文提取方法,其特征在于:遍历并填充后的去重字典代表每个字符串在整个网页族群中出现的次数。4.如权利要求1所述的基于统计规则的族群网页正文提取方法,其特征在于:遍历文本列表集合并对每个短文本字符串列表定位起始位置,包括:从头开始遍历短文本字符串列表,对短文本字符串列表中每个字符串在去重字典中查找出现次数,直到找到则j位置则为正文起始位置,其中,t为设定阈值。5.如权利要求1所述的基于统计规则的族群网页正文提取方法,其特征在于:遍历文本列表集合并对每个短文本字符串列表定位结束位置,包括:从尾部开始遍历短文本字符串列表,对短文本字符串列表中每个字符串在去重字典中查找出现次数,直到找到则j位置则为正文结束位置,其中,t为设定阈值。6.如权利要求1所述的基于统计规则的族群网页正文提取方法,其特征在于:遍历文本列表集合并对每个短文本字符串列表定位起始位置和结束位置,包括:遍历短文本字符串列表,去除在去重字典...

【专利技术属性】
技术研发人员:陈通展一鸣李晓王瑞霜杨春纪丽萍
申请(专利权)人:山东亿云信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1