一种基于模糊逻辑的网页页面正文抽取方法及系统技术方案

技术编号:13537492 阅读:76 留言:0更新日期:2016-08-17 10:41
本发明专利技术公开了一种基于模糊逻辑的网页页面正文抽取方法,包括:读取网页页面的内容;统计网页页面中的行块字符数;统计网页页面中的行块超链接数;基于模糊逻辑推理进行参数模糊化和规则推理,并通过解模糊算法输出行块正文概率值;判断所述行块正文概率值是否大于预设正文概率阈值,若是,则:输出行块正文概率值大于预设正文概率阈值所在的行块的内容。本发明专利技术无需针对特定的网页页面配置模板等监督规则,即可以准确识别网页页面中的正文内容,实现高效、通用的网页页面正文抽取。本发明专利技术还公开了一种基于模糊逻辑的网页页面正文抽取系统。

【技术实现步骤摘要】
201610189222

【技术保护点】
一种基于模糊逻辑的网页页面正文抽取方法,其特征在于,包括:读取网页页面的内容;统计网页页面中的行块字符数;统计网页页面中的行块超链接数;基于模糊逻辑推理进行参数模糊化和规则推理,并通过解模糊算法输出行块正文概率值;判断所述行块正文概率值是否大于预设正文概率阈值,若是,则:输出行块正文概率值大于预设正文概率阈值所在的行块的内容。

【技术特征摘要】
1.一种基于模糊逻辑的网页页面正文抽取方法,其特征在于,包括:读取网页页面的内容;统计网页页面中的行块字符数;统计网页页面中的行块超链接数;基于模糊逻辑推理进行参数模糊化和规则推理,并通过解模糊算法输出行块正文概率值;判断所述行块正文概率值是否大于预设正文概率阈值,若是,则:输出行块正文概率值大于预设正文概率阈值所在的行块的内容。2.根据权利要求1所述的方法,其特征在于,所述统计网页页面中的行块字符数具体为:过滤网页页面的HTML标签和JS脚本,得到网页纯文本;依据字符数隶属度函数统计每个行块所包含的文本数;其中:SC表示少字符数、MC表示中字符数、LC表示多字符数。3.根据权利要求2所述的方法,其特征在于,所述统计网页页面中的行块超链接数具体为:依据超链接数隶属度函数统计网页页面对应行块的超级链接数目;其中:SL表示少超链接数、ML表示中超链接数、LL表示多超链接数。4.根据权利要求3所述的方法,其特征在于,所述基于模糊逻辑推理进行参数模糊化和规则推理具体为:依据预设的规则库,根据所述行块字符数和行块超链接数输出正文概率。5.根据权利要求4所述的方法,其特征在于,所述通过解模糊算法输出行块正文概率值具体为:依据公式μC'(z)的加权平均值为z的清晰值,输出行块正文概率值。6.一种基于模糊逻辑的网页页面正文抽取系统,其特征在于...

【专利技术属性】
技术研发人员:赵维平钟新斌张勇曹震王鑫毅
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1