【技术实现步骤摘要】
201610189222
【技术保护点】
一种基于模糊逻辑的网页页面正文抽取方法,其特征在于,包括:读取网页页面的内容;统计网页页面中的行块字符数;统计网页页面中的行块超链接数;基于模糊逻辑推理进行参数模糊化和规则推理,并通过解模糊算法输出行块正文概率值;判断所述行块正文概率值是否大于预设正文概率阈值,若是,则:输出行块正文概率值大于预设正文概率阈值所在的行块的内容。
【技术特征摘要】
1.一种基于模糊逻辑的网页页面正文抽取方法,其特征在于,包括:读取网页页面的内容;统计网页页面中的行块字符数;统计网页页面中的行块超链接数;基于模糊逻辑推理进行参数模糊化和规则推理,并通过解模糊算法输出行块正文概率值;判断所述行块正文概率值是否大于预设正文概率阈值,若是,则:输出行块正文概率值大于预设正文概率阈值所在的行块的内容。2.根据权利要求1所述的方法,其特征在于,所述统计网页页面中的行块字符数具体为:过滤网页页面的HTML标签和JS脚本,得到网页纯文本;依据字符数隶属度函数统计每个行块所包含的文本数;其中:SC表示少字符数、MC表示中字符数、LC表示多字符数。3.根据权利要求2所述的方法,其特征在于,所述统计网页页面中的行块超链接数具体为:依据超链接数隶属度函数统计网页页面对应行块的超级链接数目;其中:SL表示少超链接数、ML表示中超链接数、LL表示多超链接数。4.根据权利要求3所述的方法,其特征在于,所述基于模糊逻辑推理进行参数模糊化和规则推理具体为:依据预设的规则库,根据所述行块字符数和行块超链接数输出正文概率。5.根据权利要求4所述的方法,其特征在于,所述通过解模糊算法输出行块正文概率值具体为:依据公式μC'(z)的加权平均值为z的清晰值,输出行块正文概率值。6.一种基于模糊逻辑的网页页面正文抽取系统,其特征在于...
【专利技术属性】
技术研发人员:赵维平,钟新斌,张勇,曹震,王鑫毅,
申请(专利权)人:中国农业银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。