【技术实现步骤摘要】
一种基于逻辑链接块的网页正文抽取方法
本专利技术属于计算机
,涉及一种网页正文抽取方法,具体涉及一种应用于各类新闻、博客或具有类似结构的基于逻辑链接块的网页正文抽取模板的抽取方法(ContentExtractionbasedonLogicalLinkBlocks,CELLB)。
技术介绍
网页信息抽取是指根据具体的分析和应用需求,从网页中抽取特定的信息内容。这些特定的信息内容既包括直接来自于网页中的某些浅层内容,也包括基于网页的特定分析而形成的深层内容。网页正文抽取是该研究的主要方向之一,其研究历史较长,相关方法众多。文献1将网页的抽取方法总结为基于Wrapper、模板、机器学习、视觉布局特征、HTML特征等五类,其中Wrapper和模板法的通用性一般认为较差,且一般需要人工参与,并需要更新维护,极为耗时费力,鉴于此,无需模板支持或人工监督的Wrapper算法([文献2-4])被提出来,并取得了较好的效果;机器学习的方法需要借助合适的训练集和适量的特征([文献5-6]),且难以完全脱离人工监督;利用视觉布局特征的方法的典型代表即VIPS及类似方法([文献7- ...
【技术保护点】
1.一种基于逻辑链接块的网页正文抽取方法,其特征在于,包括以下步骤:步骤1:生成网页正文抽取模板;步骤1.1:输入待生成模板的网址URL0;步骤1.2:获取网址URL0所对应网页的源代码HTML0,并提取其中所有的同域网址,记为URLList;步骤1.3:利用网址相似度规则RuleURL,从URLList中优选与URL0相似度高的前s个网址,并形成相似网址列表URLs;步骤1.4:获取相似网址列表URLs中各网址的源代码,记为HTML1、HTML2、...、HTMLs,构成HTMLList0;步骤1.5:识别并去除HTMLList0中所有源代码的逻辑链接块,形成新的源代码列 ...
【技术特征摘要】
1.一种基于逻辑链接块的网页正文抽取方法,其特征在于,包括以下步骤:步骤1:生成网页正文抽取模板;步骤1.1:输入待生成模板的网址URL0;步骤1.2:获取网址URL0所对应网页的源代码HTML0,并提取其中所有的同域网址,记为URLList;步骤1.3:利用网址相似度规则RuleURL,从URLList中优选与URL0相似度高的前s个网址,并形成相似网址列表URLs;步骤1.4:获取相似网址列表URLs中各网址的源代码,记为HTML1、HTML2、...、HTMLs,构成HTMLList0;步骤1.5:识别并去除HTMLList0中所有源代码的逻辑链接块,形成新的源代码列表,记为HTMLList,同时对其中各网页执行网页元素化操作;若是针对压缩过的网页,则对其执行网页原子化操作;步骤1.6:按模糊正文区域识别规则RuleText识别HTMLList中各网页的模糊正文区域a1、a2、…、as,记为A={a1,a2,…,as};进而获取各模糊正文区域中的文本长度lt1、lt2、…、lts,记为LT={lt1,lt2,…,lts};步骤1.7:利用相似网址计分规则RuleScore完成对相似网址列表URLs进行优选,取其排名前c的c个网址构成候选链接URLc;若c>s,则c取和s相同的值;步骤1.8:根据模糊正文区域A及候选链接URLc中各页面元素化后的结果,分别求解各页面模糊正文之前元素和之后元素的交集Eitrs,First,Eitrs,Last;步骤1.9:根据首元素判别规则RuleFirst确定模板首元素EFirst,根据尾元素判别规则RuleLast确定模板尾元素ELast;步骤1.10:根据需求选用合适的算法,生成URL0的指纹URLFinger,从而确定URL0所对应网页的正文抽取模板(URLFinger,EFirst,ELast),对抽取的模板进行存储;步骤2:利用正文抽取模板,完成对网页正文的抽取。2.根据权利要求1所述的基于逻辑链接块的网页正文抽取方法,其特征在于,步骤1.3中所述网址相似度规则RuleURL的具体实现过程是:设当前处理网页的网址为参考网址,记为url,从该网页提取的同域网址为URL={url1,url2,…,urld},其中d表示url对应网页中的同域网址数,则第i个网址与参考网址url的相似度为:其中,lcs()表示计算最长公共子字符串,Len()表示计算字符串长度。3.根据权利要求1所述的基于逻辑链接块的网页正文抽取方法,其特征在于,步骤1.5中所述对其中各网页执行网页元素化或原子化操作的具体实现过程是:步骤1.5.1:网页原子化;将网页代码转换为HTML构件表达:H={e1,e2,…,ef},H表示网页,f=Card(H)为网页构件集合中构件总数,Card()表示计算集合中元素个数;所述HTML构件是指构成HTML的基本要素,包括标签构件、内容构件,构件也称为原子,记为ei,e表示构件,i表示构件的序号;步骤1.5.2:网页元素化;将网页代码转换为复合构件表达:H={E1,E2,…,Em},H表示网页,m为网页HTML代码按照划分规则划分后的复合构件数;所述复合构件是由若干邻接的构件复合而成,也称为元素,记为Ei={ep,…,eq},q≥p;Ei表示网页元素化后的第i个复合构件,当p=q时,复合构件退化为构件;当p=1,q=f时,复合构件即整个网页。4.根据权利要求3所述的基于逻辑链接块的网页正文抽取方法,其特征在于:步骤1.5.2中所述划分规则,网页元素化的划分标记采用回车换行符,即利用网页HTML代码中的回车换行符即可将网页元素化,此时HTML中的每一行即称为行元素。5.根据权利要求3所述的基于逻辑链接块的网页正文抽取方法,其特征在于,步...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。