过滤网站内链的方法及装置制造方法及图纸

技术编号:12577516 阅读:61 留言:0更新日期:2015-12-23 17:07
本发明专利技术公开了一种过滤网站内链的方法及装置。该方法包括:提取指定网站的内链的设定特征;将所述内链的设定特征输入训练完成的设定机器学习模型中,对所述内链进行分类;根据分类结果,对所述内链进行过滤。本发明专利技术可以根据过滤结果过滤掉网站中的低质内链,保留网站中的高质内链,提高了指定网站的内链质量,提升用户的体验。

【技术实现步骤摘要】

本专利技术实施例设及内链优化技术,尤其设及一种过滤网站内链的方法及装置
技术介绍
内链是指在同一网站域名下的内容页面之间的相互链接,合理的网站内链构造能 够提高捜索引擎的收录与网站权重,增加日均访问量,提升整体访问量。与此同时,构造内 链时需要尊重用户体验,还要注意链接的相关性,相关性高的链接有助于提高捜索引擎收 录,并且有助于用户体验,进而提升网站的浏览量,相反,相关性较低、无意义的内链对点 击、页面拓扑关系影响不大,但影响用户体验,属于低质内链,降低了网站的内链质量。
技术实现思路
有鉴于此,本专利技术实施例提供一种过滤网站内链的方法及装置,W提高网站的内 链质量。 第一方面,本专利技术实施例提供了一种过滤网站内链的方法,所述方法包括: 提取指定网站的内链的设定特征; 将所述内链的设定特征输入训练完成的设定机器学习模型中,对所述内链进行分 类; 根据分类结果,对所述内链进行过滤。 第二方面,本专利技术实施例还提供了一种过滤网站内链的装置,所述装置包括: 特征提取模块,用于提取指定网站的内链的设定特征; 内链分类模块,用于将所述内链的设定特征输入训练完成的设定机器学习模型 中,对所述内链进行分类; 内链过滤模块,用于根据分类结果,对所述内链进行过滤。 本专利技术实施例提供的过滤网站内链的方法及装置,通过提取指定网站的内链的设 定特征,将所述内链的设定特征输入训练完成的设定机器学习模型中,对所述内链进行分 类,根据分类结果对所述内链进行过滤,可W根据过滤结果保留网站中的高质内链,提高了 指定网站的内链质量。【附图说明】 图1是本专利技术实施例一提供的一种过滤网站内链的方法的流程图; 图2是本专利技术实施例二提供的一种过滤网站内链的方法的流程图; 图3是本专利技术实施例S提供的一种过滤网站内链的方法的流程; 图4是本专利技术实施例提供的过滤网站内链的方法中的随机森林中的决策树的示 例图; 图5是本专利技术实施例四提供的一种过滤网站内链的装置的结构示意图。【具体实施方式】 下面结合附图和实施例对本专利技术作进一步的详细说明。可W理解的是,此处所描 述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便 于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。[001引实施例一 图1是本专利技术实施例一提供的一种过滤网站内链的方法的流程图,本实施例可适 用于对指定网站的内链进行过滤的情况,该方法可W由计算机来执行,具体包括如下: S110,提取指定网站的内链的设定特征。 提取指定网站(如百度百科)的内链的设定特征,所述设定特征可W包括与内链 文本有关的特征或与内链的链接抓L Uniform Resource Locator,统一资源定位符)有关 的特征等,即内链的设定特征要能反映出内链的质量高低的性质。 其中,所述设定特征优选包括:专名识别特征、内链页面的日均访问量特征、内链 文本的tfidf特征、内链文本的分类特征、内链的链接URL真实性特征和实体相似度特征。 可W从内链文本或内链的内链URL中提取,也可W是基于该内链的其他统计信息。 专名识别特征是指识别内链文本中具有特定意义的实体,主要包括人名、地名、或 机构名等。表1是利用专名识别工具识别的例子。对于识别结果为NOR及PHRASE的内链 文本为低质内链的可能性较大,表2展示了部分内链文本的专名识别结果。 表1利用专名识别工具识别例子[002引表2部分内链文本的专名识别结果 内链页面的日均访问量特征可W反映出人们对相关页面的关注情况,一般情况下 曰均访问量较低的内链页面往往是人们不太关注的低质内链,表3展示了部分内链的曰均 访问量特征。 表3部分内链的日均访问量特征 内链文本的tfi壯特征:tfi壯是一种统计方法,用W评估一字词对于一个文件集 或一个语料库中的其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成 正比增加,但同时也随着它在语料库中出现的频率成反比下降。tfi壯的主要思想是,如果 某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者 短语具有很好的类别区分能力,适合用来分类。其中,tfi壯实际上是tf*i壯,其中,tf(term frequency,词频)表不词条在文档中出现的频率,i壯(inversedo州mentfrequency,逆向 文件频率)主要思想是如果包含一个词条的文档越少,i壯越大,说明该词条具有很好的类 别区分能力,tfi壯值的高低代表类别区分能力的高低。表4展示了部分内链的tfi壯特 征。 表4部分内链的tfi壯特征 内链文本的分类特征:内链文本的分类可W作为一维特征,一般情况下,较为热口 的分类(如成语、古代官职等具有实际意义的分类)一般属于高质内链。具体对内链文本 进行分类时,可W获取字典的分类结果。表5展示了部分内链的内链文本的分类特征。 表5部分内链的内链文本的分类特征 内链的链接U化真实性特征,通过判断内链的链接U化是否存在于网站内部的U化 列表中,且该内链的链接U化是否唯一,得到内链的链接m?L是否真实存在。有些内链的链 接u化并不存在于网站内部u化列表中,运种内链判断为低质内链;有些内链的链接u化并 不唯一(如百度百科中的有些内链的链接U化会有多个义项),运种内链也判断为低质内 链。表6展示了部分内链的链接U化真实性特征。 表6部分内链的链接U化真实性特征 实体相似度特征,是指内链实体与源页面实体之间的相似性。内链实体与源页面 实体之间的相似性高低可W反映该内链与源页面的相关性大小,相关性低的内链可W认为 是低质内链。其中,内链实体即内链文本,源页面实体即源页面文本。表7展示了部分内链 的实体相似度特征: 表7部分内链的实体相似度特征 S120,将所述内链的设定特征输入训练完成的设定机器学习模型中,对所述内链 进行分类。 根据所述内链的设定特征,利用设定机器学习模型对所述内链进行分类,将所述 内链分类为高质内链和低质内链。在运之前,首先利用已知结果的大量样本对设定机器学 习模型进行训练,得到训练完成的设定机器学习模型,W使得设定机器学习模型的分类结 果最优。 所述设定机器学习模型优选包括随机森林模型或SVM(SuppcxrtVectorMachine, 支持向量机)模型。其中,随机森林模型,在机器学习中,是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定;SVM在机器学习中是一个有监督的 学习模型,通常用来进行模式识别、分类W及回归分析。 在将所述内链的设定特征输入训练完成的设定机器学习模型之前,首先要获取所 述内链的设定特征的特征值。对于专名识别特征的特征值可w将识别到的不同结果定义为 不同的数值,并设定阔值,超过阔值或者低于阔值的为低质内链;对于内链的文本的分类特 征的特征值,可W将不同的分类定义为不同的数值,并设定相应的阔值,超过阔值或者低于 阔值的为低质内链。对于内链页面的日均访问量特征,设定阔值,超过阔值的为高质内链; 对于内链文本的tfi壯特征可W用tfi壯值表示,并设定阔值,超过阔值的为高质内链;对 于内链的链接U化真实性特征的特征值可W用0表示是,用1表示否则特征值为0代表高 质内链对于实体相似度特征,设定相似度阔值,本文档来自技高网...

【技术保护点】
一种过滤网站内链的方法,其特征在于,所述方法包括:提取指定网站的内链的设定特征;将所述内链的设定特征输入训练完成的设定机器学习模型中,对所述内链进行分类;根据分类结果,对所述内链进行过滤。

【技术特征摘要】

【专利技术属性】
技术研发人员:王波门阳阳陈琳李浩
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1