一种网页信息一致性的识别方法及装置制造方法及图纸

技术编号:10409019 阅读:87 留言:0更新日期:2014-09-10 18:14
本发明专利技术实施例公开了一种网页信息一致性的识别方法及装置,其中的识别方法包括:从数据库中获取第一类网页信息;从网页信息中提取出标题信息和属性信息,并分别进行切词分析得到描述对象的属性;统计每一个属性包含的属性值以及所述描述对象所属类目下的共现信息;从属性值中去除所述共现信息中的属性值,得到每一个属性包含的矛盾属性值;判断被识别网页信息中标题信息和属性信息的属性值是否为所述描述对象的同一属性下的矛盾属性值;如果是,确定被识别网页信息不一致,否则,确定被识别网页信息一致。根据本申请实施例,可以识别网页信息一致性,提高识别效率。

【技术实现步骤摘要】
一种网页信息一致性的识别方法及装置
本专利技术涉及计算机应用
,特别是涉及一种网页信息一致性的识别方法和装置。
技术介绍
在第三方购物平台上,卖家用户通过平台发布产品网页,买家用户通过平台上的搜索引擎在卖家发布的网页中查找满足特定的搜索条件的网页,搜索引擎将这些符合特定的搜索条件的网页以搜索结果的形式展示给买家用户,该搜索结果即为各个符合特定的搜索条件的产品网页的链接集合,在产品网页的链接上,一般包含产品标题信息和产品图片,当买家浏览各链接上的产品标题信息和产品图片而对某个链接感兴趣时,会进一步决定点击该链接并详细查看该链接对应的产品网页。由于买家用户在浏览搜索的产品网页信息时,对产品标题信息感兴趣才会进一步的点击查看产品的详情。因此,为了获取更多的曝光机会,一些卖家用户在发布网页时,故意发布产品标题信息和产品属性信息不一致的网页信息。例如:当买家对链接中产品标题信息为“韩版女装秋装羊毛外套”的产品感兴趣时,就会点击该链接查看产品网页的详情,当点击进去之后发现该产品属性信息为“欧美、女装、冬装、棉外套”,与产品标题信息不一致,并不是买家想买的产品。另外,当买家用户通过搜索引擎查找满足特定的搜索条件的产品网页时,搜索引擎也会基于网页信息对作为搜索结果的网页进行排序。因此,有些卖家用户为了使其发布的产品网页成为搜索引擎的搜索结果,或者,为了使其发布的产品网页在作为搜索结果时排在前面以获得更多曝光机会,也很有可能在第三方购物平台上发布产品标题信息与产品属性信息不一致的产品网页信息。受到这些产品标题信息和产品属性信息不一致的网页信息的影响,在产品搜索时,一方面,搜索引擎反馈给用户的搜索结果中可能包括产品信息不一致的网页信息;另一方面,搜索引擎还有可能在排序时将包含产品信息不一致的网页信息的网页排在整个搜索结果的前面部分。上述两种情况都将严重影响搜索引擎的搜索质量,同时也降低了用户体验。另外,对于其他的网站平台也会存在信息不一致的现象,比如视频网站,一般视频网站中包括:电影、音乐、电视剧和动漫等视频,而视频在网页信息中都有其标题信息和属性信息,例如:对于电影就有标题信息和影片介绍信息,其中影片介绍信息也就是电影的属性信息。视频网站上既有上传电影视频的用户(即“上传用户”),也有搜索、浏览并下载电影视频的用户(即“下载用户”),上传用户为了得到更多的曝光机会,填写的标题信息和属性信息会存在不一致的现象,这种不一致的网页信息同样会影响视频网站搜索引擎的搜索质量,进而就影响下载用户的搜索体验。为了提高搜索引擎的搜索质量,现有技术通过计算网页信息中产品标题信息和产品属性信息之间的相关性,根据相关性大小识别网页信息是否前后一致,当相关性数值低于预设的阈值时,识别出产品标题信息与产品属性信息不一致;否则,识别出产品标题信息与产品属性信息一致。由于相关性计算处理的精确度很低,导致识别结果的准确性也不高。基于现有技术中存在的上述技术问题,目前迫切需要提供一种在第三方购物平台中识别网页信息一致性的方法,以提高识别的准确性。
技术实现思路
为了解决上述技术问题,本专利技术实施例中提供的一种网页信息一致性的识别方法及装置,可以识别出网页信息是否一致性,提高识别的工作效率,同时,也提高了搜索引擎的搜索质量。本申请实施例公开了如下技术方案:一种网页信息一致性的识别方法,包括:从数据库中获取第一类网页信息,所述第一类网页信息与被识别的网页信息的描述对象相同且位于相同类目中;从所述第一类网页信息中提取出标题信息和属性信息;对所述标题信息和属性信息分别进行切词,得到所述描述对象的属性;统计所述描述对象的属性中每一个属性包含的属性值以及所述描述对象所属类目的共现信息;从所述属性值中去除所述共现信息中的属性值,得到描述对象的同一属性下的矛盾属性值;判断被识别的网页信息中标题信息和属性信息的属性值是否为所述描述对象的同一属性下的矛盾属性值;如果是,确定所述被识别的网页信息不一致,否则,确定所述被识别的网页信息一致。优选的,采用语义分析工具对所述标题信息和属性信息分别进行切词,得到所述描述对象的属性。优选的,所述对标题信息和属性信息分别进行切词,得到所述描述对象的属性之后,包括:计算所述描述对象的属性中每一个属性的权重值;从权重值最大的属性开始,按照权重值从大到小的顺序依次选择任意多个属性作为描述对象的重要属性。则,统计所述描述对象的属性中每一个属性包含的属性值以及所述描述对象所属类目的共现信息,具体为:统计所述描述对象的重要属性中每一个属性包含的属性值以及所述描述对象所属类目的共现信息。优选的,在识别出网页信息不一致之后,还包括:从搜索结果中过滤不一致的网页信息的网页链接,将过滤后的搜索结果反馈给客户端。优选的,在识别出网页信息不一致之后,还包括:在对搜索结果进行排序时,降低不一致的网页信息的网页链接排名。一种网页信息一致性的识别装置,包括:获取模块,用于从数据库中获取第一类网页信息,所述第一类网页信息与被识别的网页信息的描述对象相同且位于相同类目中;提取模块,用于从获取模块获取的第一类网页信息中提取出标题信息和属性信息;分析模块,用于对提取模块提取的标题信息和属性信息分布进行切词,得到所述描述对象的属性;统计模块,用于统计所述描述对象的属性中每一个属性包含的属性值以及所述描述对象所属类目的共现信息;剔除模块,用于从所述属性值中去除所述共现信息中的属性值,得到所述描述对象的同一属性下的矛盾属性值;判断模块,用于判断被识别的网页信息中标题信息和属性信息的属性值是否为所述描述对象的同一属性下的矛盾属性值;确定模块,用于当判断模块的结果为是时,确定所述被识别的网页信息不一致,否则,确定所述被识别的网页信息一致。优选的,所述分析模块包括语义分析工具调用子模块,用于调用语义分析工具对所述标题信息和属性信息分别进行切词,得到所述描述对象的属性。优选的,还包括:计算模块,用于计算所述描述对象的属性中每一个属性的权重值;选择模块,用于按照权重值从大到小的顺序依次选择任意多个属性作为描述对象的重要属性。则,统计模块具体为:用于统计所述描述对象的重要属性中的每一个属性包含的属性值以及所述描述对象所属类目的共现信息。优选的,还包括:过滤模块,用于从搜索结果中过滤不一致的网页信息的网页链接,将过滤后的搜索结果反馈给客户端。优选的,还包括:排序模块,用于在对搜索结果进行排序时,降低不一致的网页信息的网页链接排名。由上述实施例可以看出,从数据库中获取属于第一类网页信息,所述第一类网页信息与被识别的网页信息的描述对象相同且位于相同类目下;提取出描述对象的标题信息和属性信息,通过对提取出的标题信息和属性信息分别进行切词分析,得到所述描述对象的属性,统计每一个属性包含的属性值,并剔除所述描述对象所属类目的共现信息中的属性值,得到每一个属性包含的矛盾属性值,当识别网页信息一致性时,仅判断网页信息中描述对象的标题信息和属性信息中的属性值是否为所述描述对象的同一属性下的矛盾属性值,如果是,确定被识别网页信息不一致,否则,确定所述被识别网页信息一致,可见通过分析得到同一类目的描述对象的属性包含的矛盾属性值,可以识别出网页信息的一致性,由于描述对象的属性的矛盾属性值是真实信息,所以识本文档来自技高网
...
一种网页信息一致性的识别方法及装置

【技术保护点】
一种网页信息一致性的识别方法,其特征在于,包括:从数据库中获取第一类网页信息,所述第一类网页信息与被识别的网页信息的描述对象相同且位于相同类目中;从所述第一类网页信息中提取出标题信息和属性信息;对所述标题信息和属性信息分别进行切词,得到所述描述对象的属性;统计所述描述对象的属性中每一个属性包含的属性值以及所述描述对象所属类目的共现信息;从所述属性值中去除所述共现信息中的属性值,得到描述对象的同一属性下的矛盾属性值;判断被识别的网页信息中标题信息和属性信息的属性值是否为所述描述对象的同一属性下的矛盾属性值;如果是,确定所述被识别的网页信息不一致,否则,确定所述被识别的网页信息一致。

【技术特征摘要】
1.一种网页信息一致性的识别方法,其特征在于,包括:从数据库中获取第一类网页信息,所述第一类网页信息与被识别的网页信息的描述对象相同且位于相同类目中;从所述第一类网页信息中提取出标题信息和属性信息;对所述标题信息和属性信息分别进行切词,得到所述描述对象的属性;统计所述描述对象的属性中每一个属性包含的属性值以及所述描述对象所属类目的共现信息;从所述属性值中去除所述共现信息中成对的属性值关系,得到描述对象的同一属性下的矛盾属性值;判断被识别的网页信息中标题信息和属性信息的属性值是否为所述描述对象的同一属性下的矛盾属性值;如果是,确定所述被识别的网页信息不一致,否则,确定所述被识别的网页信息一致。2.根据权利要求1所述的方法,其特征在于,采用语义分析工具对所述标题信息和属性信息分别进行切词,得到所述描述对象的属性。3.根据权利要求1或2所述的方法,其特征在于,所述对标题信息和属性信息分别进行切词,得到所述描述对象的属性之后,包括:计算所述描述对象的属性中每一个属性的权重值;从权重值最大的属性开始,按照权重值从大到小的顺序依次选择任意多个属性作为描述对象的重要属性;则,统计所述描述对象的属性中每一个属性包含的属性值以及所述描述对象所属类目的共现信息,具体为:统计所述描述对象的重要属性中每一个属性包含的属性值以及所述描述对象所属类目的共现信息。4.根据权利要求1所述的方法,其特征在于,在识别出网页信息不一致之后,还包括:从搜索结果中过滤不一致的网页信息的网页链接,将过滤后的搜索结果反馈给客户端。5.根据权利要求1所述的方法,其特征在于,在识别出网页信息不一致之后,还包括:在对搜索结果进行排序时,降低不一致的网页信息的网页链接排名。6.一种网页信...

【专利技术属性】
技术研发人员:韦袆冯景华陈明修
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1