一种基于房源信息相似度与图片识别的房源去重方法技术

技术编号:20075148 阅读:38 留言:0更新日期:2019-01-15 00:39
本发明专利技术涉及一种基于房源信息相似度与图片识别的房源去重方法,包括以下步骤:步骤(1)、关键字段等值去重:判断两个房源同字段值是否相等,如果房源的信息相等,判定为一套房源,新来的房源不入库;步骤(2)、根据图片链接,从源网站下载房源图片,并进行phash值计算,把相同phash值对应的房源ID找出来等。本发明专利技术的优点是:利用elasticsearch模块的快速检索及图片的phash值,可以快速从海量图片中找到重复图片,从而筛选出疑似重复房源,结合房源关键属性,实现精准去重,即使经纪人篡改信息,也能识别出来。

A method of house source de-duplication based on similarity of house source information and image recognition

The present invention relates to a method of house source de-duplication based on the similarity of house source information and image recognition, which includes the following steps: step (1), key field equivalent de-duplication: judging whether two house sources have the same field value, if the information of house source is equal, judging a house source, the new house source is not in storage; step (2) downloading house source pictures from the source website according to picture links; The phash value is calculated and the ID of the house source corresponding to the same phash value is found out. The advantages of the present invention are: by using the fast retrieval of elastic search module and the phash value of pictures, duplicate pictures can be quickly found from a large number of pictures, thus the suspected duplicate House sources can be screened out, and precise de-duplication can be realized by combining the key attributes of the house sources, even if the broker tampers with the information, it can also be recognized.

【技术实现步骤摘要】
一种基于房源信息相似度与图片识别的房源去重方法
本专利技术涉及基于房源信息相似度与图片识别的房源去重方法。
技术介绍
现有经纪公司、房产平台存在大量虚假、重复房源。经纪公司发布房源信息变化了,比如价格调整,经常忘了下架老房源,导致官网出现重复房源;平台类网站更有为了获取流量大量发布重复房源的现象。现有平台大量重复房源的现象,导致购房者用户体验较差,而且有的重复房源信息不一致,购房者很难辨别哪个信息是可靠的。
技术实现思路
为克服现有技术的缺陷,本专利技术提供一种基于房源信息相似度与图片识别的房源去重方法,本专利技术的技术方案是:一种基于房源信息相似度与图片识别的房源去重方法,包括以下步骤:步骤(1)、关键字段等值去重:判断两个房源同字段值是否相等,如果房源的信息相等,判定为一套房源,新来的房源不入库;步骤(2)、根据图片链接,从源网站下载房源图片,并进行phash值计算,把相同phash值对应的房源ID找出来,然后向elasticsearch模块存储对应房源图片的phash值;当下载的房源图片所有的房源图片比对过phash值后,和当前房源具有相同phash值的图片个数超过设定阈值时,判定为疑似重复房源;设定阈值需要满足:下载的房源图片张数以及当前房源图片的张数的至少70%以上的图片phash值相等,下载房源图片张数与当前房源图片张数差值的绝对值大于4;步骤(3)、判定为疑似重复房源的,比对基础属性,例如房源的小区,楼层,总楼层,室数,厅数,卫生间数,装修,朝向,只要有5个符合条件,就可以认为是重复房源了,对于重复房源,把时间较早的房源进行下架;步骤(4):将elasticsearch模块中已经下架的房源图片信息删除;步骤(5):准确性与覆盖率准确性检测:将判定为重复房源的房源通过报表例行输出,并进行抽检,人工确认是否确实是重复房源,若不是,则进行调整;覆盖率检测:人工抽检确认是否属于重复房源。本专利技术的优点是:利用elasticsearch模块的快速检索及图片的phash值,可以快速从海量图片中找到重复图片,从而筛选出疑似重复房源,结合房源关键属性,实现精准去重,即使经纪人篡改信息,也能识别出来。具体实施方式下面结合具体实施例来进一步描述本专利技术,本专利技术的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本专利技术的范围构成任何限制。本领域技术人员应该理解的是,在不偏离本专利技术的精神和范围下可以对本专利技术技术方案的细节和形式进行修改或替换,但这些修改和替换均落入本专利技术的保护范围内。本专利技术涉及一种基于房源信息相似度与图片识别的房源去重方法,包括以下步骤:步骤(1)、关键字段等值去重:判断两个房源同字段值是否相等,如果房源的信息相等,判定为一套房源,新来的房源不入库;步骤(2)、根据图片链接,从源网站下载房源图片,并进行phash值计算,把相同phash值对应的房源ID找出来,然后向elasticsearch模块存储对应房源图片的phash值;当下载的房源图片所有的房源图片比对过phash值后,和当前房源具有相同phash值的图片个数超过设定阈值时,判定为疑似重复房源;设定阈值需要满足:下载的房源图片张数以及当前房源图片的张数的至少70%以上的图片phash值相等,下载房源图片张数与当前房源图片张数差值的绝对值大于4;步骤(3)、判定为疑似重复房源的,比对基础属性,例如房源的小区,楼层,总楼层,室数,厅数,卫生间数,装修,朝向,只要有5个符合条件,就可以认为是重复房源了,对于重复房源,把时间较早的房源进行下架;步骤(4):将elasticsearch模块中已经下架的房源图片信息删除;步骤(5):准确性与覆盖率准确性检测:将判定为重复房源的房源通过报表例行输出,并进行抽检,人工确认是否确实是重复房源,若不是,则进行调整;覆盖率检测:人工抽检确认是否属于重复房源。本文档来自技高网...

【技术保护点】
1.一种基于房源信息相似度与图片识别的房源去重方法,其特征在于,包括以下步骤:步骤(1)、关键字段等值去重:判断两个房源同字段值是否相等,如果房源的信息相等,判定为一套房源,新来的房源不入库;步骤(2)、根据图片链接,从源网站下载房源图片,并进行phash值计算,把相同phash值对应的房源ID找出来,然后向elasticsearch模块存储对应房源图片的phash值;当下载的房源图片所有的房源图片比对过phash值后,和当前房源具有相同phash值的图片个数超过设定阈值时,判定为疑似重复房源;设定阈值需要满足:下载的房源图片张数以及当前房源图片的张数的至少70%以上的图片phash值相等,下载房源图片张数与当前房源图片张数差值的绝对值大于4;步骤(3)、判定为疑似重复房源的,比对基础属性,例如房源的小区,楼层,总楼层,室数,厅数,卫生间数,装修,朝向,只要有5个符合条件,就可以认为是重复房源了,对于重复房源,把时间较早的房源进行下架;步骤(4): 将elasticsearch模块中已经下架的房源图片信息删除;步骤(5):准确性与覆盖率准确性检测:将判定为重复房源的房源通过报表例行输出,并进行抽检,人工确认是否确实是重复房源,若不是,则进行调整;覆盖率检测:人工抽检确认是否属于重复房源。...

【技术特征摘要】
1.一种基于房源信息相似度与图片识别的房源去重方法,其特征在于,包括以下步骤:步骤(1)、关键字段等值去重:判断两个房源同字段值是否相等,如果房源的信息相等,判定为一套房源,新来的房源不入库;步骤(2)、根据图片链接,从源网站下载房源图片,并进行phash值计算,把相同phash值对应的房源ID找出来,然后向elasticsearch模块存储对应房源图片的phash值;当下载的房源图片所有的房源图片比对过phash值后,和当前房源具有相同phash值的图片个数超过设定阈值时,判定为疑似重复房源;设定阈值需要满足:下载的房源图片张数以及当前房源图...

【专利技术属性】
技术研发人员:张文战杨丽娟白峻峰刘子耀张凯
申请(专利权)人:北京诸葛找房信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1