The present invention relates to a method of house source de-duplication based on the similarity of house source information and image recognition, which includes the following steps: step (1), key field equivalent de-duplication: judging whether two house sources have the same field value, if the information of house source is equal, judging a house source, the new house source is not in storage; step (2) downloading house source pictures from the source website according to picture links; The phash value is calculated and the ID of the house source corresponding to the same phash value is found out. The advantages of the present invention are: by using the fast retrieval of elastic search module and the phash value of pictures, duplicate pictures can be quickly found from a large number of pictures, thus the suspected duplicate House sources can be screened out, and precise de-duplication can be realized by combining the key attributes of the house sources, even if the broker tampers with the information, it can also be recognized.
【技术实现步骤摘要】
一种基于房源信息相似度与图片识别的房源去重方法
本专利技术涉及基于房源信息相似度与图片识别的房源去重方法。
技术介绍
现有经纪公司、房产平台存在大量虚假、重复房源。经纪公司发布房源信息变化了,比如价格调整,经常忘了下架老房源,导致官网出现重复房源;平台类网站更有为了获取流量大量发布重复房源的现象。现有平台大量重复房源的现象,导致购房者用户体验较差,而且有的重复房源信息不一致,购房者很难辨别哪个信息是可靠的。
技术实现思路
为克服现有技术的缺陷,本专利技术提供一种基于房源信息相似度与图片识别的房源去重方法,本专利技术的技术方案是:一种基于房源信息相似度与图片识别的房源去重方法,包括以下步骤:步骤(1)、关键字段等值去重:判断两个房源同字段值是否相等,如果房源的信息相等,判定为一套房源,新来的房源不入库;步骤(2)、根据图片链接,从源网站下载房源图片,并进行phash值计算,把相同phash值对应的房源ID找出来,然后向elasticsearch模块存储对应房源图片的phash值;当下载的房源图片所有的房源图片比对过phash值后,和当前房源具有相同phash值的图片个数超过设定阈值时,判定为疑似重复房源;设定阈值需要满足:下载的房源图片张数以及当前房源图片的张数的至少70%以上的图片phash值相等,下载房源图片张数与当前房源图片张数差值的绝对值大于4;步骤(3)、判定为疑似重复房源的,比对基础属性,例如房源的小区,楼层,总楼层,室数,厅数,卫生间数,装修,朝向,只要有5个符合条件,就可以认为是重复房源了,对于重复房源,把时间较早的房源进行下架;步骤(4):将e ...
【技术保护点】
1.一种基于房源信息相似度与图片识别的房源去重方法,其特征在于,包括以下步骤:步骤(1)、关键字段等值去重:判断两个房源同字段值是否相等,如果房源的信息相等,判定为一套房源,新来的房源不入库;步骤(2)、根据图片链接,从源网站下载房源图片,并进行phash值计算,把相同phash值对应的房源ID找出来,然后向elasticsearch模块存储对应房源图片的phash值;当下载的房源图片所有的房源图片比对过phash值后,和当前房源具有相同phash值的图片个数超过设定阈值时,判定为疑似重复房源;设定阈值需要满足:下载的房源图片张数以及当前房源图片的张数的至少70%以上的图片phash值相等,下载房源图片张数与当前房源图片张数差值的绝对值大于4;步骤(3)、判定为疑似重复房源的,比对基础属性,例如房源的小区,楼层,总楼层,室数,厅数,卫生间数,装修,朝向,只要有5个符合条件,就可以认为是重复房源了,对于重复房源,把时间较早的房源进行下架;步骤(4): 将elasticsearch模块中已经下架的房源图片信息删除;步骤(5):准确性与覆盖率准确性检测:将判定为重复房源的房源通过报表例行输出 ...
【技术特征摘要】
1.一种基于房源信息相似度与图片识别的房源去重方法,其特征在于,包括以下步骤:步骤(1)、关键字段等值去重:判断两个房源同字段值是否相等,如果房源的信息相等,判定为一套房源,新来的房源不入库;步骤(2)、根据图片链接,从源网站下载房源图片,并进行phash值计算,把相同phash值对应的房源ID找出来,然后向elasticsearch模块存储对应房源图片的phash值;当下载的房源图片所有的房源图片比对过phash值后,和当前房源具有相同phash值的图片个数超过设定阈值时,判定为疑似重复房源;设定阈值需要满足:下载的房源图片张数以及当前房源图...
【专利技术属性】
技术研发人员:张文战,杨丽娟,白峻峰,刘子耀,张凯,
申请(专利权)人:北京诸葛找房信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。