【技术实现步骤摘要】
一种异常房源信息的识别方法
本专利技术属于人工智能识别和大数据处理
,特别涉及一种异常房源信息的识别方法。
技术介绍
随着我国经济发展和城镇化水平的提高,城市中的流动人口数量不断增多,租房市场快速发展。互联网是房屋出租人、租房人以及房屋中介等发布、浏览房源信息的主要媒介。但是网络上的房源信息纷杂凌乱,很多房源信息是重复的,还有一些房源信息是虚假的,从而给用户带来麻烦不便甚至经济损失。通过技术方法别出重复房源、虚假房源等异常房源信息可以给各类用户提供简明、可靠的房源信息。本专利提出一种异常房源信息的识别方法,通过对房源基本特征、文本描述、图片、视频等数据进行建模;基于小区或者某个指定区域建立动态群体相似性感知网络;使用空间距离度量、相似性函数和相关系数等算法计算各个节点之间的相似度;最后基于房源数据之间的相似度通过设置合理的度量阈值识出各类异常房源信息。该方法与现有方法相比,采用了融合文本、图片、视频等多种房源数据进行建模,使用基于小区或者指定区域的动态群体相似性感知网络计算房源相似度,具有较高的重复房源和虚假房源识别能 ...
【技术保护点】
1.一种异常房源信息的识别方法,其特征在于,包括以下步骤:/n步骤1,房源数据爬取:根据用户指定的范围,在互联网上通过爬虫程序爬出该范围内所有的房源信息数据;/n步骤2,房源数据清洗:对于爬取到的数据进行检查,剔除错误和不合理的数据,同时根据已爬取数据对房源数据中缺失的字段进行补充;/n步骤3,房源数据建模:基于房屋基础特征、房屋文本特征、房屋图片特征和房屋视频特征四个方面进行数据建模;/n步骤4,相似度计算:根据房屋基础特征、房屋文本特征、房屋图片特征和房屋视频特征建立动态群体相似性感知网络,网络以每个小区或者某个指定区域为中心,将属于该小区或者指定区域的房屋作为节点构建 ...
【技术特征摘要】
1.一种异常房源信息的识别方法,其特征在于,包括以下步骤:
步骤1,房源数据爬取:根据用户指定的范围,在互联网上通过爬虫程序爬出该范围内所有的房源信息数据;
步骤2,房源数据清洗:对于爬取到的数据进行检查,剔除错误和不合理的数据,同时根据已爬取数据对房源数据中缺失的字段进行补充;
步骤3,房源数据建模:基于房屋基础特征、房屋文本特征、房屋图片特征和房屋视频特征四个方面进行数据建模;
步骤4,相似度计算:根据房屋基础特征、房屋文本特征、房屋图片特征和房屋视频特征建立动态群体相似性感知网络,网络以每个小区或者某个指定区域为中心,将属于该小区或者指定区域的房屋作为节点构建出一个网络,然后使用空间距离度量、相似性函数和相关系数算法计算各个节点之间的相似度;
步骤5,异常房源识别:分为重复房源识别和虚假房源识别两种情况根据步骤4中的相似度判断,相似度高于某个度量阈值,则可认为两个房源是重复房源;如果某个房源与该小区内其他房源之间的相似度低于某个度量阈值,则认为该房源为虚假房源。
2.根据权利要求1所述的一种异常房源信息的识别方法,其特征在于,步骤1中,用户指定的范围为行政区、商圈或生活社区;房源基本特征包括:所在地、楼层、面积、户型、价格、房源文字介绍、房源户型图、房屋照片以及房源视频数据。<...
【专利技术属性】
技术研发人员:李磊,
申请(专利权)人:一起住好房北京网络科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。