一种基于粒子群优化的房产数据向量对齐方法技术

技术编号:21799230 阅读:36 留言:0更新日期:2019-08-07 10:31
本发明专利技术公开了一种基于粒子群优化的房产数据向量对齐方法。本发明专利技术提出的融合多属性结构实体相似度的模型,通过爬取二手房数据以及对数据进行预处理,其次对不同二手房属性分别进行相似度求解,然后构建了融合多属性结构实体相似度的模型,通过基于自适应惯性权重的粒子群算法优化多属性权值的策略,得到了各属性权值和总相似度阀值,最后通过使用融合多属性结构实体相似度的模型对多属性权值进行优化,实现了房产相似度的匹配工作,取得了性能较优的对齐结果。

A Vector Alignment Method for Real Estate Data Based on Particle Swarm Optimization

【技术实现步骤摘要】
一种基于粒子群优化的房产数据向量对齐方法
本专利技术涉及数据向量对齐方法,具体涉及一种基于粒子群优化的房产数据向量对齐方法。
技术介绍
《物权法》中明确规定了国家对不动产实行统一登记制度,整合不动产登记制度,而房产数据也是不动产登记中的重要工作,我国的房产数据由于历史原因,数据源中的数据呈现出数据量大、多源异构、信息交叉、标准不一等特点。通过人工基于Excel整合速度慢、规模大、难度大、易出错、更新滞后,达不到实际需求的要求。如何自动构建新的房产数据库对于不动产统一登记具有较高的研究价值和应用前景。现有不动产数据融合技术是基于云架构技术,提出对逻辑大集中下云服务动态迁移进行数据整合。还有利用GIS技术和现在通信技术对现有多部门之间信息进行整合。
技术实现思路
针对现有技术中的上述不足,本专利技术提供的一种基于粒子群优化的房产数据向量对齐方法解决了不同房产交易服务平台的房产数据对齐困难的问题。为了达到上述专利技术目的,本专利技术采用的技术方案为:一种基于粒子群优化的房产数据向量对齐方法,其特征在于,包括以下步骤:S1、从不同二手房房源网页中爬取某个城市的二手房房源数据;S2、将二手房房源数本文档来自技高网...

【技术保护点】
1.一种基于粒子群优化的房产数据向量对齐方法,其特征在于,包括以下步骤:S1、从不同二手房房源网页中爬取某个城市的二手房房源数据;S2、将二手房房源数据进行预处理;S3、计算预处理后的二手房房源数据不同属性的相似度,构建融合多属性结构模型;S4、将融合多属性结构模型中各属性权值组成的数组作为粒子群中的一个粒子的位置,初始化粒子群的数量、迭代次数、认知因子和社交因子,初始化粒子群个体的位置,即各属性相似度的权值,初始化粒子群个体的速度,计算每个个体极值的初值,并令全局极值的初始值等于个体极值的初值;S5、根据融合多属性结构模型计算所有实体对的总相似度,并计算总相似度的阈值,将阈值带入到训练集中比...

【技术特征摘要】
1.一种基于粒子群优化的房产数据向量对齐方法,其特征在于,包括以下步骤:S1、从不同二手房房源网页中爬取某个城市的二手房房源数据;S2、将二手房房源数据进行预处理;S3、计算预处理后的二手房房源数据不同属性的相似度,构建融合多属性结构模型;S4、将融合多属性结构模型中各属性权值组成的数组作为粒子群中的一个粒子的位置,初始化粒子群的数量、迭代次数、认知因子和社交因子,初始化粒子群个体的位置,即各属性相似度的权值,初始化粒子群个体的速度,计算每个个体极值的初值,并令全局极值的初始值等于个体极值的初值;S5、根据融合多属性结构模型计算所有实体对的总相似度,并计算总相似度的阈值,将阈值带入到训练集中比较真实分类结果得到训练集的F1值;S6、将训练集的F1值作为每个粒子的适应度,当粒子的适应度大于其个体极值,则更新个体极值为该粒子适应度,计算当前群体的最大适应度,当最大适应度大于全局极值,则更新全局极值为该最大适应度;S7、根据粒子适应度将粒子群分为3个等级的粒子群,计算不同等级目标函数值的自适应惯性权重;S8、根据个体极值、全局极值、惯性权重、认知因子和社交因子更新计算粒子群的速度,通过粒子群的速度更新粒子群的位置,并令迭代次数加1;S9、当迭代次数小于最大迭代次数时,返回步骤S5,否则,输出粒子群的位置,即多属性结构模型中的各属性权值;S10、计算测试集总相似度的阈值,利用多属性结构模型和测试集总相似度的阈值对测试集中的实体对进行预测,实现二手房房源的匹配。2.根据权利要求1所述的基于粒子群优化的房产数据向量对齐方法,其特征在于,所述步骤S2中的预处理包括对不完整的房源数据进行补全,并对房源数据进行归一化处理。3.根据权利要求1所述的基于粒子群优化的房产数据向量对齐方法,其特征在于,所述步骤S3中二手房房源数据的属性包括小区名、标题、户型图、价格、面积、朝向和楼层;所述小区名相似度sim_name(A,B)的计算公式为:上式中,nameA和nameB分别为两个房源网页中房源A和房源B的小区名;所述标题相似度sim_title(A,B)的计算方法为:将两个房源网页中一组实体对标题S1和S2的字中间加入空格,分别计算各个词语的TF值和IDF值,通过TF值和IDF值计算TFIDF值,并进一步得到词频-逆文本频率矩阵,计算两个房源标题词频-逆文本频率矩阵的余弦相似度sim_title(A,B);所述TFIDF值的计算公式为:TFIDFi,j=TFi,j×IDFi,j上式中,TFIDFi,j为词频-逆文本频率矩阵,TFi,j为词频矩阵,IDFi,j为逆文本频率矩阵;所述户型图相似度sim_img(A,B)的计算方法为:将两个房源网页中实体对的两张图片img1和img2进行缩放和灰度化处理;建立SURF算法模型,通过SURF算法模型分别提取两张图片img1和img2的特征des1和des2,并根据特征des1和des2通过Knn算法匹配特征点;计算距离比率大于0.9的匹配特征点的个数,并计算该匹配特征点占总匹配特征点的比例作为图片相似度sim_img(A,B);所述价格相似度sim_price(A,B)的计算公式为:上式中,Price(A,B)为价格的相对值,计算公式为:上式中,PA和PB分别为两个房源网页中房源A和房源B的...

【专利技术属性】
技术研发人员:蔡彪谭富文
申请(专利权)人:成都理工大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1