The embodiment of the invention discloses a large data processing method and a system based on the real estate industry. The method comprises: obtaining the original data through a network crawler; cleaning and filtering the original data to obtain the keyword database and the real estate public opinion database; and according to the keyword database and the real estate public opinion database. The public opinion database establishes the training model, obtains the data to be processed through the network crawler, and inputs the data to be processed into the training model to obtain the processing results. The embodiment of the invention realizes the fine processing of the data and guarantees the expected accuracy of the real estate industry based on the data.
【技术实现步骤摘要】
基于房地产行业的大数据处理及系统
本专利技术涉及大数据处理
,具体涉及一种基于房地产行业的大数据处理方法及系统。
技术介绍
目前,房地产行业的背景主要包括以下几个方面:(1)外部环境因素的不确定性和复杂性:通过公众预期的调整,进一步影响房地产市场波动,这种不确定性越大,由预期引致的市场波动也将越为剧烈。由此可以认为,研究预期的测度、形成及其对房地产市场的作用机理,有助于深入认识房地产市场的波动规律;(2)有效管理市场:公众预期管理是政策制定者最为重视的目标之一。研究公众预期的测度、形成及其对房地产市场的作用机理,有助于政府有效实施房地产调控,合理管理房地产公众预期和主体行为。基于上述房地产行业的现状,有必要开展大数据环境下、房地产行业预期的研究。在基于大数据进行房地产行业预期时,由于对数据处理过于粗糙,因此难以保证后续基于大数据进行房地产行业预期的准确性。
技术实现思路
本专利技术实施例的目的在于提供一种基于房地产行业的大数据处理方法及系统,以对数据进行精细化处理,为后续基于该数据进行房地产行业预期的准确性提供保证。为实现上述目的,第一方面,本专利技术实施例提供了一种基于房地产行业的大数据处理方法,包括:通过网络爬虫获取原始数据,所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据;对所述原始数据进行数据清洗及筛选处理,以得到关键词数据库及房地产公众舆情数据库;根据所述关键词数据库及房地产公众舆情数据库建立训练模型;通过网络爬虫获取待处理数据,所述待处理数据包括微博数据、网页数据、论坛数据以及贴吧数据;将所述待处理数据输入所述训练模型以得到处理结果。 ...
【技术保护点】
1.一种基于房地产行业的大数据处理方法,其特征在于,包括:通过网络爬虫获取原始数据,所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据;对所述原始数据进行数据清洗及筛选处理,以得到关键词数据库及房地产公众舆情数据库;根据所述关键词数据库及房地产公众舆情数据库建立训练模型;通过网络爬虫获取待处理数据,所述待处理数据包括微博数据、网页数据、论坛数据以及贴吧数据;将所述待处理数据输入所述训练模型以得到处理结果。
【技术特征摘要】
1.一种基于房地产行业的大数据处理方法,其特征在于,包括:通过网络爬虫获取原始数据,所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据;对所述原始数据进行数据清洗及筛选处理,以得到关键词数据库及房地产公众舆情数据库;根据所述关键词数据库及房地产公众舆情数据库建立训练模型;通过网络爬虫获取待处理数据,所述待处理数据包括微博数据、网页数据、论坛数据以及贴吧数据;将所述待处理数据输入所述训练模型以得到处理结果。2.如权利要求1所述的基于房地产行业的大数据处理方法,其特征在于,对所述原始数据进行数据清洗及筛选处理,以得到关键词数据库具体包括:采用文本处理技术对原始数据进行去噪、解析和分词,得到文本数据;采用数据挖掘技术分析文本数据的属性,得到清洗数据;针对不同地区设置影响因素,根据不同地区的影响因素对所述清洗数据进行筛选,得到初始数据;根据地区下属的管辖区域对初始数据进行扩充,得到扩充数据;定义扩充数据中的核心词条,针对核心词条对扩充数据中进行长尾关键词和短尾关键词的补充;对所述初始数据以及补充后的扩充数据进行修正,以得到修正数据;根据所述修正数据得到所述关键词数据库。3.如权利要求2所述的基于房地产行业的大数据处理方法,其特征在于,对所述原始数据进行数据清洗及筛选处理,以得到房地产公众舆情数据库具体包括:对所述原始数据进行中文分词,以确定文档特征;基于所述文档特征进行情感分析,以得到房地产公众舆情数据库。4.如权利要求3所述的基于房地产行业的大数据处理方法,其特征在于,所述大数据处理方法还包括:根据预测类型和非预测类型对所述房地产公共舆情数据库进行标签,所述预测类型包括涨、跌和平。5.如权利要求1所述的基于房地产行业的大数据处理方法,其特征在于,所述微博数据包括媒体层面数据、企业层面数据、政府层面数据、研究机构数据以及个人层面数据。6.一种基于房...
【专利技术属性】
技术研发人员:董纪昌,郑长敬,刘颖,李秀婷,董志,
申请(专利权)人:郑长敬,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。