当前位置: 首页 > 专利查询>郑长敬专利>正文

基于房地产行业的大数据处理及系统技术方案

技术编号:18894651 阅读:111 留言:0更新日期:2018-09-08 11:02
本发明专利技术实施例公开了一种基于房地产行业的大数据处理方法及系统,方法包括:通过网络爬虫获取原始数据;对原始数据进行数据清洗及筛选处理,以得到关键词数据库及房地产公众舆情数据库;根据关键词数据库及房地产公众舆情数据库建立训练模型;通过网络爬虫获取待处理数据;将待处理数据输入所述训练模型以得到处理结果。实施本发明专利技术实施例,实现了对数据的精细化处理,为后续基于该数据进行房地产行业预期的准确性提供了保证。

Big data processing and system based on real estate industry

The embodiment of the invention discloses a large data processing method and a system based on the real estate industry. The method comprises: obtaining the original data through a network crawler; cleaning and filtering the original data to obtain the keyword database and the real estate public opinion database; and according to the keyword database and the real estate public opinion database. The public opinion database establishes the training model, obtains the data to be processed through the network crawler, and inputs the data to be processed into the training model to obtain the processing results. The embodiment of the invention realizes the fine processing of the data and guarantees the expected accuracy of the real estate industry based on the data.

【技术实现步骤摘要】
基于房地产行业的大数据处理及系统
本专利技术涉及大数据处理
,具体涉及一种基于房地产行业的大数据处理方法及系统。
技术介绍
目前,房地产行业的背景主要包括以下几个方面:(1)外部环境因素的不确定性和复杂性:通过公众预期的调整,进一步影响房地产市场波动,这种不确定性越大,由预期引致的市场波动也将越为剧烈。由此可以认为,研究预期的测度、形成及其对房地产市场的作用机理,有助于深入认识房地产市场的波动规律;(2)有效管理市场:公众预期管理是政策制定者最为重视的目标之一。研究公众预期的测度、形成及其对房地产市场的作用机理,有助于政府有效实施房地产调控,合理管理房地产公众预期和主体行为。基于上述房地产行业的现状,有必要开展大数据环境下、房地产行业预期的研究。在基于大数据进行房地产行业预期时,由于对数据处理过于粗糙,因此难以保证后续基于大数据进行房地产行业预期的准确性。
技术实现思路
本专利技术实施例的目的在于提供一种基于房地产行业的大数据处理方法及系统,以对数据进行精细化处理,为后续基于该数据进行房地产行业预期的准确性提供保证。为实现上述目的,第一方面,本专利技术实施例提供了一种基于房地产行业的大数据处理方法,包括:通过网络爬虫获取原始数据,所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据;对所述原始数据进行数据清洗及筛选处理,以得到关键词数据库及房地产公众舆情数据库;根据所述关键词数据库及房地产公众舆情数据库建立训练模型;通过网络爬虫获取待处理数据,所述待处理数据包括微博数据、网页数据、论坛数据以及贴吧数据;将所述待处理数据输入所述训练模型以得到处理结果。作为本申请一种优选的实施方式,对所述原始数据进行数据清洗及筛选处理,以得到关键词数据库具体包括:采用文本处理技术对原始数据进行去噪、解析和分词,得到文本数据;采用数据挖掘技术分析文本数据的属性,得到清洗数据;针对不同地区设置影响因素,根据不同地区的影响因素对所述清洗数据进行筛选,得到初始数据;根据地区下属的管辖区域对初始数据进行扩充,得到扩充数据;定义扩充数据中的核心词条,针对核心词条对扩充数据中进行长尾关键词和短尾关键词的补充;对所述初始数据以及补充后的扩充数据进行修正,以得到修正数据;根据所述修正数据得到所述关键词数据库。作为本申请一种优选的实施方式,对所述原始数据进行数据清洗及筛选处理,以得到房地产公众舆情数据库具体包括:对所述原始数据进行中文分词,以确定文档特征;基于所述文档特征进行情感分析,以得到房地产公众舆情数据库。作为本申请一种优选的实施方式,大数据处理方法还包括:根据预测类型和非预测类型对所述房地产公共舆情数据库进行标签,所述预测类型包括涨、跌和平。作为本申请一种优选的实施方式,根据预测类型和非预测类型对所述房地产公共舆情数据库进行标签,所述预测类型包括涨、跌和平。第二方面,本专利技术实施例提供了一种基于房地产行业的大数据处理系统,包括:获取模块,用于通过网络爬虫获取原始数据,所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据;清洗筛选模块,用于对所述原始数据进行数据清洗及筛选处理,以得到关键词数据库及房地产公众舆情数据库;建立模块,用于根据所述关键词数据库及房地产公众舆情数据库建立训练模型;所述获取模块,还用于通过网络爬虫获取待处理数据,所述待处理数据包括微博数据、网页数据、论坛数据以及贴吧数据;处理模块,用于将所述待处理数据输入所述训练模型以得到处理结果。作为本申请一种优选的实施方式,所述清洗筛选模块包括第一单元,具体用于:采用文本处理技术对原始数据进行去噪、解析和分词,得到文本数据;采用数据挖掘技术分析文本数据的属性,得到清洗数据;针对不同地区设置影响因素,根据不同地区的影响因素对所述清洗数据进行筛选,得到初始数据;根据地区下属的管辖区域对初始数据进行扩充,得到扩充数据;定义扩充数据中的核心词条,针对核心词条对扩充数据中进行长尾关键词和短尾关键词的补充;对所述初始数据以及补充后的扩充数据进行修正,以得到修正数据。根据所述修正数据得到所述关键词数据库。作为本申请一种优选的实施方式,所述清洗筛选模块还包括第二单元,具体用于:对所述原始数据进行中文分词,以确定文档特征;基于所述文档特征进行情感分析,以得到房地产公众舆情数据库。作为本申请一种优选的实施方式,所述系统还包括标签模块,用于:根据预测类型和非预测类型对所述房地产公共舆情数据库进行标签,所述预测类型包括涨、跌和平。作为本申请一种优选的实施方式,根据预测类型和非预测类型对所述房地产公共舆情数据库进行标签,所述预测类型包括涨、跌和平。实施本专利技术实施例,通过网络爬虫获取原始数据,对原始数据进行数据清洗及筛选以得到关键词数据库和房地产公众舆情数据库,再根据关键词数据库和房地产公众舆情数据库建立训练模型,最后将待处理数据输入训练模型以得到训练结果,实现了对数据的精细化处理,为后续基于该数据进行房地产行业预期的准确性提供了保证。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。图1是本专利技术第一实施例提供的基于房地产行业的大数据处理方法的示意流程图;图2是微博数据示意图;图3是本专利技术第一实施例提供的基于房地产行业的大数据处理系统的结构示意图;图4是图3中清洗筛选模块的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。请参考图1,是本专利技术第一实施例所提供的基于房地产行业的大数据处理方法的流程示意图,如图所示,该方法可以包括如下步骤:S101,通过网络爬虫获取原始数据。其中,原始数据包括微博数据、网页数据、论坛数据以及贴吧数据。微博数据可分为如图2所示的五类,即媒体层面数据、企业层面数据本文档来自技高网...

【技术保护点】
1.一种基于房地产行业的大数据处理方法,其特征在于,包括:通过网络爬虫获取原始数据,所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据;对所述原始数据进行数据清洗及筛选处理,以得到关键词数据库及房地产公众舆情数据库;根据所述关键词数据库及房地产公众舆情数据库建立训练模型;通过网络爬虫获取待处理数据,所述待处理数据包括微博数据、网页数据、论坛数据以及贴吧数据;将所述待处理数据输入所述训练模型以得到处理结果。

【技术特征摘要】
1.一种基于房地产行业的大数据处理方法,其特征在于,包括:通过网络爬虫获取原始数据,所述原始数据包括微博数据、网页数据、论坛数据以及贴吧数据;对所述原始数据进行数据清洗及筛选处理,以得到关键词数据库及房地产公众舆情数据库;根据所述关键词数据库及房地产公众舆情数据库建立训练模型;通过网络爬虫获取待处理数据,所述待处理数据包括微博数据、网页数据、论坛数据以及贴吧数据;将所述待处理数据输入所述训练模型以得到处理结果。2.如权利要求1所述的基于房地产行业的大数据处理方法,其特征在于,对所述原始数据进行数据清洗及筛选处理,以得到关键词数据库具体包括:采用文本处理技术对原始数据进行去噪、解析和分词,得到文本数据;采用数据挖掘技术分析文本数据的属性,得到清洗数据;针对不同地区设置影响因素,根据不同地区的影响因素对所述清洗数据进行筛选,得到初始数据;根据地区下属的管辖区域对初始数据进行扩充,得到扩充数据;定义扩充数据中的核心词条,针对核心词条对扩充数据中进行长尾关键词和短尾关键词的补充;对所述初始数据以及补充后的扩充数据进行修正,以得到修正数据;根据所述修正数据得到所述关键词数据库。3.如权利要求2所述的基于房地产行业的大数据处理方法,其特征在于,对所述原始数据进行数据清洗及筛选处理,以得到房地产公众舆情数据库具体包括:对所述原始数据进行中文分词,以确定文档特征;基于所述文档特征进行情感分析,以得到房地产公众舆情数据库。4.如权利要求3所述的基于房地产行业的大数据处理方法,其特征在于,所述大数据处理方法还包括:根据预测类型和非预测类型对所述房地产公共舆情数据库进行标签,所述预测类型包括涨、跌和平。5.如权利要求1所述的基于房地产行业的大数据处理方法,其特征在于,所述微博数据包括媒体层面数据、企业层面数据、政府层面数据、研究机构数据以及个人层面数据。6.一种基于房...

【专利技术属性】
技术研发人员:董纪昌郑长敬刘颖李秀婷董志
申请(专利权)人:郑长敬
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1