一种基于社区文本数据的话题发现系统技术方案

技术编号:15500126 阅读:99 留言:0更新日期:2017-06-03 22:07
本发明专利技术公开了一种基于社区文本数据的话题发现系统,包括移动终端服务系统和服务器端系统;移动终端服务系统包括社区文本数据上传模块,负责社区文本数据的采集、提取和上传,接收采集的社区文本数据,并提取社区文本数据的类型,并将社区文本数据及类型送上传至服务器端系统的数据预处理模块;社区文本数据的类型包括TXT格式、HTML格式、XML格式;服务器端系统包括数据预处理模块、向量提取模块、热点话题提取模块、数据可视模块和数据存储与管理模块;本发明专利技术使社区居民,社区服务人员以及城管参与到社区管理中,加快工作效率,实现社区的智慧化管理提供高效的服务。

A topic discovery system based on community text data

The invention discloses a discovery system of community topics based on text data, including mobile terminal service system and server system; mobile terminal service system including uploading module community text data, responsible for collection, extraction and upload community text data, text data acquisition of the receiving community, community types and extract the text data, and the data preprocessing module and send text data type community uploaded to the server system; the community types of text data formats including TXT, HTML and XML format; the server system includes data preprocessing module, vector extraction module, topic extraction module, data visualization module and the data storage and management module; the invention of the community residents, community service personnel and inspectors to participate in community management, accelerate the work efficiency, the implementation of community wisdom Intelligent management provides efficient services.

【技术实现步骤摘要】
一种基于社区文本数据的话题发现系统
本专利技术涉及一种基于社区文本数据的话题发现系统及方法,属于计算机与网络技术应用领域。
技术介绍
随随着城市信息化的快速建设与发展,国民经济长足的进步,在高速城镇化建设中带来了人口管理、城市交通、环境保护以及社会治安等诸多问题,已经阻碍城市发展的脚步。社区的建设是城市建设的基础,提高社区服务质量直接关系到社区居民日常生活的幸福指数。如何让社区居民能真正享受到智慧城市带来的红利,是社区建设的首要任务,所以要充分利用社区产生数据。深入去了解社区服务的需求,从文本数据层面进行分析,目前有关于文本数据挖掘多为舆情系统或是对当下较流行的微博客进行分析去做关键人物或网民情绪的分析,针对社区内部及城市管理者产生的数据并没有有效利用起来,目前没有相关文献报导。
技术实现思路
本专利技术要解决的技术问题:克服现有技术的不足,提供一种基于社区文本数据的话题发现系统及方法,能够提高社区服务水平、符合社区管理特点、易于使用,可以使社区居民,社区服务人员以及城管参与到社区管理中,加快工作效率,实现社区的智慧化管理。本专利技术采用的技术方案之一:一种基于社区文本数据的话题发现系统,包括移动终端服务系统和服务器端系统;移动终端服务系统包括社区文本数据上传模块,负责社区文本数据的采集、提取和上传,接收采集的社区文本数据,并提取所述社区文本数据的类型,并将社区文本数据及类型送上传至服务器端系统的数据预处理模块;所述社区文本数据的类型包括TXT格式、HTML格式、XML格式;服务器端系统包括数据预处理模块、向量提取模块、热点话题提取模块、数据可视模块和数据存储与管理模块;数据预处理模块:读取社区文本数据上传模块上传的社区文本数据,并进行社区文本数据的清洗和中文分词;所述社区文本数据读取针对不同类型的数据采取不同的读取策略,对于TXT格式的社区文本数据采用JAVA中BufferedReader直接读取成数据流形式,对于HTML与XML格式的社区文本数据均采用DOM的解析模式;所述社区文本数据的清洗完成对社区文本数据中有重复上报的进行剔除;所述中文分词是将清洗后社区文本数据切分成由中文单词组成的词特征向量;向量提取模块:负责对社区文本数据向量化表示;基于中文语料库对数据预处理模块后得到的词特征向量进行训练,提取关键词词组,并计算出关键词权值;结合词特征向量及关键词权值进行加权平均计算得出文本特征向量;所述词特征向量训练采用Word2Vec的JAVA版本,中文语料库采用项目所在地的新闻语料库(此项目中语料库为陕西省新闻与浙江省新闻,也可以为搜狗新闻语料库);提到关键词词组采用TF-IDF特征提取;热点话题提取模块:基于向量提取模块中得出的关键词词组和文本的特征向量,采用Single-Pass聚类对文本进行聚类,得到类簇后根据向量提取模块中提取到的关键词词组,对关键词词组中的关键词进行统计,统计完成后降序排列,从而生成热点话题;数据可视模块:为用户交互界面,完成对外的应用和展示任务,把社区文本上传模块中的得到的社区文本数据与热点话题提取模块中得到的热点话题数据展示在页面端;展示的内容包括社区文本数据的数据总量概况、数据分布概况和数据分析后生成的热点话题,热点话题的展示形式采用表格、柱状图、折线图并且结合地图的多种展示形式,直观的显示数据;所述数据整体概况展示数据概况,数据总种类,数据总量以及各个地区、主题的总量;数据分布概况将数据分布情况在地图上展示出来,直观的显示数据地理位置;数据分析概况将处理后生成的热点话题采用报表、图表并结合地图等形式展示给社区管理人员;数据存储与管理模块,对社区文本数据上传模块中上传的社区文本数据、数据预处理模块、向量提取模块以及热点话题提取模块中产生的相关数据进行存储与管理;社区文本数据上传模块上传的社区文本数据缓存在HDFS文件系统中,向量提取模块中训练的词向量结果缓存于Redis缓存数据库中,数据预处理模块和热点话题提取模块生成的数据缓存在HBase数据库中;对HDFS文件系统、HBase数据库和Redis缓存数据库进行管理,完成其中的数据增加、删除、修改和查询操作;同时支持定时任务对Redis缓存数据库中的缓存数据进行更新,以及维护HBase数据库中的索引表,优化对数据的查询,对HDFS文件系统中文件块的存储进行合并优化处理。所述社区文本数据包括民情数据与城管数据,所述民情数据包括社区环境卫生主题数据、社区安全主题数据、社区停车及公告主题数据以及社区管理主题数据,社区管理主题数据指物业与网格员日常执法情况,民情数据由社区居民与社区网格员上传;城管数据由城管人员上传,所述城管数据包括市容环境卫生主题数据、市政主题数据、城市绿化主题数据、城市规划主题数据及工商管理主题数据。本专利技术技术解决方案之二:一种基于社区文本数据的话题发现方法,包括:社区文本数据上传步骤、数据预处理步骤、向量提取步骤、热点话题提取步骤、数据可视步骤、数据存储与管理步骤,其中社区文本数据上传步骤由移动终端服务系统完成,移动终端服务系统采集的社区文本数据,提取所述社区文本数据的类型,并将社区文本数据及类型送上传至服务器端系统;所述社区文本数据包括民情数据与城管数据,所述民情数据包括社区环境卫生主题数据、社区安全主题数据、社区停车及公告主题数据以及社区管理主题数据,社区管理主题数据指物业与网格员日常执法情况,民情数据由社区居民与社区网格员上传;城管数据由城管人员上传,所述城管数据包括市容环境卫生主题数据、市政主题数据、城市绿化主题数据、城市规划主题数据及工商管理主题数据;所述社区文本数据的类型包括TXT格式、HTML格式、XML格式;服务器端系统进行数据预处理模块、向量提取模块、热点话题提取模块、数据可视模块和数据存储与管理模块的执行;数据预处理步骤:读取社区文本数据上传步骤的社区文本数据,并进行社区文本数据的清洗和中文分词;所述社区文本数据读取针对不同类型的数据采取不同的读取策略,对于TXT格式的社区文本数据采用JAVA中BufferedReader(缓存阅读器)直接读取成数据流形式,对于HTML与XML格式的社区文本数据均采用DOM(文档对象模型)的解析模式;所述社区文本数据的清洗完成对社区文本数据中有重复上报的进行剔除;所述中文分词是将清洗后社区文本数据切分成由中文单词组成的词特征向量;向量提取步骤:基于中文语料库对数据预处理步骤后得到的词特征向量进行训练,提取关键词词组,并计算出关键词权值;结合词特征向量及关键词权值进行加权平均计算得出文本特征向量;所述词特征向量训练采用Word2Vec的JAVA版本,中文语料库采用项目所在地的新闻语料库;提到关键词词组采用TF-IDF(词频-逆文档频率)特征提取;热点话题提取步骤:基于向量提取步骤中得出的关键词词组和文本的特征向量,采用Single-Pass聚类对文本进行聚类,得到类簇后根据向量提取步骤中提取到的关键词词组,对关键词词组中的关键词进行统计,统计完成后降序排列,从而生成热点话题;数据可视步骤:为用户交互界面,完成对外的应用和展示任务,把社区文本上传步骤中的得到的社区文本数据与热点话题提取步骤中得到的热点话题数据展示在页面端;展示的内容包括社区文本数据的数据总量本文档来自技高网...
一种基于社区文本数据的话题发现系统

【技术保护点】
一种基于社区文本数据的话题发现系统,其特征在于:包括移动终端服务系统和服务器端系统;移动终端服务系统包括社区文本数据上传模块,负责社区文本数据的采集、提取和上传,接收采集的社区文本数据,提取所述社区文本数据的类型,并将社区文本数据及类型送上传至服务器端系统的数据预处理模块;所述社区文本数据包括民情数据与城管数据,所述民情数据包括社区环境卫生主题数据、社区安全主题数据、社区停车及公告主题数据以及社区管理主题数据,社区管理主题数据指物业与网格员日常执法情况,民情数据由社区居民与社区网格员上传;城管数据由城管人员上传,所述城管数据包括市容环境卫生主题数据、市政主题数据、城市绿化主题数据、城市规划主题数据及工商管理主题数据;所述社区文本数据的类型包括TXT格式、HTML格式、XML格式;服务器端系统包括数据预处理模块、向量提取模块、热点话题提取模块、数据可视模块和数据存储与管理模块;数据预处理模块:读取社区文本数据上传模块上传的社区文本数据,并进行社区文本数据的清洗和中文分词;所述社区文本数据读取针对不同类型的数据采取不同的读取策略,对于TXT格式的社区文本数据采用JAVA中BufferedReader直接读取成数据流形式,对于HTML与XML格式的社区文本数据均采用DOM的解析模式;所述社区文本数据的清洗完成对社区文本数据中有重复上报的进行剔除;所述中文分词是将清洗后社区文本数据切分成由中文单词组成的词特征向量;向量提取模块:负责对社区文本数据向量化表示;基于中文语料库对数据预处理模块后得到的词特征向量进行训练,提取关键词词组,并计算出关键词权值;结合词特征向量及关键词权值进行加权平均计算得出文本特征向量;所述词特征向量训练采用Word2Vec的JAVA版本,中文语料库采用项目所在地的新闻语料库;提到关键词词组采用TF‑IDF特征提取;热点话题提取模块:基于向量提取模块中得出的关键词词组和文本的特征向量,采用Single‑Pass聚类对文本进行聚类,得到类簇后根据向量提取模块中提取到的关键词词组,对关键词词组中的关键词进行统计,统计完成后降序排列,从而生成热点话题;数据可视模块:为用户交互界面,完成对外的应用和展示任务,把社区文本上传模块中的得到的社区文本数据与热点话题提取模块中得到的热点话题数据展示在页面端;展示的内容包括社区文本数据的数据总量概况、数据分布概况和数据分析后生成的热点话题,热点话题的展示形式采用表格、柱状图、折线图并且结合地图的多种展示形式,直观的显示数据;所述数据整体概况展示数据概况,数据总种类,数据总量以及各个地区、主题的总量;数据分布概况将数据分布情况在地图上展示出来,直观的显示数据地理位置;数据分析概况将处理后生成的热点话题采用报表、图表并结合地图等形式展示给社区管理人员;数据存储与管理模块,对社区文本数据上传模块中上传的社区文本数据、数据预处理模块、向量提取模块以及热点话题提取模块中产生的相关数据进行存储与管理;社区文本数据上传模块上传的社区文本数据缓存在HDFS文件系统中,向量提取模块中训练的词向量结果缓存于Redis缓存数据库中,数据预处理模块和热点话题提取模块生成的数据缓存在HBase数据库中;对HDFS文件系统、HBase数据库和Redis缓存数据库进行管理,完成其中的数据增加、删除、修改和查询操作;同时支持定时任务对Redis缓存数据库中的缓存数据进行更新,以及维护HBase数据库中的索引表,优化对数据的查询,对HDFS文件系统中文件块的存储进行合并优化处理;访问HDFS与HBase均采用原始API,访问Redis采用封装好的Jedis JAR包。...

【技术特征摘要】
1.一种基于社区文本数据的话题发现系统,其特征在于:包括移动终端服务系统和服务器端系统;移动终端服务系统包括社区文本数据上传模块,负责社区文本数据的采集、提取和上传,接收采集的社区文本数据,提取所述社区文本数据的类型,并将社区文本数据及类型送上传至服务器端系统的数据预处理模块;所述社区文本数据包括民情数据与城管数据,所述民情数据包括社区环境卫生主题数据、社区安全主题数据、社区停车及公告主题数据以及社区管理主题数据,社区管理主题数据指物业与网格员日常执法情况,民情数据由社区居民与社区网格员上传;城管数据由城管人员上传,所述城管数据包括市容环境卫生主题数据、市政主题数据、城市绿化主题数据、城市规划主题数据及工商管理主题数据;所述社区文本数据的类型包括TXT格式、HTML格式、XML格式;服务器端系统包括数据预处理模块、向量提取模块、热点话题提取模块、数据可视模块和数据存储与管理模块;数据预处理模块:读取社区文本数据上传模块上传的社区文本数据,并进行社区文本数据的清洗和中文分词;所述社区文本数据读取针对不同类型的数据采取不同的读取策略,对于TXT格式的社区文本数据采用JAVA中BufferedReader直接读取成数据流形式,对于HTML与XML格式的社区文本数据均采用DOM的解析模式;所述社区文本数据的清洗完成对社区文本数据中有重复上报的进行剔除;所述中文分词是将清洗后社区文本数据切分成由中文单词组成的词特征向量;向量提取模块:负责对社区文本数据向量化表示;基于中文语料库对数据预处理模块后得到的词特征向量进行训练,提取关键词词组,并计算出关键词权值;结合词特征向量及关键词权值进行加权平均计算得出文本特征向量;所述词特征向量训练采用Word2Vec的JAVA版本,中文语料库采用项目所在地的新闻语料库;提到关键词词组采用TF-IDF特征提取;热点话题提取模块:基于向量提取模块中得出的关键词词组和文本的特征向量,采用Single-Pass聚类对文本进行聚类,得到类簇后根据向量提取模块中提取到的关键词词组,对关键词词组中的关键词进行统计,统计完成后降序排列,从而生成热点话题;数据可视模块:为用户交互界面,完成对外的应用和展示任务,把社区文本上传模块中的得到的社区文本数据与热点话题提取模块中得到的热点话题数据展示在页面端;展示的内容包括社区文本数据的数据总量概况、数据分布概况和数据分析后生成的热点话题,热点话题的展示形式采用表格、柱状图、折线图并且结合地图的多种展示形式,直观的显示数据;所述数据整体概况展示数据概况,数据总种类,数据总量以及各个地区、主题的总量;数据分布概况将数据分布情况在地图上展示出来,直观的显示数据地理位置;数据分析概况将处理后生成的热点话题采用报表、图表并结合地图等形式展示给社区管理人员;数据存储与管理模块,对社区文本数据上传模块中上传的社区文本数据、数据预处理模块、向量提取模块以及热点话题提取模块中产生的相关数据进行存储与管理;社区文本数据上传模块上传的社区文本数据缓存在HDFS文件系统中,向量提取模块中训练的词向量结果缓存于Redis缓存数据库中,数据预处理模块和热点话题提取模块生成的数据缓存在HBase数据库中;对HDFS文件系统、HBase数据库和Redis缓存数据库进行管理,完成其中的数据增加、删除、修改和查询操作;同时支持定时任务对Redis缓存数据库中的缓存数据进行更新,以及维护HBase数据库中的索引表,优化对数据的查询,对HDFS文件系统中文件块的存储进行合并优化处理;访问HDFS与HBase均采用原始API,访问Redis采用封装好的JedisJAR包。2.一...

【专利技术属性】
技术研发人员:熊桂喜朱宁何滔邹哲讷赵再让
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1