一种城市管理信息舆情分析系统及方法技术方案

技术编号:18007029 阅读:40 留言:0更新日期:2018-05-21 07:39
本发明专利技术涉及一种城市管理信息舆情分析系统及方法,包括构建分词数据库;实现文本数据的采集;中文分词及分词后感情预处理;分词后过滤;热点和情感分析;将结果进行可视化处理并以Excel格式保存并输出。本发明专利技术的有益效果是:利用分词算法和情感向量算法对舆情进行分析,挖掘出城市管理信息舆情的热点和情感方向,通过舆情对于城市管理建设的反作用力来进一步加强工作的针对性,从而提高城管工作的效率、获益率,加强城市管理建设。本发明专利技术提出了一种基于情感向量的舆情情感分析算法,能对舆情进行有效准确的情感预测,从而为舆情热点统计及舆情方向把控提供支持。

【技术实现步骤摘要】
一种城市管理信息舆情分析系统及方法
本专利技术涉及舆情分析系统,更具体说,它涉及一种城市管理信息舆情分析系统及方法。
技术介绍
近年来,随着互联网的快速发展,我国的网络舆论信息流量一直呈加速上升的态势,并且信息获取和交流平台也在不断增多。互联网在促进信息交流和社会进步的同时,也给城市管理带来许多问题和挑战,主要表现为社会言论的不可控性,爆发式舆论带来的负面社会影响等等。每当有负面舆论爆发时,会带来不可估量的负面社会效应。我国关于舆情思想和制度的建设有着悠久的历史,但是理论上真正对舆情的研究始于2003年,对网络舆情的研究始于2005年。因为舆情研究是一个新的社会科学与自然科学交叉的研究领域,在国内对此进行研究的人员和机构相对较少,研究深度也尚待加强。但近年来出现的一些有价值的研究成果,对理解和研究网络舆情很有启发意义。舆论无法完全避免,人为的舆论监控因其巨大的人力成本与反应时间慢等诸多限制,并不能在负面舆论爆发的第一时间进行舆论管控,采取有效的舆论信息分析及识别其情感特征,并对全网信息进行实时汇总和热度分析是城管舆情分析的重点研究内容。城管信息舆情的分析系统就是一种有效的非工程措施。专利201610047697.7“一种互联网舆情分析方法”提出了一种互联网舆情分析方法,所述互联网舆情分析方法包括:首先针对选定获取事件,微博源文本进行划分,去除与情绪无关的划分项;然后采用统计分析工具进行统计,得到情绪分类模型的一个输入;最后针对输入用分类算法对微博内容中能表达情绪的相关词语、表情、符号进行建模,给出综合情感指数评价,得到情绪分类,并进行舆情监控及情绪走势分析。该专利技术对微博中词语、表情和符号等进行情绪建模,通过情绪指数计算,可对微博中热点事件的反应情势进行自动分类和有效监控。专利201410073473.4“舆情分析方法及系统”提出一种舆情分析方法,包括以下步骤:根据搜索请求搜索并读取网页文件;从网页文件中提取舆情信息;对舆情信息进行分类;对每个分类结果中的舆情信息进行进一步分析以得到每个分类结果中的舆情信息对应的起源、舆论情感色彩、网络扩散状态、发展趋势、地域信息和年龄段信息;根据对舆情信息的进一步分类结果以及预设的证据保全规则判断是否对舆情信息进行证据保全。这些方法和系统只实现了对特定网页或文本进行舆情分析和定性,不能实现对城市管理信息的智能化舆情分析。
技术实现思路
本专利技术的目的是克服现有技术中对城市管理信息、情感分析和热词统计等功能的不足,提供一种城市管理信息舆情分析系统。这种城市管理信息舆情分析系统,包括如下步骤:步骤一、构建分词数据库:采用基于Oracle的数据库对已有自然语言分词进行存储并为算法计算提供数据库支持;步骤二、实现文本数据的采集:采用基于Maven的项目管理系统,在前台进行文本数据的录入,用Ajax将数据存储与Json中的url进行与后台的交互,从而使服务器能获取需要分析的文本信息;步骤三、中文分词及分词后感情预处理:通过庖丁解牛算法对已有文本信息进行基本分词处理,将分词存入分词数据库标上索引并且在分词过程中同时进行情感值的计算,依据既定的若干特征向量,这些特征向量主要分为正面情感修饰词和负面情感修饰词,再根据分词的情感分析来进行索引评论或帖子的感情值计算与分析;步骤四、分词后过滤:一个帖子中会有许多无用的词汇,也称之为噪声词汇,过滤工作主要是通过特定的算法,通过既定的基词特征向量或基词库将其过滤,然后将过滤后的结果插入到热点词库;步骤五、热点和情感分析:根据步骤四计算得出的热点词库及每个分词对应的情感向量对所有分析数据进行情感值计算和热度统计,得出每个句子对应的情感值以及分词的热度排序,并将分析结果进行可视化处理;步骤六、将结果进行可视化处理并以Excel格式保存并输出。所述步骤一具体包含:基于Oracle的数据库的表设计,主要包括舆情表、分词表、基词表、过滤后分词表,所述的舆情表包含的字段有对应信息的编号、内容、时间、来源、情感分析值、来源地址,所述的分词表包含的字段有分词编号、分词内容、分词对应的信息来源编号、词性、情感数据、来源信息内容,所述的基词表包含的字段有基词编号和基词内容,所述的过滤后分词表包含的字段有过滤后分词编号、过滤后分词内容、分词对应的信息来源编号、分词频数。所述的步骤二具体包括:通过Maven系统在前台输入帖子内容及编号,并通过Json数据交换格式和url与服务器端进行交互,将文本内容传递给服务器并按照舆情表的数据格式进行保存。所述的步骤三具体包含:使用庖丁解牛算法进行分词:将字符串传入庖丁解牛算法进行分词,分词后以引号括出分词,以空格隔开分词,将分词格式重写,然后去掉分词标记,只留下分词和空格,将此结果传递给主函数,主函数计算分词后的空格数来确定分词数量,去掉空格,将分词后的字符串正式转为以分词为单位的数组。情感统计:读取已建立的基词表和分词表,导入正面情感向量数组、负面情感向量数组、情感程度向量数组和否定情感向量数组,用for循环在逐个判断分词向量,将情感向量用boolean变量输出,正面情感为true,负面情感为false。感情修饰统计:感情程度的统计分析要根据感情程度向量而定,不同的感情程度相对于不同的数据,若中心词为负面词语,将二元情感置为-1.弱第一元为否定,则置为-1,与第二元相乘否定负面为正面,若中心词前有修饰词,则乘以相应权值以表示感情程度,先计算末二元的正面程度,再与否定向量相加,得出情感值结果。通过三元组法进行情感统计分析,设置三元各部分和总数值起始值为0,记三元组分别为整形变量res1、res2、res3,记总数值为整形变量res,若中心词为负面词,则设置第二元变量res2为-1,若第一元为否定分为如下三种情况:1)若第一元为否定,则设置res1为-1,令总数值等于res2乘以res1,否定的负面即为肯定;2)若负面词前有修饰词,则res1赋值为相应权值,令res等于res1乘以res2,以说明负面程度,返回总数值res;3)若只有第二元中心词,则总数值res等于中心词res2的数值,返回总数值res;当中心词res2为正面情感时,统计方法与上述负面统计分析类似。当中心词为否定词时,分为如下情况:1)当只有中心词res2时,令总数值res等于res2,返回总数值res0;2)当存在修饰词res3时,令总数值res等于res2乘以res3,返回总数值res0;3)当存在修饰词时,令res1等于对应权值,令res等于res2乘以res3加res1,返回总数值res0;当中心词为保守否定时,先计算末二元的正面程度,再与否定向量相加,得出最终结果。若修饰词为极端否定向量,则将否定向量与负面向量相乘,得出其否定程度。所述的步骤四具体包含:通过步骤三得出的分词表中提取出感情值为0的词语,然后根据基词库中的基本信息对比过滤掉一些噪声词语,即没有意义的词汇,剩下的词多为名次,主要包括地名、日期和人名等等,这些词才可以成为热点词汇,将过滤后的结果放入热点词库中。,统计的最小单位是舆情元,所谓舆情元就是将词汇、来源绑定在一起形成的一个单元插入热点过滤词库中,在统计时,如果词汇来源和词汇均与数据库中已有词汇相同的情况,则不计入统计,只在已有词汇的本文档来自技高网
...
一种城市管理信息舆情分析系统及方法

【技术保护点】
一种城市管理信息舆情分析系统,其特征在于,包括如下步骤:步骤一、构建分词数据库:采用基于Oracle的数据库对已有自然语言分词进行存储并为算法计算提供数据库支持;步骤二、实现文本数据的采集:采用基于Maven的项目管理系统,在前台进行文本数据的录入,用Ajax将数据存储与Json中的url进行与后台的交互,从而使服务器能获取需要分析的文本信息;步骤三、中文分词及分词后感情预处理:通过庖丁解牛算法对已有文本信息进行基本分词处理,将分词存入分词数据库标上索引并且在分词过程中同时进行情感值的计算,依据既定的若干特征向量,这些特征向量分为正面情感修饰词和负面情感修饰词,再根据分词的情感分析来进行索引评论或帖子的感情值计算与分析;步骤四、分词后过滤:一个帖子中会有许多无用的词汇,称之为噪声词汇,过滤工作是通过特定的算法,通过既定的基词特征向量或基词库将噪声词汇过滤,然后将过滤后的结果插入到热点词库;步骤五、热点和情感分析:根据步骤四计算得出的热点词库及每个分词对应的情感向量对所有分析数据进行情感值计算和热度统计,得出每个句子对应的情感值以及分词的热度排序,并将分析结果进行可视化处理;步骤六、将结果进行可视化处理并以Excel格式保存并输出。...

【技术特征摘要】
1.一种城市管理信息舆情分析系统,其特征在于,包括如下步骤:步骤一、构建分词数据库:采用基于Oracle的数据库对已有自然语言分词进行存储并为算法计算提供数据库支持;步骤二、实现文本数据的采集:采用基于Maven的项目管理系统,在前台进行文本数据的录入,用Ajax将数据存储与Json中的url进行与后台的交互,从而使服务器能获取需要分析的文本信息;步骤三、中文分词及分词后感情预处理:通过庖丁解牛算法对已有文本信息进行基本分词处理,将分词存入分词数据库标上索引并且在分词过程中同时进行情感值的计算,依据既定的若干特征向量,这些特征向量分为正面情感修饰词和负面情感修饰词,再根据分词的情感分析来进行索引评论或帖子的感情值计算与分析;步骤四、分词后过滤:一个帖子中会有许多无用的词汇,称之为噪声词汇,过滤工作是通过特定的算法,通过既定的基词特征向量或基词库将噪声词汇过滤,然后将过滤后的结果插入到热点词库;步骤五、热点和情感分析:根据步骤四计算得出的热点词库及每个分词对应的情感向量对所有分析数据进行情感值计算和热度统计,得出每个句子对应的情感值以及分词的热度排序,并将分析结果进行可视化处理;步骤六、将结果进行可视化处理并以Excel格式保存并输出。2.根据权利要求1所述的城市管理信息舆情分析系统,其特征在于,所述步骤一具体包含:基于Oracle的数据库的表设计,包括舆情表、分词表、基词表、过滤后分词表,所述的舆情表包含的字段有对应信息的编号、内容、时间、来源、情感分析值、来源地址,所述的分词表包含的字段有分词编号、分词内容、分词对应的信息来源编号、词性、情感数据、来源信息内容,所述的基词表包含的字段有基词编号和基词内容,所述的过滤后分词表包含的字段有过滤后分词编号、过滤后分词内容、分词对应的信息来源编号、分词频数。3.根据权利要求1所述的城市管理信息舆情分析系统,其特征在于,所述的步骤二具体包括:通过Maven系统在前台输入帖子内容及编号,并通过Json数据交换格式和url与服务器端进行交互,将文本内容传递给服务器并按照舆情表的数据格式进行保存。4.根据权利要求1所述的城市管理信息舆情分析系统,其特征在于,所述的步骤三具体包含:使用庖丁解牛算法进行分词:将字符串传入庖丁解牛算法进行分词,分词后以引号括出分词,以空格隔开分词,将分词格式重写,然后去掉分词标记,只留下分词和空格,将此结果传递给主函数,主函数计算分词后的空格数来确定分词数量,去掉空格,将分词后的字符串正式转为以分词为单位的数组;情感统计:读取已建立的基词表和分词表,导入正面情感向量数组、负面情感向量数组、情感程度向量数组和否定情感向量数组,用for循环在逐个判断分词向量,将情感向量用boolean变量输出,正面情感为true,负面情感为false;感情修饰统计:感情程度的统计分析要根据感情程度向量而定,不同的感情程度相对于不同的数据,若中心词为负面词语,将二元情感置为-1.弱第一元为否定,则置为-1,与第二元相乘否定负面为正面,若中心词前有修饰词,则乘以相应权值以表示感情程度,先计算末二元的正面程度,再与否定向量相加,得出情感值结果;通过三元组法进行情感统计分析,设置三元各部...

【专利技术属性】
技术研发人员:陈观林庞华健沈啸扬
申请(专利权)人:浙江大学城市学院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1