【技术实现步骤摘要】
一种城市管理信息舆情分析系统及方法
本专利技术涉及舆情分析系统,更具体说,它涉及一种城市管理信息舆情分析系统及方法。
技术介绍
近年来,随着互联网的快速发展,我国的网络舆论信息流量一直呈加速上升的态势,并且信息获取和交流平台也在不断增多。互联网在促进信息交流和社会进步的同时,也给城市管理带来许多问题和挑战,主要表现为社会言论的不可控性,爆发式舆论带来的负面社会影响等等。每当有负面舆论爆发时,会带来不可估量的负面社会效应。我国关于舆情思想和制度的建设有着悠久的历史,但是理论上真正对舆情的研究始于2003年,对网络舆情的研究始于2005年。因为舆情研究是一个新的社会科学与自然科学交叉的研究领域,在国内对此进行研究的人员和机构相对较少,研究深度也尚待加强。但近年来出现的一些有价值的研究成果,对理解和研究网络舆情很有启发意义。舆论无法完全避免,人为的舆论监控因其巨大的人力成本与反应时间慢等诸多限制,并不能在负面舆论爆发的第一时间进行舆论管控,采取有效的舆论信息分析及识别其情感特征,并对全网信息进行实时汇总和热度分析是城管舆情分析的重点研究内容。城管信息舆情的分析系统就是一种有效的非工程措施。专利201610047697.7“一种互联网舆情分析方法”提出了一种互联网舆情分析方法,所述互联网舆情分析方法包括:首先针对选定获取事件,微博源文本进行划分,去除与情绪无关的划分项;然后采用统计分析工具进行统计,得到情绪分类模型的一个输入;最后针对输入用分类算法对微博内容中能表达情绪的相关词语、表情、符号进行建模,给出综合情感指数评价,得到情绪分类,并进行舆情监控及情绪走势分析 ...
【技术保护点】
一种城市管理信息舆情分析系统,其特征在于,包括如下步骤:步骤一、构建分词数据库:采用基于Oracle的数据库对已有自然语言分词进行存储并为算法计算提供数据库支持;步骤二、实现文本数据的采集:采用基于Maven的项目管理系统,在前台进行文本数据的录入,用Ajax将数据存储与Json中的url进行与后台的交互,从而使服务器能获取需要分析的文本信息;步骤三、中文分词及分词后感情预处理:通过庖丁解牛算法对已有文本信息进行基本分词处理,将分词存入分词数据库标上索引并且在分词过程中同时进行情感值的计算,依据既定的若干特征向量,这些特征向量分为正面情感修饰词和负面情感修饰词,再根据分词的情感分析来进行索引评论或帖子的感情值计算与分析;步骤四、分词后过滤:一个帖子中会有许多无用的词汇,称之为噪声词汇,过滤工作是通过特定的算法,通过既定的基词特征向量或基词库将噪声词汇过滤,然后将过滤后的结果插入到热点词库;步骤五、热点和情感分析:根据步骤四计算得出的热点词库及每个分词对应的情感向量对所有分析数据进行情感值计算和热度统计,得出每个句子对应的情感值以及分词的热度排序,并将分析结果进行可视化处理;步骤六、将结 ...
【技术特征摘要】
1.一种城市管理信息舆情分析系统,其特征在于,包括如下步骤:步骤一、构建分词数据库:采用基于Oracle的数据库对已有自然语言分词进行存储并为算法计算提供数据库支持;步骤二、实现文本数据的采集:采用基于Maven的项目管理系统,在前台进行文本数据的录入,用Ajax将数据存储与Json中的url进行与后台的交互,从而使服务器能获取需要分析的文本信息;步骤三、中文分词及分词后感情预处理:通过庖丁解牛算法对已有文本信息进行基本分词处理,将分词存入分词数据库标上索引并且在分词过程中同时进行情感值的计算,依据既定的若干特征向量,这些特征向量分为正面情感修饰词和负面情感修饰词,再根据分词的情感分析来进行索引评论或帖子的感情值计算与分析;步骤四、分词后过滤:一个帖子中会有许多无用的词汇,称之为噪声词汇,过滤工作是通过特定的算法,通过既定的基词特征向量或基词库将噪声词汇过滤,然后将过滤后的结果插入到热点词库;步骤五、热点和情感分析:根据步骤四计算得出的热点词库及每个分词对应的情感向量对所有分析数据进行情感值计算和热度统计,得出每个句子对应的情感值以及分词的热度排序,并将分析结果进行可视化处理;步骤六、将结果进行可视化处理并以Excel格式保存并输出。2.根据权利要求1所述的城市管理信息舆情分析系统,其特征在于,所述步骤一具体包含:基于Oracle的数据库的表设计,包括舆情表、分词表、基词表、过滤后分词表,所述的舆情表包含的字段有对应信息的编号、内容、时间、来源、情感分析值、来源地址,所述的分词表包含的字段有分词编号、分词内容、分词对应的信息来源编号、词性、情感数据、来源信息内容,所述的基词表包含的字段有基词编号和基词内容,所述的过滤后分词表包含的字段有过滤后分词编号、过滤后分词内容、分词对应的信息来源编号、分词频数。3.根据权利要求1所述的城市管理信息舆情分析系统,其特征在于,所述的步骤二具体包括:通过Maven系统在前台输入帖子内容及编号,并通过Json数据交换格式和url与服务器端进行交互,将文本内容传递给服务器并按照舆情表的数据格式进行保存。4.根据权利要求1所述的城市管理信息舆情分析系统,其特征在于,所述的步骤三具体包含:使用庖丁解牛算法进行分词:将字符串传入庖丁解牛算法进行分词,分词后以引号括出分词,以空格隔开分词,将分词格式重写,然后去掉分词标记,只留下分词和空格,将此结果传递给主函数,主函数计算分词后的空格数来确定分词数量,去掉空格,将分词后的字符串正式转为以分词为单位的数组;情感统计:读取已建立的基词表和分词表,导入正面情感向量数组、负面情感向量数组、情感程度向量数组和否定情感向量数组,用for循环在逐个判断分词向量,将情感向量用boolean变量输出,正面情感为true,负面情感为false;感情修饰统计:感情程度的统计分析要根据感情程度向量而定,不同的感情程度相对于不同的数据,若中心词为负面词语,将二元情感置为-1.弱第一元为否定,则置为-1,与第二元相乘否定负面为正面,若中心词前有修饰词,则乘以相应权值以表示感情程度,先计算末二元的正面程度,再与否定向量相加,得出情感值结果;通过三元组法进行情感统计分析,设置三元各部...
【专利技术属性】
技术研发人员:陈观林,庞华健,沈啸扬,
申请(专利权)人:浙江大学城市学院,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。