一种基于社区治理数据的大数据分析方法及系统技术方案

技术编号:30541839 阅读:37 留言:0更新日期:2021-10-30 13:19
本发明专利技术提出了一种基于社区治理数据的大数据分析方法及系统,收集社区群聊天记录,提取聊天内容主体用作语料集;根据用户的停词表和jieba分词表对语料集进行分词操作,利用word2vec神经网络算法生成分词的词向量,利用K

【技术实现步骤摘要】
一种基于社区治理数据的大数据分析方法及系统


[0001]本专利技术涉及自然语言分析领域,特别涉及一种基于社区治理数据的大数据分 析方法及系统。

技术介绍

[0002]在新时代的背景下,我们对社区治理也应该与时俱进,通过社区群来实时的 获取居民的聊天动态,通过大数据自然语言处理技术,分析社区群聊天记录内容 的正负面情感倾向可以有效及时的反映居民的需求。例如,获取一个目标聊天记 录语句后,我们可以实时的分析情感倾向,比如句子“24栋旁边路灯坏了,需要 维修。”情感倾向为负面标签,我们获取到负面句子时就能迅速做出反应,安排 维修员进行修理。以此进行社区治理将会达到非常好的效果。

技术实现思路

[0003]本专利技术的目的在于提出一种基于社区治理数据的大数据分析方法及系统。
[0004]实现本专利技术目的的技术解决方案为:一种基于社区治理数据的大数据分析方 法,包括如下步骤:
[0005]步骤1,收集社区群聊天记录,提取聊天内容主体用作语料集,存入数据库;
[0006]步骤2,根据用户的停词表和jieba分词表对本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于社区治理数据的大数据分析方法,其特征在于,包括如下步骤:步骤1,收集社区群聊天记录,提取聊天内容主体用作语料集,存入数据库;步骤2,根据用户的停词表和jieba分词表对语料集进行分词操作,利用word2vec神经网络算法生成分词的词向量;步骤3,利用K

means算法对步骤2的词向量进行聚类分析,确定聚类主题和主题关键词,构建舆情分类表;步骤4,对语料集进行正负面情感倾向标注,训练情感分析模型,所述情感分析模型的训练过程为:先利用BiLSTM算法对步骤2的词向量序列进行处理,然后利用双曲正切函数对处理结果进行映射,通过softmax将映射值最大的情感类别作为预测的情感倾向标签,最后根据预测的情感倾向标签和真实的正负面情感倾向标签计算损失函数,并且根据损失函数调整正负面情感倾向分析模型参数,完成训练;步骤5,接收实时的社区群聊天记录,提取聊天内容主体进行分词和向量化操作,与步骤2得到的词向量进行相似度计算获取相似词集,对比相似词集与舆情分类表主题关键词确定目标句子综合舆情分类结果,同时将目标句子的分词向量输入训练完成的情感分析模型中,得到目标句子的情感倾向标签。2.根据权利要求1所述的基于社区治理数据的大数据分析方法,其特征在于,步骤1和步骤5中,对社区群聊天记录提取聊天内容主体的具体方法为:对聊天记录进行预处理,将聊天记录集中的广告、天气、系统提示语、表情、空行、昵称去除,即得到聊天内容主体。3.根据权利要求1所述的基于社区治理数据的大数据分析方法,其特征在于,步骤3中,利用K

means算法对步骤2的词向量进行聚类分析,确定聚类主题和主题关键词,构建舆情分类表,其中:聚类主题为大类,包括维修维护、环境卫生、医疗教育、社区自治、停车管理、治安巡逻、便民生活、菜场治理、邻里文明生活、矛盾调解;主题关键词为离聚类中心点小于设定阈值词向量对应的分词。4.根据权利要求1所述的基于社区治理数据的大数据分析方法,其特征在于,步骤4中,对语料集进行正负面情感倾...

【专利技术属性】
技术研发人员:崔俊赵凯
申请(专利权)人:南京市栖霞区民政事务服务中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1