基于工单的热词挖掘、分类和分析的方法和系统技术方案

技术编号:33435159 阅读:12 留言:0更新日期:2022-05-19 00:24
本申请涉及一种基于工单的热词数据挖掘的方案,包括:将来自各个数据源的多个工单进行数据整合;对整合后的工单数据进行全量工单的词频统计及关键词获取;以及根据获得的所述工单的关键词,创建对应的主题类别和基础主题关键词词袋;其中,所述主题关键词词袋是属于该主题的所述关键字的集合。所述申请还包括基于上述挖掘出的主题对工单进行分类、分析和展示的对应方案。示的对应方案。示的对应方案。

【技术实现步骤摘要】
基于工单的热词挖掘、分类和分析的方法和系统


[0001]本申请涉及大数据分析,尤其是基于网格工单及热线工单的热词数据挖掘分析的方案。

技术介绍

[0002]随着现代城市的规模越来越大,人口聚集越来越多,生活基础设施越来越复杂,对于城市的管理的要求也越来越高。为了满足城市治理和执法的需求和方便市民群众的诉求,现有的大多数的城市管理职能部门都采用了各种形式来收集市民群众对本部门的诉求,比如通过电话、短信、网络等形式接收用户的投诉和意见,并将其录入到系统中以形成相应的工单。该工单可以包括创建时间、投诉人、地点、联系电话、具体内容、处理状态、反馈等字段以反映出具体的投诉问题。所述工单在生成后被派发给相应的处理人员以进行处理,并且在处理完成后,为了提高服务质量,还会对该工单进行完成度分析。
[0003]目前现有的工单分析方式主要通过计算全部工单的平均满意度来衡量所有工单的整体处置情况。这种分析并未通过数据分析及AI算法来深入挖掘工单中的重点问题来处理预防,还是通过以人工的方式针对不满意工单逐个进行分析、讨论,利用经验找到市民近期不满意的重点事件并分析原因,这种方式依赖于工作人员的能力,且工作量巨大、效率较低。
[0004]因此,希望能提供一种基于网格工单及热线工单的热词数据挖掘分析方法,通过对现有工单数据进行分析,解决传统技术方法需要大量数据标注的人工成本过高、信息挖掘深度不足及可视化效果不直观等问题。

技术实现思路

[0005]本申请涉及一种基于工单的热词数据挖掘方案,以及利用所挖掘出的热词对工单进行分类、分析和展示的一整套方案。
[0006]根据本申请的第一方面,提供了一种基于工单的热词数据挖掘的方法,包括:将来自各个数据源的多个工单进行数据整合;对整合后的工单数据进行全量工单的词频统计及关键词获取;以及根据获得的所述工单的关键词,创建对应的主题类别和基础主题关键词词袋;其中,所述主题关键词词袋是属于该主题的所述关键字的集合。
[0007]根据本申请的第二方面,提供了一种基于热词的工单分类的方法,包括:接收到新的工单;对所述工单进行数据整合以转换成对应的文本信息;从所述文本信息中提取地理位置信息;对所述工单的文本信息进行词频统计及关键词获取;通过将所提取的所述工单的关键字与利用权利要求1所述的方法中创建的各基础主题关键词词袋中的关键字进行匹配,从而确定所述工单所属的主题类别;以及将所述工单和其主题类别及其地理位置信息相关联地存储到存储器中的工单数据库。
[0008]根据本申请的第三方面,提供了一种工单分析的方法,包括:从用户接收查询请求,所述查询请求可包括指定的要查询的主题类别信息和地理位置信息中的至少一者;通
过分析所述查询请求,从工单数据库中检索出与所述查询请求相关联的工单作为分析结果;以及将所述分析结果展示给做出请求的所述用户以辅助其进行决策。
[0009]根据本申请的第四方面,提供了一种计算机系统,包括用于执行如第一方面所述的方法的装置。
[0010]提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。
附图说明
[0011]为了描述可获得本专利技术的上述和其它优点和特征的方式,将通过参考附图中示出的本专利技术的具体实施例来呈现以上简要描述的本专利技术的更具体描述。可以理解,这些附图只描绘了本专利技术的各典型实施例,并且因此不被认为是对其范围的限制,将通过使用附图并利用附加特征和细节来描述和解释本专利技术,在附图中:
[0012]图1展示了根据本申请的一个实施例的一种基于工单的热词数据挖掘的方法的示意流程图。
[0013]图2展示了根据本申请的一个实施例的一种基于图1生成的热词的工单分类的方法的示意流程图。
[0014]图3展示了根据本申请的一个实施例的一种工单分析的方法的示意流程图。
[0015]图4以三维热力图形式展示了所属区域中各街道的对应热点问题呈现的严重程度效果示意图。
具体实施方式
[0016]为了解决现有的工单人工分析费时费力、效率低下的问题,在本公开的方案中利用了大数据热词分析技术,通过对其进行改进使得所述工单分析变得自动化且高效率。
[0017]所述方案可被用于分析市政工单,例如咨询与投诉工单,找出关注重点相关主题的工单信息,结合工单坐标,将关注重点主题的重点区域识别出来。通过智能热搜词挖掘潜在隐患,找出市民关切的具有共性和倾向性的问题,辅助维护人员合理安排人员,提前排查隐患,对不同的隐患类型分类施策,通过配强人员、备齐物资、保障物业等方式优化管理防控手段,从而,全面提升广大群众的生活质量和幸福指数。
[0018]现阶段大数据热词分析的实现方法,主要通过统计学习方法进行实现,一般利用词频梯度和平滑方法进行热词的提取。对数据分词后采用梯度和贝叶斯平均(Bayesian model averaging,BM)进行热词热度分数的计算,最后,根据分数高低进行热词的选择。
[0019]但是,根据工单分析的特点,在提取主题关键词数据集时,不仅需要在工单描述文本中根据词频统计形成热词数据集,还需要根据业务需求和事项分类对工单进行标签化处理,形成主要主题数据集。
[0020]因此,本公开专门根据市民工单的业务背景特点提出了一种基于工单(例如网络工单以及热线工单)的热词数据挖掘分析方法和其配套方案。
[0021]在开始描述本公开的方案之前,先对所述方案中可能涉及一些重要的技术术语进行下解释,其中:
[0022]文本分析:
[0023]文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。文本(text),与讯息(message)的意义大致相同,指的是由一定的符号或符码组成的信息结构体,这种结构体可采用不同的表现形态,如语言的、文字的、影像的等等。文本是由特定的人制作的,文本的语义不可避免地会反映人的特定立场、观点、价值和利益。因此,通过文本内容分析,可以推断文本提供者的意图和目的。
[0024]聚类算法:
[0025]聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。
[0026]聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。
[0027]聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。
[0028]热力图:
[0029]以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区域的图示。热力图可以显示不可点击区域发生的事情。城市热力图这种检测方式一般只提供参考。
[0030]热搜词云:
[0031]由美国西北大学新闻学副教授、新媒体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于工单的热词数据挖掘的方法,包括:将来自各个数据源的多个工单进行数据整合;对整合后的工单数据进行全量工单的词频统计及关键词获取;以及根据获得的所述工单的关键词,创建对应的主题类别和基础主题关键词词袋;其中,所述主题关键词词袋是属于该主题的所述关键字的集合。2.如权利要求1所述的方法,其特征在于,所述数据整合步骤包括:将所述工单进行结构化以生成对应的文本信息;对所述文本信息进行规范化。3.如权利要求1所述的方法,其特征在于,所述全量工单词频统计及关键词获取的步骤包括:对所述工单的内容进行分词处理;统计每个词出现的次数作为词频;以及按照所述词频排序所述词,并将词频高的词选作为关键词。4.如权利要求1所述的方法,其特征在于,所述根据获得的所述工单的关键词,创建对应的主题类别和基础主题关键词词袋的步骤包括:人工定义一组预设主题词;对所提取的工单的关键词进行词性类别分类处理;比较所述关键词的词向量与各个预设主题的词向量的相似度;对所述关键词与所述主题词的相似度进行排序,并选择相似度较高的关键词来创建基础主题关键词词袋。5.如权利要求1所述的方法,其特征在于,所述方法还包括:当接收到新工单时,重复执行所述数据整合、词频统计及关键词获取以及主题类别与词袋创建的步骤以更新所创建的基础主题关键词词袋。6.如权利要求1所述的方法,其特征在于,所述方法还包括:通过语义上下文关联模型,依据词性类别相关性和词性类别预测,对...

【专利技术属性】
技术研发人员:邬树纯倪莺徐喆张宇扬傅纲李权章杨剑韩学进
申请(专利权)人:上海市黄浦区城市运行管理中心上海市黄浦区城市网格化综合管理中心上海市黄浦区大数据中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1