一种基于挖掘市民投诉文本的公共安全事件事前预警方法技术

技术编号:20866691 阅读:16 留言:0更新日期:2019-04-17 09:23
本发明专利技术公开了一种基于挖掘市民投诉文本的公共安全事件事前预警方法,主要通过文本分析构建企业名称词库与行业经营范围词库,形成自定义词典;利用自定义词典对市民投诉文本内容进行切分,再进行企业名称的模糊匹配和行业经营范围的二次关联,最终将公共安全事件与企业匹配,并依据企业匹配上的市民投诉记录数进行企业排名,形成高危企业列表,并采取相应预警措施。本发明专利技术的数据具体利用市民投诉文本信息,无需特意布置相应的监控设备,信息来源渠道广泛,且能够进行公共安全事件的有效事情预警。

【技术实现步骤摘要】
一种基于挖掘市民投诉文本的公共安全事件事前预警方法
本专利涉及公共安全
,具体涉及一种基于挖掘市民投诉文本的公共安全事件事前预警方法。
技术介绍
公共安全,是指人群生命和财产安全未受到威胁,涉及公共领域的秩序、利益、价值能够按照公共生活的固有逻辑正常运转的状态。公共安全事件容易对社会秩序和社会稳定造成重大的负面影响,因而及时、有效的预测和预警公共安全突发事件,对于确保社会平稳运行具有重大的现实意义。传统的公共安全事件预警机制通过监控系统建立,但是公共安全监控系统不能自动判别危险信息,需要值班人员实时查看监控系统发现危险信息,因此需要很大的人力成本且不能真正做到实时提前预警。针对上述痛点,中国专利申请CN106780235A公开了一种社会安全事件监测及追溯方法,该方法包括:建立预测预警数据库、案例库、预案库和专家评判库;设定突发安全事件的指标数据;对新调入预测预警数据库中的数据进行模型演算,分析并预测社会安全事件的走势,并采用图形显示预测结果;根据预测社会安全事件的走势生成预警等级,并为决策者提供辅助决策。不过该技术方案涉及的公共安全监控系统仅为视频监控系统,而大多数公共安全事件都会发出意外声音,如爆炸、犯罪受害人的呼救等。再如中国专利申请CN102938187A公开了一种公共安全事件检测系统,涉及公共安全事件信息监控的
系统由传感器和控制中心平台两部分组成,其中传感器包括:火灾探测器、声音(爆炸)传感器和视频传感器等物理感知器件,用于采集道路及其周边信息;控制中心平台包括节点控制器,与上述传感器及其处理电路相连,并完成信号采集与判别,并发出预警信号和其他控制指令。但是该技术方案需要特意布置相应的监控设备,渠道较为有限。目前公共安全监控系统,都需要单独布线,因此只有在人口稠密的城市关键地带布设,而犯罪、事故高发的城镇郊区和偏远路段,由于种种原因难以布设相应的公共安全监控系统。与此同时,市民维权意识增强,投诉量近年来基本保持不断上升的态势,并且市民投诉内容涉及个人消费、食品安全和环保等多个方面。当下对用户投诉内容的分析研究已被广泛应用在服务业以及金融业等行业以提高用户满意度和黏性。对于公共安全领域,借助对用户投诉内容的分析挖掘,省去了提前布置相应传感器,并且便于针对性的建立事前预警机制。例如,中国专利申请CN106529804A公开了一种基于文本挖掘技术的投诉预警监测分析方法,包括:文本数据规范化步骤,将录入的文本数据转成统规则的规范化数据模式;规范化数据分析预警步骤,通过建立投诉分析等级聚类模型对规范化数据模式进行分析,根据聚类结果划分投诉风险等级,根据风险所在等级发出预警。但该技术方案着重于对客户的反馈文本进行情感分析。现有的投诉处理实现方法是被动的、低效的、延迟的。上一级的投诉处理人员的处理内容对下一级的投诉处理人员帮助较小,每一层投诉处理人员,都要仔细阅读投诉文本内容,进行自己相应的处理,造成重复劳动,效率低下的问题,而且根据投诉处理人员对业务掌握的程度不同,对于用户投诉回复质量也参差不齐,降低了用户满意度。这种人工分析存在大量的主观因素,并不能作为权威的公共安全预警机制的建立依据。
技术实现思路
针对现有技术的不足,本专利技术旨在提供一种基于挖掘市民投诉文本的公共安全事件事前预警方法,利用市民投诉文本信息进行预警,无需特意布置相应的监控设备,来源渠道广泛,且能够进行公共安全事件的有效事情预警。为了实现上述目的,本专利技术采用如下技术方案:一种基于挖掘市民投诉文本的公共安全事件事前预警方法,包括如下步骤:S1、获取原始市民投诉文本内容以及企业的基础信息,所述基础信息包括企业全称信息、归属行业信息及经营范围信息;S2、对所获取的所有企业全称信息进行分词;S3、针对步骤S2中得到的分词结果,提取其中的高频词,并根据高频词建立企业全称信息停用词库与企业全称信息自定义词典;S4、对步骤S1中获取的所有企业全称信息再进行分词,并利用步骤S3中建立得到的企业全称信息停用词库与企业全称信息自定义词典进行降噪,构建得到企业名称词库;S5、按照企业的归属行业信息,将每个行业下具有的经营范围信息进行归纳并整理成文档;S6、使用分词包对步骤S5得到的文档中的企业的经营范围信息进行分词,建立企业经营范围停用词库和企业经营范围自定义词典;S7、对步骤S5得到的文档中的企业的经营范围信息再次进行分词,并使用步骤S6中得到的企业经营范围停用词库和企业经营范围自定词典对再次分词的结果进行降噪,得到每个行业的经营范围信息的分词结果;S8、对每个行业的经营范围信息的分词结果提取关键词,并利用提取得到的关键词构建行业经营范围词库;S9、使用步骤S4中构建得到的企业名称词库与步骤S8中构建得到的行业经营范围词库作为分词自定义词典对步骤S1中获取的原始市民投诉文本内容进行分词,得到分词文本;S10、对步骤S9得到的分词文本和步骤S4中构建得到的企业名称词库进行模糊名称匹配;S11、基于步骤S10得到的模糊名称匹配结果,进行行业经营范围的二次关联,确定关联企业;S12、依据关联企业对应的市民投诉文本内容的数量进行企业排名,形成高危企业列表,对高危企业采取相关高位预警措施。进一步地,步骤S2中,使用中文结巴分词包的精确模式进行分词。进一步地,步骤S8中,采用TF-IDF计算每个行业的经营范围信息的分词结果中各个分词的权重,提取关键词。进一步地,步骤S10中,模糊名称匹配的过程为:首先进行对分词文本中每一个词语进行低频词判定,若该词语在企业名称词库中对应的企业数小于设定值k则被记作低频词,且低频词对应的企业直接作为模糊名称匹配结果;同时,各个非低频词所对应的企业集合之间若存在交集,则交集中的企业也作为模糊名称匹配结果。进一步地,步骤S11的具体过程为:针对模糊名称匹配结果中的每一个企业,追溯其归属行业信息,通过行业经营范围词库获取相应的经营范围的关键词,并判断获得的经营范围的关键词在该条市民投诉文本内容中出现的个数,记作共现数;最后选取共现数最大所对应的企业作为该条投诉文本最终的关联企业。本专利技术的有益效果在于:1、本专利技术中,对于公共安全事件来源的获取,采用的是市民投诉文本信息,无需特意布置相应的监控设备,并且市民投诉信息来源于劳动监察部门、交通局、市场监督部门等多种渠道,来源渠道广泛。2、本专利技术中对于投诉文本分析侧重于投诉文本中投诉主体的识别,以布尔表达式为基础的匹配模型,文本的相关性是以是否满足布尔表达式为依据,若关键词出现在文本中,则表达式为1,否则为0。在该模型的基础上,引入了对文本进行切词分词再次匹配等方法,提高了匹配的效率和精度。附图说明图1为本专利技术实施例中的方法总体流程图;图2为本专利技术实施例中公共安全事件关联流程示例图;具体实施方式以下将结合附图对本专利技术作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围并不限于本实施例。如图1-2所示,一种基于挖掘市民投诉文本的公共安全事件事前预警方法,包括如下步骤:S1、获取原始市民投诉文本内容以及企业的基础信息,所述基础信息包括企业全称信息、归属行业信息及经营范围信息;S2、对所获取的所有企业全称信息使用分词包进行分本文档来自技高网
...

【技术保护点】
1.一种基于挖掘市民投诉文本的公共安全事件事前预警方法,其特征在于,包括如下步骤:S1、获取原始市民投诉文本内容以及企业的基础信息,所述基础信息包括企业全称信息、归属行业信息及经营范围信息;S2、对所获取的所有企业全称信息进行分词;S3、针对步骤S2中得到的分词结果,提取其中的高频词,并根据高频词建立企业全称信息停用词库与企业全称信息自定义词典;S4、对步骤S1中获取的所有企业全称信息再进行分词,并利用步骤S3中建立得到的企业全称信息停用词库与企业全称信息自定义词典进行降噪,构建得到企业名称词库;S5、按照企业的归属行业信息,将每个行业下具有的经营范围信息进行归纳并整理成文档;S6、使用分词包对步骤S5得到的文档中的企业的经营范围信息进行分词,建立企业经营范围停用词库和企业经营范围自定义词典;S7、对步骤S5得到的文档中的企业的经营范围信息再次进行分词,并使用步骤S6中得到的企业经营范围停用词库和企业经营范围自定词典对再次分词的结果进行降噪,得到每个行业的经营范围信息的分词结果;S8、对每个行业的经营范围信息的分词结果提取关键词,并利用提取得到的关键词构建行业经营范围词库;S9、使用步骤S4中构建得到的企业名称词库与步骤S8中构建得到的行业经营范围词库作为分词自定义词典对步骤S1中获取的原始市民投诉文本内容进行分词,得到分词文本;S10、对步骤S9得到的分词文本和步骤S4中构建得到的企业名称词库进行模糊名称匹配;S11、基于步骤S10得到的模糊名称匹配结果,进行行业经营范围的二次关联,确定关联企业;S12、依据关联企业对应的市民投诉文本内容的数量进行企业排名,形成高危企业列表,对高危企业采取相关高位预警措施。...

【技术特征摘要】
1.一种基于挖掘市民投诉文本的公共安全事件事前预警方法,其特征在于,包括如下步骤:S1、获取原始市民投诉文本内容以及企业的基础信息,所述基础信息包括企业全称信息、归属行业信息及经营范围信息;S2、对所获取的所有企业全称信息进行分词;S3、针对步骤S2中得到的分词结果,提取其中的高频词,并根据高频词建立企业全称信息停用词库与企业全称信息自定义词典;S4、对步骤S1中获取的所有企业全称信息再进行分词,并利用步骤S3中建立得到的企业全称信息停用词库与企业全称信息自定义词典进行降噪,构建得到企业名称词库;S5、按照企业的归属行业信息,将每个行业下具有的经营范围信息进行归纳并整理成文档;S6、使用分词包对步骤S5得到的文档中的企业的经营范围信息进行分词,建立企业经营范围停用词库和企业经营范围自定义词典;S7、对步骤S5得到的文档中的企业的经营范围信息再次进行分词,并使用步骤S6中得到的企业经营范围停用词库和企业经营范围自定词典对再次分词的结果进行降噪,得到每个行业的经营范围信息的分词结果;S8、对每个行业的经营范围信息的分词结果提取关键词,并利用提取得到的关键词构建行业经营范围词库;S9、使用步骤S4中构建得到的企业名称词库与步骤S8中构建得到的行业经营范围词库作为分词自定义词典对步骤S1中获取的原始市民投诉文本内容进行分词,得到分词文...

【专利技术属性】
技术研发人员:巫朝星陈旺明王金达岳强蔡素贤张林兵梁耀州杜超坎
申请(专利权)人:汉纳森厦门数据股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1