【技术实现步骤摘要】
警情分类方法及其系统
本专利技术属于警情分类
,尤其涉及一种警情分类方法及其系统。
技术介绍
目前群众报警的内容十分繁杂,而警情分类系统的类别体系不够细致,不能反映当前群众报警内容的多样性,并且当前的警情分类功能是接警人员根据报警内容进行人工标注得到的,人工工作量较大,分类结果会受到接警人员的主观影响。
技术实现思路
基于此,针对上述技术问题,提供一种警情分类方法及其系统。为解决上述技术问题,本专利技术采用如下技术方案:一种警情分类方法,包括:110、对公安现有每个警情大类别构建3级子类别,形成多个四级类别体系,并得到由相应的四级类别体系标注过的历史警情文本:(111)对对应所述每个警情大类别的历史警情文本进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量;(112)将所述历史警情文本转换为由所述词汇向量组成的矩阵,并将该矩阵输入LSTMAutoEncoder模型学习得到由特征向量表示的文本;(113)将由所述特征向量表示的文 ...
【技术保护点】
1.一种警情分类方法,其特征在于,包括:/n110、对公安现有每个警情大类别构建3级子类别,形成多个四级类别体系,并得到由相应的四级类别体系标注过的历史警情文本:/n(111)对对应所述每个警情大类别的历史警情文本进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量;/n(112)将所述历史警情文本转换为由所述词汇向量组成的矩阵,并将该矩阵输入LSTMAutoEncoder模型学习得到由特征向量表示的文本;/n(113)将由所述特征向量表示的文本输入层级Kmeans无监督聚类模型进行聚类:将由所述特征向量表示的文本聚为N个类别,然后对每个类别中的文本 ...
【技术特征摘要】
1.一种警情分类方法,其特征在于,包括:
110、对公安现有每个警情大类别构建3级子类别,形成多个四级类别体系,并得到由相应的四级类别体系标注过的历史警情文本:
(111)对对应所述每个警情大类别的历史警情文本进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量;
(112)将所述历史警情文本转换为由所述词汇向量组成的矩阵,并将该矩阵输入LSTMAutoEncoder模型学习得到由特征向量表示的文本;
(113)将由所述特征向量表示的文本输入层级Kmeans无监督聚类模型进行聚类:将由所述特征向量表示的文本聚为N个类别,然后对每个类别中的文本再分别进行聚类得到M个类别,共计N*M个类别,所述N、M为10到100;
(114)采用TFIDF算法从所述N*M个类别中提取出每个类别中出现频率前10的词汇作为该类的关键词;
(115)通过所述关键词建立3级子类别:
对N*M个类别的关键词进行聚类,使相似的关键词被聚合成一类,对每类中的关键词分别进行归纳得到多个第3级子类别;
对所述多个第3级子类别进行聚类,使相似的第3级子类别被聚合成一类,对每类中的第3级子类别进行归纳得到多个第2级子类别;
对所述多个第2级子类别进行聚类,使相似的多个第2级子类别被聚合成一类,对每类中的第2级子类别进行归纳得到多个第1级子类别;
120、通过由四级类别体系标注过的历史警情文本训练出相应的警情分类模型:
(121)对警情文本进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量、实体向量以及位置向量;
(122)将每个词汇的词汇向量、实体向量以及位置向量拼接得到每个词汇的特征向量,并输入LSTM神经网络进行有监督训练,得到相应四级类别体系的警情分类模型;
130、通过所述警情分类模型对新警情分类:
(131)对警情文本进行分词、提取实体信息,并输入GloVe模型进行学习,得到每个词汇的词汇向量、实体向量以及位置向量;
(132)将每个词汇的词汇向量、实体向量以及位置向量拼接得到每个词汇的特征向量;
(133)将所述每个词汇的特征向量输入对应的警情分类模型进行分类。
2.根据权利要求1所述的一种警情分类方法及其系统,其特征在于,将步骤130的分类结果进行人工校验,对分类出错的警情文本按照所述四级类别体系进行人工分类,通过人工分类后的警情文本以及步骤(121)以及步骤(122)对相应的警情分类模型进行训练。
3.一种警情分类...
【专利技术属性】
技术研发人员:饶启玉,杜俊超,袁满荣,梅滢,方晖,马云伦,段跃,陈文波,张俊波,董继华,王光华,黄莎,姜坤,徐小磊,郭晓峰,黎本茹,张德明,
申请(专利权)人:新智认知数字科技股份有限公司,昆明市公安局,
类型:发明
国别省市:广西;45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。