一种面向大型活动公安系统警卫安保的多源异构数据分析方法技术方案

技术编号:26420073 阅读:68 留言:0更新日期:2020-11-20 14:15
本发明专利技术公开了一种面向大型活动公安系统警卫安保的多源异构数据分析方法,通过深度学习的方式来进行文本情感分析,犯罪倾向人员画像,犯罪倾向人员轨迹分析与文本信息提取。首先对网络社交文本进行情感分析,筛选出发布不良言论的账户,对该账户所发布的全部内容与搜索记录进行分析,得出账户持有人的籍贯,年龄,文化程度等信息。对近期频繁往返于活动举办地与倾向人员籍贯地的重点人员进行轨迹分析与文本情报提取,以期有效打击犯罪,降低一线干警工作量,有效保障大型活动的顺利召开,并为公安系统犯罪预防方法的进一步研究提供了解决思路。

【技术实现步骤摘要】
一种面向大型活动公安系统警卫安保的多源异构数据分析方法
本专利技术是一种基于深度学习面向大型活动公安系统警卫安保的多源异构数据分析方法,主要用于重大活动安保,案件侦破辅助等相关工作,属于公共安全大数据挖掘和分析领域。
技术介绍
随着我国国际地位的提高,外事活动日渐频繁,如何保证高规格重大活动中的安保工作已经成为了公安警卫部门的难题。目前大型活动安全保卫工作仍以传统的人海战术为主,被动防御各种突发情况。随着安全形势的复杂与犯罪手段的多样化,这种模式已经无法满足实际的工作需要。首先,化学技术的日臻完善已经使得有毒物质具有难以检测,隐蔽性高,杀伤力大等特点;其次,恐怖主义势力在世界范围内日益猖獗,时刻威胁着世界人民的安全;安全态势纷繁复杂。我国公安工作信息化的推进使得积累了大量的公安数据,我国互联网产业的发展也积累了海量的用户数据。随着人工智能时代的来临,如何有效让数据服务于公安系统,成为了公安工作信息化建设未来发展的趋势。本方法将主要针对公共安全犯罪预防系统的构建开展工作。大数据分析技术在安保警卫新模式中的应用有利于数据隐藏信息的发掘,结合案件的人,事,地,物,组织等要素建立预警模型,为犯罪行为预测与预防提供科学的依据。构建多源异构数据分析方法,建立警务数据分析模型,将犯罪行为扼杀在摇篮之中,降低一线干警工作量,提高效率,尽最大可能将风险降到最低,为高规格重要活动的顺利进行提供坚实后盾,为领导层提供科学的决策辅助,摆脱经验主义模式,以数据为基础,科学决策,降低误判率,提升效率。有效保障高规格重大活动的顺利举行。
技术实现思路
本专利技术提出一种面向公安系统犯罪预防的多源异构数据分析方法,该方法分为中文文本情感分析模型,轨迹分析模型,犯罪倾向人员画像与中文信息抽取模型。中文文本情感分析模型将自然语言文本作为长短时记忆网络的输入,通过神经网络的训练与迭代不断优化网络权重系数,模型输出为对该文本的情感判断,情感评分与犯罪类型预判。对海量账户进行第一轮筛查。第一轮筛查后对剩余账户进行犯罪倾向人员画像,通过对锁定账户发布内容与搜索记录的读取,输入到长短时记忆网络中进行中文文本多标签分类,判断该账户持有者的性别,年龄,籍贯,文化程度等个人信息;判断出犯罪倾向人员的基本特征后,对于近期频繁往返于大型活动拟举办地的异常轨迹者进行轨迹分析,运用DBSCAN算法对轨迹进行聚类,结合该轨迹点产生的时间进行数据分析,进一步对目标群体进行筛查;锁定重点人群后,跟踪其社交帐户内容并进行信息抽取,将拟作案时间,地点,人物,电话等信息从非结构化文本数据中提取出来。本专利技术涉及的犯罪描述指的是一种特殊需要追踪的技术人群,为契合本专利技术的技术主题,会影响大型活动公安系统警卫安保的人群。本专利技术是通过以下技术方案实现的,本专利技术包括以下步骤:步骤1:对网络社交账户所发布的文本内容进行情感分析,找出具有犯罪倾向的账户;利用Keras框架下的LSTM算法对网络社交文本数据进行情感评估,初步筛选出犯罪倾向人群;步骤2:对犯罪倾向人员进行画像,利用Tensorflow框架下的LSTM算法对步骤1筛选出的重点账户内容与重点账户搜索记录进行中文文本多标签分类,对初步筛选出的犯罪倾向人群的学历、年龄、性别和籍贯信息进行推断;步骤3:犯罪倾向人员轨迹分析与信息抽取模型;采用DBSCAN算法对犯罪倾向人员进行轨迹分析以及利用Python对社交账户进行信息抽取,对于频繁往返于目标地点的人群进行轨迹点聚类,结合轨迹产生时间进行综合分析;对社交账户进行监控,利用Python语言进行编程,对目标账户的聊天记录信息进行信息抽取得到情报。本专利技术的技术原理是:1.将文本数据向量化后输入到LSTM网络中进行数据处理,输出情感分析结果或标签。长短时记忆网络+Softmax分类器是一种有效的分类方法,其对现有已分类的数据进行反复训练后,可以使用训练结果对未知的数据通过其特征值判断其类别。与其它分类方法相比,该方法训练效果好,操作简单,在性能和准确度方面适合于中文文本多标签分类。2.运用DBSCAN算法对轨迹点进行聚类,结合时间推断聚类点属性。DBSCAN是基于密度空间的聚类算法,该算法不需要确定聚类的数量,而是基于数据推测聚类的数目,能够针对任意形状产生聚类。DBSCAN最大的特点是事先不必确定聚类的种类,其通过基于密度的方法,聚类并找出离群点。不仅分析了大部分在类中的点,也分析了轨迹中的离群点,最大程度的避免了情报遗漏。附图说明图1为Word2Vec神经网络结构图图2为长短时记忆网络示意图图3为文本情感分析模型结构图具体实施方式下面详细说明本专利技术的实施例,本实施例在本专利技术技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。步骤1:首先构建中文文本情感分析模型,对网络社交账户文本数据进行情感分析与可能涉及的犯罪类型提取,对海量的社交账号进行初筛,方法如下:(1)Word2Vec算法在捕捉语境信息的同时压缩数据规模;Word2Vec实际上是两种不同的方法:ContinuousBagofWords和Skip-gram;CBOW的目标是根据上下文来预测当前词语;Skip-gram根据当前词语来预测上下文;起初,每个单词都是一个随机的N维向量;经过训练之后,Word2Vec算法利用CBOW或者Skip-gram的方法获得每个单词的最优向量即词向量;词向量已经捕捉到上下文信息;利用基本代数公式来发现单词之间的关系;这些单词向量代替词袋模型用来预测未知数据的情感状况;(2)LSTM网络将词向量送入神经网络中,LSTM共有两条线,一条明线,包含当前时刻的数据流;一条暗线,包含这个细胞本身的记忆流;在“输入门”中,根据当前的数据流来控制接受细胞记忆的影响;接着,在“遗忘门”里,更新这个细胞的记忆和数据流;然后在“输出门”里产生输出更新后的记忆和数据流;(3)加载训练文件并进行中文分词;创建词语字典,并返回每个词语的索引,词向量,以及每个句子所对应的词语索引;采用Python中的keras库实现LSTM网络并训练网络保存。步骤2:提取由步骤一筛选出的犯罪倾向账户所发布的文本内容与搜索记录,对犯罪倾向人员进行画像。(1)文本类别转换为Id,便于以后的分类模型的训练。(2)将文本类别转换成Id后,由于数据都是中文,对中文进行预处理工作,所有在使用这些文本数据之前要进行数据清洗;(3)数据预处理完成以后,接下来开始进行LSTM的建模工作:要将cut_review数据进行向量化处理,要将每条cut_review转换成一个整数序列的向量,设置最频繁使用的50000个词设置每条cut_review最大的词语数为250个;(4)定义LSTM的序列模型:模型的第一层是嵌入层Embedding,使用长度为100的向量来表示每一个词语;SpatialDropout1D层在训练中每次更新时,将输入单元的按比率本文档来自技高网
...

【技术保护点】
1.一种面向大型活动公安系统警卫安保的多源异构数据分析方法,其特征在于:包括以下步骤:/n步骤1:对网络社交账户所发布的文本内容进行情感分析,找出具有犯罪倾向的账户;利用Keras框架下的LSTM算法对网络社交文本数据进行情感评估,初步筛选出犯罪倾向人群;/n步骤2:对犯罪倾向人员进行画像,利用Tensorflow框架下的LSTM算法对步骤1筛选出的重点账户内容与重点账户搜索记录进行中文文本多标签分类,对初步筛选出的犯罪倾向人群的学历、年龄、性别和籍贯信息进行推断;/n步骤3:犯罪倾向人员轨迹分析与信息抽取模型;采用DBSCAN算法对犯罪倾向人员进行轨迹分析以及利用Python对社交账户进行信息抽取,对于频繁往返于目标地点的人群进行轨迹点聚类,结合轨迹产生时间进行综合分析;对社交账户进行监控,利用Python语言进行编程,对目标账户的聊天记录信息进行信息抽取得到情报。/n

【技术特征摘要】
1.一种面向大型活动公安系统警卫安保的多源异构数据分析方法,其特征在于:包括以下步骤:
步骤1:对网络社交账户所发布的文本内容进行情感分析,找出具有犯罪倾向的账户;利用Keras框架下的LSTM算法对网络社交文本数据进行情感评估,初步筛选出犯罪倾向人群;
步骤2:对犯罪倾向人员进行画像,利用Tensorflow框架下的LSTM算法对步骤1筛选出的重点账户内容与重点账户搜索记录进行中文文本多标签分类,对初步筛选出的犯罪倾向人群的学历、年龄、性别和籍贯信息进行推断;
步骤3:犯罪倾向人员轨迹分析与信息抽取模型;采用DBSCAN算法对犯罪倾向人员进行轨迹分析以及利用Python对社交账户进行信息抽取,对于频繁往返于目标地点的人群进行轨迹点聚类,结合轨迹产生时间进行综合分析;对社交账户进行监控,利用Python语言进行编程,对目标账户的聊天记录信息进行信息抽取得到情报。


2.根据权利要求1所述的一种面向大型活动公安系统警卫安保的多源异构数据分析方法,其特征在于:对网络社交账户所发布的文本内容进行情感分析,找出具有犯罪倾向的账户,具体方法如下:
文本向量化:Word2Vec算法在捕捉语境信息的同时压缩数据规模;Word2Vec实际上是两种不同的方法:ContinuousBagofWords和Skip-gram;CBOW的目标是根据上下文来预测当前词语;Skip-gram根据当前词语来预测上下文;起初,每个单词都是一个随机的N维向量;经过训练之后,Word2Vec算法利用CBOW或者Skip-gram的方法获得每个单词的最优向量即词向量;词向量已经捕捉到上下文信息;利用基本代数公式来发现单词之间的关系;这些单词向量代替词袋模型用来预测未知数据的情感状况;
LSTM网络将词向量送入神经网络中,LSTM共有两条线,一条明线,包含当前时刻的数据流;一条暗线,包含这个细胞本身的记忆流;在“输入门”中,根据当前的数据流来控制接受细胞记忆的影响;接着,在“遗忘门”里,更新这个细胞的记忆和数据流;然后在“输出门”里产生输出更新后的记忆和数据流;
算法流程:加载训练文件并进行中文分词;创...

【专利技术属性】
技术研发人员:李晓理卜坤王康
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1