基于深度学习模型作案手段识别方法与装置、设备及介质制造方法及图纸

技术编号：29254204 阅读：15 留言：0更新日期：2021-07-13 17:24

本公开提供了基于深度学习模型作案手段识别方法与装置、设备及介质。该方法的一具体实施方式包括：对待识别接处警文本进行切词得到相应的分词序列；对于所得到的分词序列中的每个分词，将该分词对应的词向量输入作案手段描述词分类模型以确定该分词是否为作案手段描述词，其中，上述作案手段描述词分类模型是基于深度学习模型预先训练得到的，作案手段描述词为用于描述作案手段的作案手段描述文本中的词语；用所得到的分词序列中由连续相邻的作案手段描述词组成的分词序列片段生成作案手段描述文本；用所生成的各作案手段描述文本生成上述待识别接处警文本对应的作案手段描述文本集合。该实施方式实现了自动提取接处警文本中的作案手段描述文本。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习模型作案手段识别方法与装置、设备及介质
本公开涉及计算机
，具体涉及基于深度学习模型作案手段识别方法与装置、设备及介质。
技术介绍
公安机关在接警后会生成接警文本，在处警后会生成处警文本。接处警文本即包括上述接警文本和处警文本。实践中，有的接处警文本中会涉及关于作案手段的描述。这里，作案手段指作案人员为达到目的在作案过程中所采取的方法和措施。例如，在盗抢窃类案件中，可以包括溜门盗窃、翻窗盗窃、持刀抢劫、徒步抢劫、骑摩托车抢等具体的作案手段。对公安机关而言，不同的作案手段的实际作战情况可能不同。比如发现某小区经常有人翻窗，可能会去调查是否是同一个人翻窗，如果是则针对同一个人部署抓捕工作。或者针对某小区的翻窗盗窃作案手段，可以在该小区定制关于翻窗盗窃作案的相应宣传内容等。因此，对公安机关而言，通过接处警文本识别出作案手段至关重要，即提取出接处警文本中用于描述作案手段的作案手段描述文本是很重要的。然而，目前基本是靠人工提取接处警文本中的作案手段描述文本，所需的人力和时间成本较高。尤其是每天公安机关都会产生大量的接处警文本，人工提取无法满足实时性，存在严重滞后，对办案效率带来影响。另外，由于接处警文本大多采用自然语言描述、表达方式严重口语化且无规则，人工提取难度较高，依赖于人工经验，即人工提取接处警文本中的作案手段描述文本的过程学习成本较高。
技术实现思路
本公开提出了基于深度学习模型作案手段识别方法与装置、设备及介质。第一方面，本公开提供了一种基于深度学习模型的作案手段...

【技术保护点】
1.一种基于深度学习模型的作案手段识别方法，包括：/n对待识别接处警文本进行切词得到相应的分词序列；/n对于所得到的分词序列中的每个分词，将该分词对应的词向量输入作案手段描述词分类模型以确定该分词是否为作案手段描述词，其中，所述作案手段描述词分类模型是基于深度学习模型预先训练得到的，作案手段描述词为用于描述作案手段的作案手段描述文本中的词语；/n用所得到的分词序列中由连续相邻的作案手段描述词组成的分词序列片段生成作案手段描述文本；/n用所生成的各作案手段描述文本生成所述待识别接处警文本对应的作案手段描述文本集合。/n

【技术特征摘要】
1.一种基于深度学习模型的作案手段识别方法，包括：
对待识别接处警文本进行切词得到相应的分词序列；
对于所得到的分词序列中的每个分词，将该分词对应的词向量输入作案手段描述词分类模型以确定该分词是否为作案手段描述词，其中，所述作案手段描述词分类模型是基于深度学习模型预先训练得到的，作案手段描述词为用于描述作案手段的作案手段描述文本中的词语；
用所得到的分词序列中由连续相邻的作案手段描述词组成的分词序列片段生成作案手段描述文本；
用所生成的各作案手段描述文本生成所述待识别接处警文本对应的作案手段描述文本集合。

2.根据权利要求1所述的方法，其中，所述作案手段描述词分类模型是通过如下训练步骤预先训练得到的：
获取训练样本集合，其中，训练样本包括对历史接处警文本进行切词所得到的分词序列以及对应的标注信息序列，标注信息序列中的标注信息用于指示相应分词序列中相应分词是否属于相应历史接处警文本所包括的作案手段描述文本；
根据所述训练样本集合的各训练样本中的标注信息序列，确定所述训练样本集合的各训练样本的分词序列中的作案手段描述词和非作案手段描述词；
生成正样本集合和负样本集合，其中，正样本包括所确定的作案手段描述词对应的词向量和用于指示是作案手段描述词的标注分类结果，负样本包括所确定的非作案手段描述词对应的词向量和用于指示非作案手段描述词的标注分类结果；
以所述正样本集合和所述负样本集合中的词向量作为实际输入，以相应的标注分类结果作为期望输出，训练初始深度学习模型，得到所述作案手段描述词分类模型。

3.根据权利要求2所述的方法，其中，作案手段描述词对应的词向量和非作案手段描述词对应的词向量中的各分量分别与预设词典中的各词语一一对应，作案手段描述词对应的词向量中与该作案手段描述词对应的分量为该作案手段描述词的词频-逆文本频率指数TF-IDF，不同于该作案手段描述词对应的分量的分量为第一预设数值，非作案手段描述词对应的词向量中与该非作案手段描述词对应的分量为该非作案手段描述词的词频-逆文本频率指数TF-IDF，不同于该非作案手段描述词对应的分量的分量为所述第一预设数值。

4.根据权利要求3所述的方法，其中，所述正样本集合中正样本的数目除以所述负样本集合中负样本的数目所得的比值在预设比例范围内。

5.一种基于深度学习模型的作案手段识别装置，包括：
切词单元，被配置成对待识别接处警文本进行切词得到相应的分词序列；
分类单元，被配置成对于所得到的分词序列中的每个分词，将该分词对应的词向量输入作案手段描述词分...

【专利技术属性】
技术研发人员：彭涛，张鹏，杨欣雨，
申请(专利权)人：北京明亿科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人