基于大数据的缉私案件情报抽取方法技术

技术编号:25087702 阅读:24 留言:0更新日期:2020-07-31 23:31
本发明专利技术公开了基于大数据的缉私案件情报抽取方法,提出了面向大数据的缉私信息抽取模型,并对该模型在真实案件复盘中的具体应用效果进行验证。首先基于缉私案件信息,构建缉私案件的情报要素表达模型;然后通过自然语言处理技术和深度学习算法模型,实现各类缉私情报要素的自动抽取;最后结合单据链、资金链和货物链证据链条,实现大数据环境下智能化的缉私情报抽取效果验证。本发明专利技术通过借鉴要素模型、自然语言处理技术,以缉私案件相关的信息为数据源,构建大数据环境下的缉私情报抽取模型,形成一种缉私案件情报自动抽取的缉私情报服务方法,并开展实验验证分析,实现了情报自动抽取,有效节省了人力物力的投入。

【技术实现步骤摘要】
基于大数据的缉私案件情报抽取方法
本专利技术属于基于计算模型的数据处理
,具体涉及一种基于大数据的缉私案件情报抽取方法。
技术介绍
在大数据时代背景下,不法分子在进行走私违法犯罪活动的过程中应用的信息化手段也越来越多,交易的相关信息被存储在各种各样的媒体和介质中,具有数据量大,且被隐蔽于不同领域存储器中的特点。具体的数据来源主要包括海关业务数据、公安内部数据、其他行政管理数据和互联网资源。走私犯罪行为普遍会涉及报关单证、运单、舱单、提单和销售合同等文本信息材料,还有走私犯罪分子的基本人员信息、通话记录、资金来往以及相关的线索信息。面对这种长时间跨度的各种数据类型的案件海量复杂信息,海关缉私警察必须从相关材料中快速高效地抽取出与案件有关的有效情报,以及时整理出案件的资金流、货物流、单证流等证据链条,达到帮助迅速梳理案情助力破案的目的。这其中的每一个环节都对大数据时代海关缉私情报的抽取能力提出了硬性要求,对于传统缉私情报工作而言,情报抽取已经构成瓶颈。基于以上分析,有必要构建面向大数据技术背景下的可适用于多层次、广视角的大量缉私案件数据研究的缉私案件情报抽取方法。
技术实现思路
本专利技术针对海关传统缉私情报工作存在的情报抽取瓶颈问题,提出了面向大数据的缉私信息抽取模型,并对该模型在真实案件复盘中的具体应用效果进行验证。为实现上述目的,本专利技术采用的技术方案为基于大数据的缉私案件情报抽取方法,包含以下步骤:S1:基于缉私案件信息,构建缉私案件的情报要素表达模型;S2:通过自然语言处理技术和深度学习算法模型,实现各类缉私情报要素的自动抽取;S3:结合单据链、资金链和货物链证据链条,实现大数据环境下智能化的缉私情报抽取效果验证。上述步骤S1又具体包括以下步骤:S11:缉私案件的要素表达基于缉私案件的案件特征,数据来源,构建缉私案件的要素表达模型。S12:字符向量化参照上述要素表达模型的组成及其关系,对缉私案事件文本进行情报的要素标注,得到已标注数据集,基于已标注训练集及未标注的案件文本语料,利用产生词向量的相关模型工具对分好词的文本进行无监督训练学习。作为优选,上述产生词向量的相关模型工具使用的是word2vec,用来训练以重新建构语言学之词文本。上述步骤S2中所述深度学习算法模型的建模流程具体包括以下步骤:S21:扩张卷积将卷积神经网络层应用到序列标注问题,对序列向量进行卷积运算,对输入序列做仿射变换,对于其子序列向量xt的输出,其定义为(1)式中:r为卷积半径;⊕为向量链接运算,扩张卷积在普通卷积的滤波器上增加了扩张宽度,当有输入序列向量时,扩张卷积会自动跳过扩张宽度中间所有的输入数据,使得有效输入变得更宽,可以获得更多的输入数据,扩张卷积用于序列标注问题时,子序列向量xt的输出定义为(2)式中:σ为扩张宽度,当σ=1时,扩张卷积同普通的卷积操作一样,而当σ>1时,扩张宽度使得感受野范围更大,由此带来的空洞问题,通过过滤器的平移可以使之加入到卷积运算之中;S22:迭代扩张卷积神经网络利用迭代扩张卷积神经网络预防通过简单的层数叠加使得输出结果存在过度拟合的风险,迭代扩张卷积神经网络多次应用相同的扩张卷积块,每个迭代将最后一层的输出结果作为输入,每次迭代都将重复使用相同的参数;S23:条件随机场条件随机场定义了一系列的二值特征函数,包含转移特征函数和状态特征函数,前者考虑输出变量间的依赖关系,后者考虑输入特征的影响,将所有特征函数加权求和得到每个标注类别的评分,运用规范化因子得到各个标注类别的概率,概率最大的即为当前的标注类别,在观测序列X=(x1,x2,…xn)为x的条件下,线性链条件随机场P=(Y|X)的预测序列Y=(y1,y2,…yn)取值为y的条件概率的简化表现形式为(3)式中:Z(x)为归一化因子;exp为指数函数;wk代表特征函数fk(y,x)对应的权重;K代表定义的特征函数个数;S24:迭代扩张卷积神经网络结合条件随机场将预处理得到的字向量、词向量作为模型的输入,输入的向量经过普通卷积层后输入迭代扩张卷积网络,迭代的块共享一组参数,最终网络层为每个序列输出每个分类的得分,将每个得分序列作为CRF层的输入,CRF层利用考虑了输出变量依赖关系的转移特征函数对每个标注序列进行评判,进一步优化迭代扩张卷积得出的分类结果。在步骤S24的整个过程中,首先在预处理阶段保留命名实体不被分词拆分,让每个实体作为一个独立词向量输入模型,其次选用迭代扩张卷积神经网络提取鲁棒性更高的特征,然后用dropout随机丢弃网络的一些连接以解决网络层反复迭代可能导致的过拟合,最后用条件随机场对网络层得出的结果进行进一步修正。上述步骤S3中,结合情报评估的五个维度,对情报的可靠性、有效性、时效性、重复性以及紧急程度进行综合评估验证。与现有技术相比,本专利技术具有以下有益技术效果:(1)本专利技术以大数据时代在海关缉私工作中的难点为出发点,针对海关传统缉私情报工作存在的瓶颈问题,提出了面向大数据的缉私信息抽取模型,以及对该模型在真实案件复盘中的具体应用效果进行验证。(2)本专利技术基于时空框架的缉私案件情报要素表达,实现情报自动抽取,有效节省人力物力的投入,应用大数据分析方法对缉私工作产生的积极影响,有效解决缉私情报部门一线办案民警的难点问题。(3)本专利技术借鉴要素模型、自然语言处理技术,以缉私案件相关的信息为数据源,构建大数据环境下的缉私情报抽取模型,形成一种缉私案件情报自动抽取的缉私情报服务方法,并开展实验验证分析。附图说明图1为深度条件随机场模型流程图;图2为情报要素表达模型;图3为普通卷积与扩张卷积结构图;图4为深度条件随机场信息抽取模型。具体实施方式现结合附图对本专利技术作进一步详细的说明。不同的公安数据源在知识的丰富性、表达的抽象性、认知的习惯性等方面具有显著的优势互补特性。从数据形式来看,缉私大数据包括文本、语音、图像、视频、音频等五种类型。目前,针对结构化数据的案事件信息抽取相对比较成熟,且容易实现。相比较而言,非结构化的文本、语音、图像、视频和音频等数据的抽取还需要进一步研究。为了能获取案件文本中更多的上下文信息,本专利技术以文本数据为主构建基于缉私情报要素驱动的深度条件随机场信息抽取模型。建模的流程如图1所示,具体包括:S11:缉私案件的要素表达目前,我国公安信息系统通常按照五要素“人、事、物、组织、地点”进行信息收集、处理和管理。公安业务通常需要回答以下几种类型的基本问题:“警情涉及谁?警情什么时候发生的?警情发生在哪里?涉警行为人做了什么?涉警行为人为什么这么做?与警情有关的物品是什么?案事件造成了什么样的后果?”因此,公安情报可以概括为以案事件为核心的五类基本要素,即时间、地点、人物、物品、事件。其本文档来自技高网...

【技术保护点】
1.基于大数据的缉私案件情报抽取方法,其特征在于包含以下步骤:/nS1:基于缉私案件信息,构建缉私案件的情报要素表达模型;/nS2:通过自然语言处理技术和深度学习算法模型,实现各类缉私情报要素的自动抽取;/nS3:结合单据链、资金链和货物链证据链条,实现大数据环境下智能化的缉私情报抽取效果验证。/n

【技术特征摘要】
1.基于大数据的缉私案件情报抽取方法,其特征在于包含以下步骤:
S1:基于缉私案件信息,构建缉私案件的情报要素表达模型;
S2:通过自然语言处理技术和深度学习算法模型,实现各类缉私情报要素的自动抽取;
S3:结合单据链、资金链和货物链证据链条,实现大数据环境下智能化的缉私情报抽取效果验证。


2.根据权利要求1所述的基于大数据的缉私案件情报抽取方法,其特征在于步骤S1具体包括以下步骤:
S11:缉私案件的要素表达
基于缉私案件的案件特征和数据来源,构建缉私案件的要素表达模型;
S12:字符向量化
参照上述要素表达模型的组成及其关系,对缉私案事件文本进行情报的要素标注,得到已标注数据集,基于该已标注数据集及未标注的案件文本语料,利用产生词向量的相关模型工具对分好词的文本进行无监督训练学习。


3.根据权利要求2所述的基于大数据的缉私案件情报抽取方法,其特征在于所述产生词向量的相关模型工具为word2vec。


4.根据权利要求1所述的基于大数据的缉私案件情报抽取方法,其特征在于上述步骤S2中所述深度学习算法模型的建模流程具体包括以下步骤:
S21:扩张卷积
将卷积神经网络层应用到序列标注问题,对序列向量进行卷积运算,对输入序列做仿射变换,对于其子序列向量xt的输出,其定义为



(1)式中:r为卷积半径;为向量链接运算,扩张卷积在普通卷积的滤波器上增加了扩张宽度,当有输入序列向量时,扩张卷积会自动跳过扩张宽度中间所有的输入数据,使得有效输入变得更宽,可以获得更多的输入数据,扩张卷积用于序列标注问题时,子序列向量xt的输出定义为



(2)式中:σ为扩张宽度,当σ=1时,扩张卷积同普通的卷积操作一样,而当σ>1时,扩张宽度使得感受野范围更大,由此带来的空洞问题,通过过滤器的平移可以使之加入到卷积运算之中;
S22:迭代扩张卷积神经网络...

【专利技术属性】
技术研发人员:邱明月吴育宝王新猛
申请(专利权)人:南京森林警察学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1