一种基于信息抽取的网络安全法案件智能研判方法技术

技术编号:22000459 阅读:23 留言:0更新日期:2019-08-31 05:27
一种基于信息抽取的网络安全法案件智能研判方法,包括如下步骤:(1)知识图谱构建:从事件概念、事件实体、法律条文三个方面构建网络安全法知识图谱;(2)案件信息抽取:从网络安全法案件文本中抽取违法事件、违法主体、违法客体等事件实体,并在网络安全法知识图谱中进行事件概念链接;(3)法律条文检索:综合基于知识图谱的结构化检索和基于语义匹配的非结构化检索,得到可用于对网络安全法案件进行研判的法律条文。本发明专利技术基于信息抽取对网络安全法案件进行理解,使得方法可更精确的获得案件的结构化信息,采用知识图谱对网络安全法的相关知识进行表示,使得方法可更准确的对案件做出研判。

An Intelligent Research Method of Network Security Act Based on Information Extraction

【技术实现步骤摘要】
一种基于信息抽取的网络安全法案件智能研判方法
本专利技术涉及数据挖掘和知识图谱技术,具体涉及一种法律案件智能研判方法。
技术介绍
法律案件判决是非常严肃的事务,因此当前法律案件智能研判系统基本只是提供判决辅助,而不是给出最终判决。法律案件智能研判系统提供判决辅助的主要方式包括:相似案件推荐、量刑预测、法律条文匹配等。其中,法律条文匹配能够从大量法律条文中找到与法律案件最匹配的法律条文,对法律案件判决具有最直接的指导价值。现有法律条文匹配方法主要基于语义分析技术,采用关键词抽取、词向量、句子聚类、主体模型等技术分析法律案件文本的语义,在此基础上采用相似度模型、分类模型等定位到相应的法律条文。然而,这些方法存在以下不足:首先,法律条文通常比较抽象,其描述多集中在“概念”层面,而实际法律案件往往是对“实例”的描述。因此,仅对词或句子做语义分析很难发现其中的潜在关联,特别是训练样本不足的情况下。例如,网络安全法第47条中的描述“禁止发布或者传输的信息”就十分抽象,基本没有实际案件会这样描述(实际案件可能会描述成“发布暴力、色情信息”)。其次,法律案件文本通常较长、包含较多信息,把这些信息全部用于法律条文匹配通常难以达到理想的性能。实际上,法律案件文本中只有一小部分关键信息对法律条文匹配具有指导作用。例如,在网络安全法案件中,通常只有“违法主体”、“违法事件”等关键信息能够帮助法律条文匹配。
技术实现思路
为了克服已有现有法律条文匹配方法的无法适用于训练样本不足的情况、匹配性能较差的不足,专利技术提出了一种基于信息抽取的网络安全法案件智能研判方法,基于信息抽取对网络安全法案件进行理解,使得方法可更精确的获得案件的结构化信息,采用知识图谱对网络安全法的相关知识进行表示,使得方法可更准确的对案件做出研判。本专利技术解决其技术问题所采用的技术方案是:一种基于信息抽取的网络安全法案件智能研判方法,包括如下步骤:(1)知识图谱构建:从事件概念、事件实体、法律条文三个方面构建网络安全法知识图谱;(2)案件信息抽取:从网络安全法案件文本中抽取违法事件、违法主体、违法客体等事件实体,并在网络安全法知识图谱中进行事件概念链接;(3)法律条文检索:综合基于知识图谱的结构化检索和基于语义匹配的非结构化检索,得到可用于对网络安全法案件进行研判的法律条文。进一步,所述步骤(1)中,网络安全法知识图谱依赖专家知识人工构建,步骤如下:(1-1)节点构建:从事件概念、事件实体、法律条文三个方面构建节点。其中,事件概念节点包括违法事件类型、违法主体类型、违法客体类型三类,事件实体节点包括违法事件实体、违法主体实体、违法客体实体三类,法律条文节点包括事件条文、责任条文两类;(1-2)关系构建:为违法事件类型和其对应的违法事件实体、违法主体类型和其对应的违法主体实体、违法客体类型和其对应的违法客体实体建立“属于”关系,为事件条文和其对应的违法事件类型、违法主体类型、违法客体类型建立“涉及”关系,为事件条文和其对应的责任条文建立“后果”关系。再进一步,所述步骤(2)中,网络安全法案件信息抽取基于深度学习技术实现,步骤如下:(2-1)训练样本标注:对网络安全法历史案件文本集合中的每一个句子,对其中所有的字进行序列标注,包括违法事件实体首字(B-EVE)、违法事件实体非首字(I-EVE)、违法主体实体首字(B-SUB)、违法主体实体非首字(I-SUB)、违法客体实体首字(B-OBJ)、违法客体实体非首字(I-OBJ)、非事件实体部分(O),标注好的句子即为一个训练样本;(2-2)事件实体识别:事件实体识别指从一个句子中识别出违法事件实体、违法主体实体和违法客体实体;(2-3)事件概念链接:事件概念链接指识别出事件实体对应的事件概念,给定事件实体三元组E=(Ee,Es,Eo)。所述步骤(2.2)包括线下训练和线上识别两部分,步骤如下:(2-2-1)线下训练:基于双向LSTM+CRF训练事件实体识别模型,模型结构解释如下:输入层:模型的输入为一个句子,采用预训练的字嵌入矩阵将句子中的每个字映射为一个k维向量,得到一个字向量序列<x1,x2,...,xn>,其中,xi为句子中第i个字对应的字向量;双向LSTM层:首先,将字向量序列<x1,x2,...,xn>输入正向LSTM和反向LSTM的各时间步;然后,将正向LSTM输出的隐状态序列<fh1,fh2,...,fhn>和反向LSTM输出的隐状态序列<bh1,bh2,...,bhn>在各时间步进行拼接,得到一个的隐状态序列<h1,h2,...,hn>,其中,hi=[fhi;bhi]为一个m维向量;最后,采用一个全连接层将每个m维的隐状态向量hi映射为一个7维的特征向量pi,得到一个特征向量序列<p1,p2,...,pn>;CRF层:将特征向量序列<p1,p2,...,pn>输入CRF模型进行全局优化,最终输出为一个标注序列;(2-2-2)线上识别:给定一个网络安全法案件文本D,首先将D按句子进行划分,得到一个句子集合SS;然后,将SS中每个句子Si输入训练好的事件实体识别模型,得到Si的标注序列,并对连续的B-EVE和I-EVE字进行合并得到违法事件实体Ee,对连续的B-SUB和I-SUB字进行合并得到违法主体实体Es,对连续的B-OBJ和I-OBJ字进行合并得到违法客体实体Eo,若Ee和Es均不为空,则构成事件实体三元组E=(Ee,Es,Eo);最后,合并SS中多个句子检测出的事件实体三元组,则得到事件实体三元组集合ES。所述步骤(2.3)的步骤如下:(2-3-1)违法主体概念链接:直接在网络安全法知识图谱中检索名称或别名为Es的违法主体实体节点,然后返回与该节点存在“属于”关系的违法主体类型节点对应的违法主体类型Cs;(2-3-2)违法客体概念链接:若Eo为空,则返回空;若Eo不为空,则直接在网络安全法知识图谱中检索名称或别名为Eo的违法客体实体节点,然后返回与该节点存在“属于”关系的违法客体类型节点对应的违法客体类型Co;(2-3-3)违法事件概念链接:首先,基于FastText算法线下训练一个违法事件分类模型,用于将违法事件实体文本分类到违法事件类型。然后,应用该分类模型获得Ee对应的违法事件类型Ce;(2-3-4)事件概念三元组构建:基于步骤(2-3-1)、(2-3-2)和(2-3-3)得到ES中每个事件实体三元组E=(Ee,Es,Eo)对应的事件概念三元组C=(Ce,Cs,Co),最终得到事件概念三元组集合CS。更进一步,所述步骤(3)中,给定网络安全法案件文本D和其对应的事件概念三元组集合CS,法律条文检索步骤如下:(3-1)结构化检索:对CS中每个事件概念三元组C=(Ce,Cs,Co),若Co为空,则在网络安全法知识图谱中检索与Ce和Cs均存在“涉及”关系的事件条文节点和与该节点存在“后果”关系的责任条文节点,得到检索结果二元组Q=(Le,Lr),其中Le为网络安全法中的事件条文,Lr为网络安全法中的责任条文;若Co不为空,则在网络安全法知识图谱中检索与Ce、Cs和Co均存在“涉及”关系的事件条文节点和与该节点存在“本文档来自技高网...

【技术保护点】
1.一种基于信息抽取的网络安全法案件智能研判方法,其特征在于,所述方法包括如下步骤:(1)知识图谱构建:从事件概念、事件实体、法律条文三个方面构建网络安全法知识图谱;(2)案件信息抽取:从网络安全法案件文本中抽取违法事件、违法主体、违法客体等事件实体,并在网络安全法知识图谱中进行事件概念链接;(3)法律条文检索:综合基于知识图谱的结构化检索和基于语义匹配的非结构化检索,得到可用于对网络安全法案件进行研判的法律条文。

【技术特征摘要】
1.一种基于信息抽取的网络安全法案件智能研判方法,其特征在于,所述方法包括如下步骤:(1)知识图谱构建:从事件概念、事件实体、法律条文三个方面构建网络安全法知识图谱;(2)案件信息抽取:从网络安全法案件文本中抽取违法事件、违法主体、违法客体等事件实体,并在网络安全法知识图谱中进行事件概念链接;(3)法律条文检索:综合基于知识图谱的结构化检索和基于语义匹配的非结构化检索,得到可用于对网络安全法案件进行研判的法律条文。2.如权利要求1所述的一种基于信息抽取的网络安全法案件智能研判方法,其特征在于,所述步骤(1)中,网络安全法知识图谱依赖专家知识人工构建,步骤如下:(1-1)节点构建:从事件概念、事件实体、法律条文三个方面构建节点,其中,事件概念节点包括违法事件类型、违法主体类型、违法客体类型三类,事件实体节点包括违法事件实体、违法主体实体、违法客体实体三类,法律条文节点包括事件条文、责任条文两类;(1-2)关系构建:为违法事件类型和其对应的违法事件实体、违法主体类型和其对应的违法主体实体、违法客体类型和其对应的违法客体实体建立“属于”关系,为事件条文和其对应的违法事件类型、违法主体类型、违法客体类型建立“涉及”关系,为事件条文和其对应的责任条文建立“后果”关系。3.如权利要求1或2所述的一种基于信息抽取的网络安全法案件智能研判方法,其特征在于,所述步骤(2)中,网络安全法案件信息抽取基于深度学习技术实现,步骤如下:(2-1)训练样本标注:对网络安全法历史案件文本集合中的每一个句子,对其中所有的字进行序列标注,包括违法事件实体首字B-EVE、违法事件实体非首字I-EVE、违法主体实体首字B-SUB、违法主体实体非首字I-SUB、违法客体实体首字B-OBJ、违法客体实体非首字I-OBJ、非事件实体部分O,标注好的句子即为一个训练样本;(2-2)事件实体识别:事件实体识别指从一个句子中识别出违法事件实体、违法主体实体和违法客体实体;(2-3)事件概念链接:事件概念链接指识别出事件实体对应的事件概念,给定事件实体三元组E=(Ee,Es,Eo)。4.如权利要求3所述的一种基于信息抽取的网络安全法案件智能研判方法,其特征在于,所述步骤(2.2)包括线下训练和线上识别两部分,步骤如下:(2-2-1)线下训练:基于双向LSTM+CRF训练事件实体识别模型,模型结构解释如下:输入层:模型的输入为一个句子,采用预训练的字嵌入矩阵将句子中的每个字映射为一个k维向量,得到一个字向量序列<x1,x2,...,xn>,其中,xi为句子中第i个字对应的字向量;双向LSTM层:首先,将字向量序列<x1,x2,...,xn>输入正向LSTM和反向LSTM的各时间步;然后,将正向LSTM输出的隐状态序列<fh1,fh2,...,fhn>和反向LSTM输出的隐状态序列<bh1,bh2,...,bhn>在各时间步进行拼接,得到一个的隐状态序列<h1,h2,...,hn>,其中,hi=[fhi;bhi]为一个m维向量;最后,采用一个全连接层将每个m维的隐状态向量hi映射为一个7维的特征向量pi,得到一个特征向量序列<p1,p2,...,pn>;CRF层:将特征向量序列<p1,p2,...,pn>输入CRF模型进行全局优化,最终输出为一个标注序列;(2-2-2)线上识别:给定一个网络安全法案件文本D,首先将D按...

【专利技术属性】
技术研发人员:吕明琪朱康钧黄超张浩陈铁明
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1