【技术实现步骤摘要】
一种基于信息抽取的网络安全法案件智能研判方法
本专利技术涉及数据挖掘和知识图谱技术,具体涉及一种法律案件智能研判方法。
技术介绍
法律案件判决是非常严肃的事务,因此当前法律案件智能研判系统基本只是提供判决辅助,而不是给出最终判决。法律案件智能研判系统提供判决辅助的主要方式包括:相似案件推荐、量刑预测、法律条文匹配等。其中,法律条文匹配能够从大量法律条文中找到与法律案件最匹配的法律条文,对法律案件判决具有最直接的指导价值。现有法律条文匹配方法主要基于语义分析技术,采用关键词抽取、词向量、句子聚类、主体模型等技术分析法律案件文本的语义,在此基础上采用相似度模型、分类模型等定位到相应的法律条文。然而,这些方法存在以下不足:首先,法律条文通常比较抽象,其描述多集中在“概念”层面,而实际法律案件往往是对“实例”的描述。因此,仅对词或句子做语义分析很难发现其中的潜在关联,特别是训练样本不足的情况下。例如,网络安全法第47条中的描述“禁止发布或者传输的信息”就十分抽象,基本没有实际案件会这样描述(实际案件可能会描述成“发布暴力、色情信息”)。其次,法律案件文本通常较长、包含较多信息,把这些信息全部用于法律条文匹配通常难以达到理想的性能。实际上,法律案件文本中只有一小部分关键信息对法律条文匹配具有指导作用。例如,在网络安全法案件中,通常只有“违法主体”、“违法事件”等关键信息能够帮助法律条文匹配。
技术实现思路
为了克服已有现有法律条文匹配方法的无法适用于训练样本不足的情况、匹配性能较差的不足,专利技术提出了一种基于信息抽取的网络安全法案件智能研判方法,基于信息抽取对网络安全 ...
【技术保护点】
1.一种基于信息抽取的网络安全法案件智能研判方法,其特征在于,所述方法包括如下步骤:(1)知识图谱构建:从事件概念、事件实体、法律条文三个方面构建网络安全法知识图谱;(2)案件信息抽取:从网络安全法案件文本中抽取违法事件、违法主体、违法客体等事件实体,并在网络安全法知识图谱中进行事件概念链接;(3)法律条文检索:综合基于知识图谱的结构化检索和基于语义匹配的非结构化检索,得到可用于对网络安全法案件进行研判的法律条文。
【技术特征摘要】
1.一种基于信息抽取的网络安全法案件智能研判方法,其特征在于,所述方法包括如下步骤:(1)知识图谱构建:从事件概念、事件实体、法律条文三个方面构建网络安全法知识图谱;(2)案件信息抽取:从网络安全法案件文本中抽取违法事件、违法主体、违法客体等事件实体,并在网络安全法知识图谱中进行事件概念链接;(3)法律条文检索:综合基于知识图谱的结构化检索和基于语义匹配的非结构化检索,得到可用于对网络安全法案件进行研判的法律条文。2.如权利要求1所述的一种基于信息抽取的网络安全法案件智能研判方法,其特征在于,所述步骤(1)中,网络安全法知识图谱依赖专家知识人工构建,步骤如下:(1-1)节点构建:从事件概念、事件实体、法律条文三个方面构建节点,其中,事件概念节点包括违法事件类型、违法主体类型、违法客体类型三类,事件实体节点包括违法事件实体、违法主体实体、违法客体实体三类,法律条文节点包括事件条文、责任条文两类;(1-2)关系构建:为违法事件类型和其对应的违法事件实体、违法主体类型和其对应的违法主体实体、违法客体类型和其对应的违法客体实体建立“属于”关系,为事件条文和其对应的违法事件类型、违法主体类型、违法客体类型建立“涉及”关系,为事件条文和其对应的责任条文建立“后果”关系。3.如权利要求1或2所述的一种基于信息抽取的网络安全法案件智能研判方法,其特征在于,所述步骤(2)中,网络安全法案件信息抽取基于深度学习技术实现,步骤如下:(2-1)训练样本标注:对网络安全法历史案件文本集合中的每一个句子,对其中所有的字进行序列标注,包括违法事件实体首字B-EVE、违法事件实体非首字I-EVE、违法主体实体首字B-SUB、违法主体实体非首字I-SUB、违法客体实体首字B-OBJ、违法客体实体非首字I-OBJ、非事件实体部分O,标注好的句子即为一个训练样本;(2-2)事件实体识别:事件实体识别指从一个句子中识别出违法事件实体、违法主体实体和违法客体实体;(2-3)事件概念链接:事件概念链接指识别出事件实体对应的事件概念,给定事件实体三元组E=(Ee,Es,Eo)。4.如权利要求3所述的一种基于信息抽取的网络安全法案件智能研判方法,其特征在于,所述步骤(2.2)包括线下训练和线上识别两部分,步骤如下:(2-2-1)线下训练:基于双向LSTM+CRF训练事件实体识别模型,模型结构解释如下:输入层:模型的输入为一个句子,采用预训练的字嵌入矩阵将句子中的每个字映射为一个k维向量,得到一个字向量序列<x1,x2,...,xn>,其中,xi为句子中第i个字对应的字向量;双向LSTM层:首先,将字向量序列<x1,x2,...,xn>输入正向LSTM和反向LSTM的各时间步;然后,将正向LSTM输出的隐状态序列<fh1,fh2,...,fhn>和反向LSTM输出的隐状态序列<bh1,bh2,...,bhn>在各时间步进行拼接,得到一个的隐状态序列<h1,h2,...,hn>,其中,hi=[fhi;bhi]为一个m维向量;最后,采用一个全连接层将每个m维的隐状态向量hi映射为一个7维的特征向量pi,得到一个特征向量序列<p1,p2,...,pn>;CRF层:将特征向量序列<p1,p2,...,pn>输入CRF模型进行全局优化,最终输出为一个标注序列;(2-2-2)线上识别:给定一个网络安全法案件文本D,首先将D按...
【专利技术属性】
技术研发人员:吕明琪,朱康钧,黄超,张浩,陈铁明,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。