一种基于分类词库和启发式规则的案件手段抽取方法技术

技术编号:21453959 阅读:39 留言:0更新日期:2019-06-26 04:47
本发明专利技术公开了一种基于分类词库和启发式规则的案件手段抽取方法,所述方法包括:S1、分类词库建设;S2、候选作案手段抽取;S3、形成作案手段;S4、自主迭代学习;本发明专利技术通过特定的分类词库,结合启发式的规则学习,对常发性的接触性刑事案件的作案手段进行自动挖掘,实现了案情文本中自动抽取作案手段这一重要案件特征,降低了人力抽取成本,对于案件手法的相似性分析具有重要作用。

【技术实现步骤摘要】
一种基于分类词库和启发式规则的案件手段抽取方法
本专利技术涉及自然语言处理应用
,具体的说是一种基于分类词库和启发式规则的案件手段抽取方法。
技术介绍
随着文本处理和机器学习技术的快速发展,这些技术被大范围应用于搜索引擎、智能问答、用户推荐、舆情监控等相关行业。公共安全行业(公安机关)在多年的信息化过程中积累了大量的数据信息,但目前对数据的利用主要停留在结构化数据层面,非结构化或半结构化数据尚未开展深度应用,如案件信息中含有对案情特征的描述(如作案时间,作案手段,作案工具等特征信息),如果能将此文本进行深度挖掘,则可进一步丰富案件特征库,对于后续案情研判会起到重要作用。鉴于案件的特征描述多样化,本专利技术尤其对其中的作案手段进行专门的挖掘。例如,案情描述“******房屋一楼屋后窗户的两根防盗网被人撬开****”中,这种对于作案手段的描述较为繁琐,用较为简洁的语言描述对应手段即为“撬开窗户防盗网”。由此看出,作案手段并不是直接从文本中抽取某些特定的词,也不是某些特定的片段,而是由其中若干字或词按照语法规律组成的简明直接的描述。所以在公安行业海量非结构化文本信息的大数据背景下,构建相关文本信息抽取方法,对案情描述中的作案手段进行自动挖掘是十分必需的。基于此,针对上述现状中存在的问题,本专利技术提出一种基于分类词库和启发式规则的案件手段抽取方法。
技术实现思路
为了解决上述现有技术的问题,本专利技术提供一种基于分类词库和启发式规则的案件手段抽取方法。本专利技术解决其技术问题所采用的技术方案是:一种基于分类词库和启发式规则的案件手段抽取方法,所述方法包括:S1、分类词库建设:根据预先进行的大量数据分析建立分类词库,所述词库包括行为词词库、主体词词库、主体附属词词库、形容词词库、方位词词库、行为结果词以及手段专有词词库;S2、候选作案手段抽取:利用特定的句式结构抽取含有作案手段的文本,然后利用启发式规则结合分类词库抽取作案手段候选项;S3、形成作案手段:对抽取的候选作案手段进行进一步过滤,去掉重复项或类似项,形成最终的作案手段集合;S4、自主迭代学习:根据新发案件信息数据以及未登录词对词库和启发式规则进行丰富完善,建立自主迭代学习模型。进一步地,所述启发式规则具体为:a、利用手段专有词库判断文本是否含有相关专有词,如有,则提取出相关手段词;b、利用作案动词作为触发词去抽取可能存在的关于作案手段的描述。进一步地,利用启发式规则进行抽取前还包括对案件文本进行过滤,以排出出现的否定的情况。进一步地,所述作案手段具体通过分类字或词库的抽取按照语法结构进行重组,其中,所述语法结构包括主动式结构、被字结构以及将字结构。进一步地,还包括:所述词库、启发式规则以及语法结构在运营中不断的交互校验,然后对算法进行迭代优化。与现有技术相比,本专利技术的有益效果是:本专利技术通过特定的分类词库,结合启发式的规则学习,对常发性的接触性刑事案件的作案手段进行自动挖掘,实现了案情文本中自动抽取作案手段这一重要案件特征,降低了人力抽取成本,对于案件手法的相似性分析具有重要作用。附图说明图1为本专利技术一个实施例中的作案手段的挖掘路线示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例及附图,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。针对常发性的接触性案件,如入室盗窃和盗窃车内财物为重点研究,对相关案情文本(如简要案情)中抽取对应的作案手段。为了对作案手段的描述规范化,此专利技术约定作案手段的抽取结果一般以动词开头,如“撬门”,“砸车窗玻璃”,“剪破窗户防盗网”等。本专利技术提供了一套基于分类字/词库和启发式规则的案件手段自动抽取方法。作为本专利技术一个较佳的实施例,如图1所示,主要包括:(1)分类词库建设:通过分析数据,之前基于词的抽取方式存在很大局限性,考虑到中文词汇的多样化,语言表达的复杂性以及词库难以全面覆盖,作案手段挖掘采用基于字和句法结构的方法挖掘具体说明如下:行为字:表示主要动作的字,一般是作案手段的触发,如撬,砸,抢,拧,损等,如砸窗玻璃;主体字:表示作案手段的主要对象,如车,门,窗,墙等,如撬门;主体附属:表示主体的附加属性,如锁,栓,玻璃;--一般依赖于主体,但是也可以单独存在,如门锁,门栓;形容词:可用于修饰主体字/主体附属/者附属,如防盗,木质,U型等(可组成“防盗门”);方位词:用于描述动作对象的方位,如前,后,左,右等(可组成“砸后车窗玻璃”);行为结果字:一般表示行为的结果,如坏,断,弯等(可组成“砍断锁链”,“拧弯门锁”);辅以手段专有词库(如顺手牵羊,暴力开锁,硬物击锁,竹竿勾挑等)这个可以具备之前词库抽取的功能,主要针对特殊手段词汇加以抽取。然后根据句法分析和位置关系建立对应的抽取模型(如形容词一般用于描述主体或者主体的附属,行为结果字一般是对行为动作的进一步描述等等)。(2)启发式规则建立:针对案件描述文本(如简要案情),有两条启发规则:其一,是利用手段专有词库判断文本是否含有相关专有词,如有,则提取出相关手段词;其二,利用作案动词作为触发词去抽取可能存在的关于作案手段的描述。其中,在利用启发式规则进行学习抽取之前,需要对案件文本进行过滤。过滤规则主要是考虑到可能会出现的否定情况,如“门锁未发现有撬动痕迹”,此种情况不进行作案手段的抽取。过滤条件主要有两条:(a)“无/没有/未发现+***+痕迹/迹象”(*代表若干词);(b)文本出现“门未锁/车未关”等情形,一般此种情形不会有其它手段。(3)作案手段备选项:通过分类字/词库的抽取按照语法结构进行重组,常用的三种语法结构有主动式结构(动词在前),“被”字结构,以及“将”字结构,例如“撬开卧室门”,“一楼卧室门被撬开”,“将一楼的卧室门撬开”这三种不同的描述,经过抽取组合后对应的手段词为“撬开门”。(4)形成作案手段:对于(3)中的得到备选项进行进一步筛查,主要是描述的重复性来考虑,有可能不同的描述抽取得到两个相同的手段词,例如“技术开锁”与“技术性开锁”(抽取结果为技术开锁),“家中门被撬开”与“被人撬开卧室房门”(抽取结果为撬开门)。(5)交互校验算法迭代:词库,启发式规则,以及语法结构,需要在运营中不断的交互校验,然后对算法进行迭代优化。利用上述方式抽取的两个基本案例如下:输入1:"2018年06月28日05时50分宋小伟报警称小车玻璃被砸,车内被盗价值3000余元的手机1部及现金500元钱。经查,2018年6月27日晚10时左右将黑色标致307轿车停放在光明小区院内,6月28日早上发现副驾驶室窗户玻璃被砸,车内物品翻动,一部价值3000余元的Huawei手机和500元现金被人盗走,勘验现场,报立刑事案件查处。"(备注:为了数据的保密性要求,案情描述已经脱敏,下同。)作案手段输出:['砸车玻璃','砸副驾驶窗玻璃']输入2:"2017年10月16日下午6点左右接到报警称家中门被撬开,屋内被盗,民警立即赶赴现场,经查,夏家湾居民王芳家晚上被人撬开卧室房门将房间内的,一个金戒指、两个银耳环、还有几提白酒被盗,经查发现是以插片开锁形式开门。"作案手段输出:['撬开门','插片开锁']本专利技术关于作案手本文档来自技高网...

【技术保护点】
1.一种基于分类词库和启发式规则的案件手段抽取方法,其特征在于,所述方法包括:S1、分类词库建设:根据预先进行的大量数据分析建立分类词库,所述词库包括行为词词库、主体词词库、主体附属词词库、形容词词库、方位词词库、行为结果词以及手段专有词词库;S2、候选作案手段抽取:利用特定的句式结构抽取含有作案手段的文本,然后利用启发式规则结合分类词库抽取作案手段候选项;S3、形成作案手段:对抽取的候选作案手段进行进一步过滤,去掉重复项或类似项,形成最终的作案手段集合;S4、自主迭代学习:根据新发案件信息数据以及未登录词对词库和启发式规则进行丰富完善,建立自主迭代学习模型。

【技术特征摘要】
1.一种基于分类词库和启发式规则的案件手段抽取方法,其特征在于,所述方法包括:S1、分类词库建设:根据预先进行的大量数据分析建立分类词库,所述词库包括行为词词库、主体词词库、主体附属词词库、形容词词库、方位词词库、行为结果词以及手段专有词词库;S2、候选作案手段抽取:利用特定的句式结构抽取含有作案手段的文本,然后利用启发式规则结合分类词库抽取作案手段候选项;S3、形成作案手段:对抽取的候选作案手段进行进一步过滤,去掉重复项或类似项,形成最终的作案手段集合;S4、自主迭代学习:根据新发案件信息数据以及未登录词对词库和启发式规则进行丰富完善,建立自主迭代学习模型。2.根据权利要求1所述的一种基于分类词库和启发式规则的案件手段抽取方法,其特征在于,所述启发式规则具体...

【专利技术属性】
技术研发人员:金勇
申请(专利权)人:武汉烽火普天信息技术有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1