一种笔录数据案由分类方法、终端设备及存储介质技术

技术编号:27849332 阅读:63 留言:0更新日期:2021-03-30 13:09
本发明专利技术涉及一种笔录数据案由分类方法、终端设备及存储介质,该方法中包括:S1:采集所有案由类型的笔录数据组成训练集,并对训练集中每个笔录数据的类型进行标注;S2:设置特征词词典,根据特征词词典提取训练集中每个笔录数据的所有特征词,并组成特征词集合;S3:根据训练集计算其对应的概率模型;S4:针对待分类笔录数据,根据特征词词典提取待分类笔录数据的所有特征词并组成特征词集合后,根据特征词集合和训练集对应的概率模型计算待分类笔录数据对应的类别。本发明专利技术通过对历史笔录数据中类型的概率进行统计,实现对案由的自动分类。实现对案由的自动分类。实现对案由的自动分类。

【技术实现步骤摘要】
一种笔录数据案由分类方法、终端设备及存储介质


[0001]本专利技术涉及案件笔录领域,尤其涉及一种笔录数据案由分类方法、终端设备及存储介质。

技术介绍

[0002]笔录是公安机关用于对证人、被害人、嫌疑人等进行记录问话信息的文档,而案由可以简要概述这份笔录的问话类型,案由会自动关联到笔录的案由属性,以便执法人员后续对笔录的自动归类。案由预测在执法人员对被询问人制作笔录时常常会出现忘记填写、无法分类或输入错误案由的情况。

技术实现思路

[0003]为了解决上述问题,本专利技术提出了一种笔录数据案由分类方法、终端设备及存储介质。
[0004]具体方案如下:
[0005]一种笔录数据案由分类方法,包括以下步骤:
[0006]S1:采集所有案由类型的笔录数据组成训练集,并对训练集中每个笔录数据的类型进行标注;
[0007]S2:设置特征词词典,根据特征词词典提取训练集中每个笔录数据的所有特征词,并组成特征词集合;
[0008]S3:根据训练集计算其对应的概率模型,概率模型中包括以下概率:P(y
j
)、P(X
i
|y
j
)、P(X
i
),其中,y
j
表示第j个类型,P(.)表示概率,X
i
表示第i个特征词集合,X
i
={x1,x2,

,x
k
},x1,x2,

,x
k
表示第1,2,

,k个特征词;P(X
i
|y
j
)表示已知y
j
的情况下X
i
的概率;j∈[1,m],m表示训练集中所有笔录数据的类型的总数,i∈[1,n],n表示训练集中所有笔录数据包含的特征词集合的总数;
[0009]S4:针对待分类笔录数据,根据特征词词典提取待分类笔录数据的所有特征词并组成特征词集合后,根据特征词集合和训练集对应的概率模型计算待分类笔录数据对应的类别。
[0010]进一步的,步骤S1还包括对组成训练集的笔录数据进行过滤,剔除无效的笔录数据。
[0011]进一步的,笔录数据的过滤采用以下三种方法种的任一种:
[0012](1)人工手动删除;
[0013](2)根据笔录数据中包含的问题数目进行过滤,过滤掉问题数少于第一阈值或大于第二阈值的笔录数据;
[0014](3)根据笔录的开始时间和结束时间进行过滤,无效的笔录数据的结束时间≤开始时间。
[0015]进一步的,步骤S1还包括组成训练集的笔录数据中的敏感词进行替换。
[0016]进一步的,通过特征词词典提取笔录数据的特征词之前还包括提取笔录数据中的案情描述数据,通过特征词词典提取案情描述数据中包含的所有特征词。
[0017]进一步的,案情描述数据的提取方法为通过正则表达式和语句相似性的方法进行提取。
[0018]进一步的,类别的计算公式为:
[0019]Y=argmax(P(y
j
|X)),j∈[1,m][0020]其中,X表示待分类笔录数据的特征词集合。
[0021]进一步的,步骤S4中还包括对待分类笔录数据中模板语句去除。
[0022]一种笔录数据案由分类终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本专利技术实施例上述的方法的步骤。
[0023]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术实施例上述的方法的步骤。
[0024]本专利技术采用如上技术方案,通过对历史笔录数据中类型的概率进行统计,实现对案由的自动分类。
附图说明
[0025]图1所示为本专利技术实施例一的流程图。
[0026]图2所示为该实施例中正则表达式模板示例图。
[0027]图3所示为该实施例中模板语句示例图。
具体实施方式
[0028]为进一步说明各实施例,本专利技术提供有附图。这些附图为本专利技术揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。
[0029]现结合附图和具体实施方式对本专利技术进一步说明。
[0030]实施例一:
[0031]本专利技术实施例提供了一种笔录数据案由分类方法,如图1所示,所述方法包括以下步骤:
[0032]S1:采集所有案由类型的笔录数据组成训练集,并对训练集中每个笔录数据的类型进行标注。
[0033]由于笔录系统生成的笔录数据,可能会掺杂着一些用户测试系统时录入的笔录数据,在系统正式上线并进行采集的过程中,这些数据并未得到清理,而这部分数据如被采集,则会对后续的处理造成一定的感染,因此,需要首先对这部分无效的笔录数据进行过滤。
[0034]该实施例中过滤采用的具体方法从以下几种中任选其一:
[0035](1)人工手动删除;
[0036](2)根据笔录数据中包含的问题数目进行过滤,过滤掉问题数少于8个或大于90个的笔录数据;
[0037]需要说明的是,8和90仅为该实施例中设定的优选实时方式,其为根据实验数据得出的范围,在其他的实施例中,本领域技术人员可以将8和90修改为其他值,在此不做限制。
[0038](3)根据笔录的开始时间和结束时间进行过滤,无效的笔录数据的结束时间<=开始时间。
[0039]需要说明的是,在其他实施例中也可以采用其他可行的方式进行过滤,在此不做限制。
[0040]由于笔录数据的内容中必然会带有人名、地名、手机号等涉及个人隐私的数据,该实施例中将这部分数据设定为敏感词,故需要在生成模板前把这些敏感词进行统一替换,如替换成xx。
[0041]S2:设置特征词词典,根据特征词词典提取训练集中每个笔录数据的所有特征词,并组成特征词集合。
[0042]通过特征词词典提取笔录数据的特征词之前还包括提取笔录数据中的案情描述数据,通过特征词词典提取案情描述数据中包含的所有特征词。该实施例中案情描述数据的提取方法为通过正则表达式和语句相似性的方法进行提取,采用的正则表达式模板示例如图2所示。语句相似性用于提取出相似但不相同的语句,避免信息的遗漏。
[0043]特征词为与案由类型相关的关键词。在特征词的提取过程中,首先对笔录数据进行分词处理,如将“小明昨天在万达广场被一个人偷走了手机”分词为小明、昨天、在、万达广场、被、一、个、人、偷、走了、手机。将分词处理后的各词与特征词词典中的所有词进行一一对比,查找到相同或相近的词后,将查找到的所有特征词组成特征词集合。如上述例子中查找到的特征词为被和偷,则特征词集合为{被,偷}。
[0044]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种笔录数据案由分类方法,其特征在于,包括以下步骤:S1:采集所有案由类型的笔录数据组成训练集,并对训练集中每个笔录数据的类型进行标注;S2:设置特征词词典,根据特征词词典提取训练集中每个笔录数据的所有特征词,并组成特征词集合;S3:根据训练集计算其对应的概率模型,概率模型中包括以下概率:P(y
j
)、P(X
i
|y
j
)、P(X
i
),其中,y
j
表示第j个类型,P(.)表示概率,X
i
表示第i个特征词集合,X
i
={x1,x2,

,x
k
},x1,x2,

,x
k
表示第1,2,

,k个特征词;P(X
i
|y
j
)表示已知y
j
的情况下X
i
的概率;j∈[1,m],m表示训练集中所有笔录数据的类型的总数,i∈[1,n],n表示训练集中所有笔录数据包含的特征词集合的总数;S4:针对待分类笔录数据,根据特征词词典提取待分类笔录数据的所有特征词并组成特征词集合后,根据特征词集合和训练集对应的概率模型计算待分类笔录数据对应的类别。2.根据权利要求1所述的笔录数据案由分类方法,其特征在于:步骤S1还包括对组成训练集的笔录数据进行过滤,剔除无效的笔...

【专利技术属性】
技术研发人员:张云生蔡鹏辉
申请(专利权)人:厦门市法度信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1