案发地址提取方法、电子设备及计算机可读存储介质技术

技术编号:30552202 阅读:11 留言:0更新日期:2021-10-30 13:32
本发明专利技术提供一种案发地址提取方法、电子设备及计算机可读存储介质,方法包括:将案情文本输入预先训练的模型,输出以各字符的字符类别标识表示的案情文本;根据案情文本中每个字符的类别,确定案发地址在案情文本中的位置;根据位置,从案情文本中提取案发地址;电子设备包括存储模块,所述存储模块包括由处理器加载并执行的指令,所述指令在被执行时使所述处理器执行上述的一种案发地址提取方法;计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现上述的一种案发地址提取方法。本发明专利技术基于全自动的主动学习模型,可以从案情文本中自动化智能提取准确的案发地址,从而实现对提取的案发地址数据进行结构化存储。结构化存储。结构化存储。

【技术实现步骤摘要】
案发地址提取方法、电子设备及计算机可读存储介质


[0001]本专利技术属于信息提取
,尤其涉及一种案发地址提取方法、电子设备及计算机可读存储介质。

技术介绍

[0002]在日常警务办公中,报警案情与大众生活紧密相关。案情记录中蕴含了大量信息,它记录了时间/地点/犯罪事务信息。这种数据量大,但是没有很好的工具或者系统能够对这其中的信息进行挖掘、提取,再进行结构化存储,只能依赖人工总结、筛选、记录,最后把纸笔信息进行数字化存储。这种方式缺陷明显,速度慢,依赖人工劳动力,而且需要人工复查才能确保准确性。除此外,人为主观因素可能导致提取文本信息中内容,会存在一致性问题。传统的自动化办公工具,可以起到很好的辅助作用,可以促进整个流程的生产效率,但是依然依赖人工操作,很难做到完全自动化的智能提取,与智能结构化。
[0003]因此,有必要提供一种可以从案情文本中自动化智能提取准确的案发地址的方案,从而可以对提取的案发地址数据进行结构化存储。

技术实现思路

[0004]基于此,针对上述技术问题,提供一种自动、准确的案发地址提取方法、电子设备及计算机可读存储介质。
[0005]本专利技术采用的技术方案如下:
[0006]一方面,提供一种案发地址提取方法,其特征在于,包括:
[0007]将案情文本输入预先训练的模型,输出以各字符的字符类别标识表示的案情文本,所述字符类别标识包括非地址类别标识以及地址类别标识;
[0008]其中,训练所述模型的样本集由多个包含案发地址的案情文本构成;
[0009]根据所述案情文本中每个字符的类别,确定案发地址在所述案情文本中的位置;
[0010]根据所述位置,从所述案情文本中提取案发地址。
[0011]另一方面,提供一种电子设备,其特征在于,包括存储模块,所述存储模块包括由处理器加载并执行的指令,所述指令在被执行时使所述处理器执行上述的一种案发地址提取方法。
[0012]再一方面,提供一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,其特征在于,所述一个或多个程序当被处理器执行时,实现上述的一种案发地址提取方法。
[0013]本专利技术可以从案情文本中自动化智能提取准确的案发地址,从而实现对提取的案发地址数据进行结构化存储。
附图说明
[0014]下面结合附图和具体实施方式对本专利技术进行详细说明:
[0015]图1为本专利技术的流程图;
[0016]图2为本专利技术的模型的结构示意图。
具体实施方式
[0017]如图1所示,本说明书实施例提供一种案发地址提取方法,包括:
[0018]S101、将案情文本输入预先训练的模型,输出以各字符的字符类别标识表示的案情文本,字符类别标识包括非地址类别标识以及地址类别标识。
[0019]在一种实施方式中,非地址类别标识为O,地址类别标识包括地址首字符标识、地址尾字符标识以及地址首尾之间字符标识,分别为B_ADD、E_ADD以及I_ADD。
[0020]如案情文本为:XXXXXXX在XX路10号兄弟饭店发生了一起抢劫,将该案情文本输入模型后输出:
[0021]OOOOOOOO
[0022]B_ADDI_ADDI_ADDI_ADDI_ADDI_ADDI_ADDI_ADDI_ADDE_ADDOOOOOOO。
[0023]当然,对于地址类别标识也可以只用一种标识。
[0024]其中,训练上述模型的样本集由多个包含案发地址的案情文本构成,样本集制作过程如下:
[0025]a、获取预设区域内的全量标准地址,对全量标准地址进行分词,构成地址词库corpus。
[0026]以预设区域设为上海为例,全量标准地址就是指上海市所有地址的标准地址,标准地址如:上海市浦东新区金海路2011号新奥广场。
[0027]在一种实施方式中,对全量标准地址进行分词,进一步包括:
[0028]1)将规定的地理行政单位词以及具备地址属性的词加入jieba工具分词词表。
[0029]可以采用国家统计局规定的地理行政单位词,从国家统计局网站可以获得省/市/县区/镇/村/路的数据表,具备地址属性的词诸如:XX门口、XX楼下、候车区、候车处、停车区、停车处、排队区、排队处等等。
[0030]加入jieba工具分词词表后就可以知道每个省下的所有市,每个市下的所有从属地址,以此类推。
[0031]2)开启jieba精确模式进行分词,这个模式可以优先把整个地址词切分出来,当整个地址词还可以切分的时候,会进行再次分词,由大词变成小词,这样尽量减小了分词的颗粒度,可以提高步骤b中的匹配命中率,避免匹配失败。
[0032]如对“上海市闵行区虹莘路2166号上海文来中学”进行分词,分词后为:上海市,闵行区,虹莘路,2166号,上海,文来中学
[0033]而不是:上海市,闵行区,虹莘路,2166号,上海文来中学
[0034]b、对各报警数据分别进行如下处理:
[0035]1)从报警数据的电话信息中,确定报警人当时所在的地址的字符串,记作address_p。
[0036]报警数据包括电话信息以及案情文本,报警人通过电话报警时,一般警务系统会自动锁定报警人的电话,然后根据电话定位出地址,同时会记录报警人的报警内容,形成案情文本,案情文本包含案件的详情。
[0037]2)将报警数据的案情文本与地址词库corpus进行匹配,获得匹配成功的地址词,构成集合address_w。
[0038]其中,address_w中的元素记为address_u。
[0039]如将案情文本:上海市闵行区虹莘路2166号上海文来中学与地址词库corpus进行匹配,发现命中的词为:
[0040]上海市,闵行区,虹莘路,2166号,上海,文来中学
[0041]这些词组成的集合记做address_w,其元素记做address_u。
[0042]当集合address_w中的多个address_u在对应的案情文本中紧密连接中间无其它字符时,将多个address_u合并为一个address_u。
[0043]紧密连接中间无其它字符的情况,说明多个address_u原本属于一个整体,这样符合语言规范,如果不合并,很可能在识别的时候将一些非地址,或者长度较短的词,或者非案发地址的词,错误识别成案发地址短语。
[0044]合并后可以减低模型的复杂度,如果模型复杂度提升了,模型过拟合的概率也会提升,对应模型的识别准确率会降低。
[0045]3)对集合address_w中的地址词进行进标准化,构成集合address_c。
[0046]如以案情文本:杨某在文来中学门口被一男子从身后XXXX,为例:
[0047]通过与地址词库corpus进行匹配得到:
[0048]文来中学,门口。
[0049]合并为:文来中学门口。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种案发地址提取方法,其特征在于,包括:将案情文本输入预先训练的模型,输出以各字符的字符类别标识表示的案情文本,所述字符类别标识包括非地址类别标识以及地址类别标识;其中,训练所述模型的样本集由多个包含案发地址的案情文本构成;根据所述案情文本中每个字符的类别,确定案发地址在所述案情文本中的位置;根据所述位置,从所述案情文本中提取案发地址。2.根据权利要求1所述的一种案发地址提取方法,其特征在于,所述样本集通过以下步骤制作:a、获取预设区域内的全量标准地址,对所述全量标准地址进行分词,构成地址词库corpus;b、对各报警数据分别进行如下处理:从报警数据的电话信息中,确定报警人当时所在的地址的字符串,记作address_p;将所述报警数据的案情文本与地址词库corpus进行匹配,获得匹配成功的地址词,构成集合address_w;对所述集合address_w中的地址词进行进标准化,构成集合address_c;c、当某报警数据对应的address_p与集合address_c中的任意标准化地址匹配成功时,则将该报警数据的案情文本加入样本集;d、将样本集中的每个案情文本分别转换为以每个字符的字符类别标识来表示,分别作为训练的目标值。3.根据权利要求2所述的一种案发地址提取方法,其特征在于,所述对所述全量标准地址进行分词,进一步包括:将规定的地理行政单位词以及具备地址属性的词加入jieba工具分词词表;开启jieba精确模式进行分词。4.根据权利要求3所述的一种案发地址提取方法,其特征在于,还包括:address_w中的元素记为address_u,当所述集合address_w中的多个address_u在对应的案情文本中紧密连接中间无其它字符时,将所述多个address_u合并为一个address_u。5.根据权利要求4所述的一种案发地址提取方法,其特征在于,所述步骤d还包括:根据当前案情文本在步骤c中匹配成功的标准化地址,反推确定集合address_w中与该匹配成功的标准化地址对应的address_u;在所述当前案情文本中的address_u前后添加分隔符。6.根据权利要求5所述的一种案发地址提取方法,其特征在于,所述模型采用bert+crf的结构,所述模型被训练...

【专利技术属性】
技术研发人员:元方黄静文童随兵张凡超
申请(专利权)人:新智认知数据服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1