基于正则表达式的接处警文本居住地地址提取方法和装置制造方法及图纸

技术编号:29254339 阅读:24 留言:0更新日期:2021-07-13 17:25
本公开实施例公开了基于正则表达式的接处警文本居住地地址提取方法和装置。该方法的一具体实施方式包括:获取待提取居住地地址信息接处警文本;将待提取居住地地址信息接处警文本与居住地标识提取正则表达式匹配,得到居住地标识位置信息序列;将待提取居住地地址信息接处警文本与地址提取正则表达式匹配,得到地址位置信息序列;对于居住地标识位置信息序列中的每个居住地标识位置信息,执行居住地地址信息提取操作;将居住地标识位置信息序列中各居住地标识位置信息对应的居住地地址信息确定为待提取居住地地址信息接处警文本对应的居住地地址信息集合。该实施方式实现了自动提取接处警文本中的居住地地址信息。

【技术实现步骤摘要】
基于正则表达式的接处警文本居住地地址提取方法和装置
本公开实施例涉及计算机
,具体涉及基于正则表达式的接处警文本居住地地址提取方法和装置。
技术介绍
目前,公安机关的110接警员在接警时会录入接警文本。处警员在处警结束后会录入处警文本。接处警文本即包括上述接警文本和处警文本。实践中,接处警文本中经常会涉及关于涉案人员居住地(例如,曾居住地、现居住地等)的描述。案情分析员可以根据接处警文本中的居住地地址信息,分析不同接处警文本中出现的相同或相近的居住地地址信息以期进行进一步处理。例如,可以通过相同或相近的居住地地址信息发现系列案件或关联案件。因此,提取接处警文本中的居住地地址信息是非常重要的。然而,目前大都是采用人工提取接处警文本中的居住地地址信息,凭人工提取接处警文本中的居住地地址信息的人工成本较高且依赖于个人经验。
技术实现思路
本公开实施例提出了基于正则表达式的接处警文本居住地地址提取方法和装置。第一方面,本公开实施例提供了一种基于正则表达式的接处警文本居住地地址信息提取方法,该方法包括:获取待提取居住地地址信息接处警文本;将待提取居住地地址信息接处警文本与居住地标识提取正则表达式匹配,得到居住地标识位置信息序列;将待提取居住地地址信息接处警文本与地址提取正则表达式匹配,得到地址位置信息序列;对于居住地标识位置信息序列中的每个居住地标识位置信息,执行以下居住地地址信息提取操作:将该居住地标识位置信息中的结束位置确定为目标结束位置;对于地址位置信息序列中的每个地址位置信息,将该地址位置信息中的起始位置减去目标结束位置所得的差确定为与该地址位置信息对应的编辑距离;将待提取居住地地址信息接处警文本中目标地址位置信息中起始位置和结束位置间的文本确定为与该居住地标识位置信息对应的居住地地址信息,其中,在对应的编辑距离为正数的各地址位置信息中目标地址位置信息对应的编辑距离最小;将居住地标识位置信息序列中各居住地标识位置信息对应的居住地地址信息确定为待提取居住地地址信息接处警文本对应的居住地地址信息集合。在一些实施例中,居住地标识提取正则表达式是通过如下第一训练步骤预先训练得到的:获取第一训练样本集合和第一测试样本集合,其中,第一训练样本和第一测试样本均包括历史接处警文本和相应的标注居住地标识位置信息序列,标注居住地标识位置信息包括起始位置和结束位置,标注居住地标识位置信息用于表征历史接处警文本中起始位置和结束位置之间为居住地标识;用第一训练样本集合中标注居住地标识位置信息序列不为空的各第一训练样本生成第一正样本集合;在第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合;对于第一目标数目个第一正样本子集合中的每个第一正样本子集合,基于该第一正样本子集合中各第一正样本,生成与该第一正样本子集合对应的候选正则表达式;基于第一测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率;将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为居住地标识提取正则表达式。在一些实施例中,在第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合,包括:执行第一目标数目次第一正样本子集合生成操作以生成第一目标数目个第一正样本子集合,第一正样本子集合生成操作包括:在第一正样本集合中随机选取N个第一正样本组成第一正样本子集合,其中,N为对L除以M的商向下取整所得的整数,L是第一正样本集合中的第一正样本数量,M是大于等于2小于L的正整数。在一些实施例中,地址提取正则表达式是通过如下第二训练步骤预先训练得到的:获取第二训练样本集合和第二测试样本集合,其中,第二训练样本和第二测试样本均包括历史接处警文本和相应的标注地址位置信息序列,其中,标注地址位置信息包括起始位置和结束位置,标注地址位置信息用于表征历史接处警文本中起始位置和结束位置之间为地址;用第二训练样本集合中标注地址位置信息序列不为空的各第二训练样本生成第二正样本集合;在第二正样本集合中选取第二正样本组成第二目标数目个第二正样本子集合;对于第二目标数目个第二正样本子集合中的每个第二正样本子集合,基于该第二正样本子集合中各第二正样本,生成与该第二正样本子集合对应的候选正则表达式;基于第二测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率;将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为地址提取正则表达式。在一些实施例中,在第二正样本集合中选取第二正样本组成第二目标数目个第二正样本子集合,包括:执行第二目标数目次第二正样本子集合生成操作以生成第二目标数目个第二正样本子集合,第二正样本子集合生成操作包括:在第二正样本集合中随机选取N’个第二正样本组成第二正样本子集合,其中,N’为对L’除以M’的商向下取整所得的整数,L’是第二正样本集合中的第二正样本数量,M’是大于等于2小于L’的正整数。在一些实施例中,目标地址位置信息对应的编辑距离小于预设编辑距离阈值。在一些实施例中,预设编辑距离阈值是通过如下第三训练步骤预先计算得到的:获取第三训练样本集合,其中,第三训练样本包括历史接处警文本和相应的标注居住地信息序列,其中,标注居住地信息包括居住地标识起始位置、居住地标识结束位置、地址起始位置和地址结束位置,标注居住地信息用于表征历史接处警文本中居住地标识起始位置和居住地标识结束位置之间为居住地标识,且该居住地标识所对应的居住地地址信息为历史接处警文本中地址起始位置和地址结束位置之间的地址信息;对于第三训练样本集合中的每个第三训练样本,将该第三训练样本的标注居住地信息序列的各标注居住地信息中对应的编辑距离中的最大值确定为该第三训练样本对应的最大编辑距离,其中,标注居住地信息对应的编辑距离为该标注轨迹址信息中的地址起始位置减去相应居住地标识结束位置所得的差值;将第三训练样本集合的各第三训练样本中对应的最大编辑距离中的最大值确定为预设编辑距离阈值。第二方面,本公开实施例提供了一种基于正则表达式的接处警文本居住地地址信息提取装置,该装置包括:获取单元,被配置成获取待提取居住地地址信息接处警文本;第一匹配单元,被配置成将待提取居住地地址信息接处警文本与居住地标识提取正则表达式匹配,得到居住地标识位置信息序列;第二匹配单元,被配置成将待提取居住地地址信息接处警文本与地址提取正则表达式匹配,得到地址位置信息序列;提取单元,被配置成对于居住地标识位置信息序列中的每个居住地标识位置信息,执行以下居住地地址信息提取操作:将该居住地标识位置信息中的结束位置确定为目标结束位置;对于地址位置信息序列中的每个地址位置信息,将该地址位置信息中的起始位置减去目标结束位置所得的差确定为与该地址位置信息对应的编辑距离;将待提取居住地地址信息接处警文本中目标地址位置信息中起始位置和结束位置间的文本确定为与该居住地标识位置信息对应的居住地地址信息,其中,在对应的编辑距离为正数的各地址位置信息中目标地址位置信息对应的编辑距离最小;确定单元,被配置成将居住地标识位置信息本文档来自技高网...

【技术保护点】
1.一种基于正则表达式的接处警文本居住地地址信息提取方法,包括:/n获取待提取居住地地址信息接处警文本;/n将所述待提取居住地地址信息接处警文本与居住地标识提取正则表达式匹配,得到居住地标识位置信息序列;/n将所述待提取居住地地址信息接处警文本与地址提取正则表达式匹配,得到地址位置信息序列;/n对于所述居住地标识位置信息序列中的每个居住地标识位置信息,执行以下居住地地址信息提取操作:将该居住地标识位置信息中的结束位置确定为目标结束位置;对于所述地址位置信息序列中的每个地址位置信息,将该地址位置信息中的起始位置减去所述目标结束位置所得的差确定为与该地址位置信息对应的编辑距离;将所述待提取居住地地址信息接处警文本中目标地址位置信息中起始位置和结束位置间的文本确定为与该居住地标识位置信息对应的居住地地址信息,其中,在对应的编辑距离为正数的各地址位置信息中所述目标地址位置信息对应的编辑距离最小;/n将所述居住地标识位置信息序列中各居住地标识位置信息对应的居住地地址信息确定为所述待提取居住地地址信息接处警文本对应的居住地地址信息集合。/n

【技术特征摘要】
20200213 CN 20201009131231.一种基于正则表达式的接处警文本居住地地址信息提取方法,包括:
获取待提取居住地地址信息接处警文本;
将所述待提取居住地地址信息接处警文本与居住地标识提取正则表达式匹配,得到居住地标识位置信息序列;
将所述待提取居住地地址信息接处警文本与地址提取正则表达式匹配,得到地址位置信息序列;
对于所述居住地标识位置信息序列中的每个居住地标识位置信息,执行以下居住地地址信息提取操作:将该居住地标识位置信息中的结束位置确定为目标结束位置;对于所述地址位置信息序列中的每个地址位置信息,将该地址位置信息中的起始位置减去所述目标结束位置所得的差确定为与该地址位置信息对应的编辑距离;将所述待提取居住地地址信息接处警文本中目标地址位置信息中起始位置和结束位置间的文本确定为与该居住地标识位置信息对应的居住地地址信息,其中,在对应的编辑距离为正数的各地址位置信息中所述目标地址位置信息对应的编辑距离最小;
将所述居住地标识位置信息序列中各居住地标识位置信息对应的居住地地址信息确定为所述待提取居住地地址信息接处警文本对应的居住地地址信息集合。


2.根据权利要求1所述的方法,其中,所述居住地标识提取正则表达式是通过如下第一训练步骤预先训练得到的:
获取第一训练样本集合和第一测试样本集合,其中,第一训练样本和第一测试样本均包括历史接处警文本和相应的标注居住地标识位置信息序列,标注居住地标识位置信息包括起始位置和结束位置,标注居住地标识位置信息用于表征历史接处警文本中起始位置和结束位置之间为居住地标识;
用所述第一训练样本集合中标注居住地标识位置信息序列不为空的各第一训练样本生成第一正样本集合;
在所述第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合;
对于所述第一目标数目个第一正样本子集合中的每个第一正样本子集合,基于该第一正样本子集合中各第一正样本,生成与该第一正样本子集合对应的候选正则表达式;
基于所述第一测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率;
将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为所述居住地标识提取正则表达式。


3.根据权利要求2所述的方法,其中,所述在所述第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合,包括:
执行所述第一目标数目次第一正样本子集合生成操作以生成所述第一目标数目个第一正样本子集合,所述第一正样本子集合生成操作包括:在所述第一正样本集合中随机选取N个第一正样本组成第一正样本子集合,其中,所述N为对L除以M的商向下取整所得的整数,所述L是所述第一正样本集合中的第一正样本数量,所述M是大于等于2小于所述L的正整数。


4.根据权利要求1所述的方法,其中,所述地址提取正则表达式是通过如下第二训练步骤预先训练得到的:
获取第二训练样本集合和第二测试样本集合,其中,第二训练样本和第二测试样本均包括历史接处警文本和相应的标注地址位置信息序列,其中,标注地址位置信息包括起始位置和结束位置,标注地址位置信息用于表征历史接处警文本中起始位置和结束位置之间为地址;
用所述第二训练样本集合中标注地址位置信息序列不为空的各第二训练样本生成第二正样本集合;
在所述第二正样本集合中选取第二正样本组成第二目标数目个第二正样本子集合;
对于所述第二目标数目个第二正样本子集合中的每个第二正样本子集合,基于该第二正样本子集合中各第二正样本,生成与该第二正样本子集合对应的候选正则表达式;
基于所述第二测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率;
将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为所述地址提取正则表达式。


5.根据权利要求4所述的方法,其中,所述在所述第二正样本集合中选取第二正样本组成第二目标数目个第二正样本子集合,包括:
执行所述第二目标数目次第二正样本子集合生成操作以生成所述第二目标数目个第二正样本子集合,所述第二正样本子集合生成操作包括:在所述第二正样本集合中随机选取N’个第二正样本组成第二正样本子集合,其中,所述N’为对L’除以M’的商向下取整所得的整数,所述L’是所述第二正样本集合中的第二正样本数量,所述M’是大于等于2小于所述L’的正整数。


6.根据权利要求1所述的方法,其中,所述目标地址位置信息对应的编辑距离小于预设编辑距离阈值。


7.根据权利要求6所述的方法,其中,所述预设编辑距离阈值是通过如下第三训练步骤预先计算得到的:
获取第三训练样本集合,其中,第三训练样本包括历史接处警文本和相应的标注居住地信息序列,其中,标注居住地信息包括居住地标识起始位置、居住地标识结束位置、地址起始位置和地址结束位置,标注居住地信息用于表征历史接处警文本中居住地标识起始位置和居住地标识结束位置之间为居住地标识,且该居住地标识所对应的居住地地址信息为历史接处警文本中地址起始位置和地址结束位置之间的地址信息;
对于所述第三训练样本集合中的每个第三训练样本,将该第三训练样本的标注居住地信息序列的各标注居住地信息中对应的编辑距离中的最大值确定为该第三训练样本对应的最大编辑距离,其中,标注居住地信息对应的编辑距离为该标注轨迹址信息中的地址起始位置减去相应居住地标识结束位置所得的差值;
将所述第三训练样本集合的各第三训练样本中对应的最大编辑距离中的最大值确定为所述预设编辑距离阈值。


8.一种基于正则表达式的接处警文本居住地地址信息提取装置,包括:
获取单元,被配置成获取待提取居住地地址信息接处警文本;
第一匹配单元,被配置成将所述待提取居住地地址信息...

【专利技术属性】
技术研发人员:彭涛张鹏杨欣雨
申请(专利权)人:北京明亿科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1