基于正则表达式的群体识别方法与装置、设备及介质制造方法及图纸

技术编号:29254353 阅读:14 留言:0更新日期:2021-07-13 17:25
本公开提供了基于正则表达式的群体识别方法与装置、设备及介质。该方法的一具体实施方式包括:获取待识别接处警文本;确定待识别接处警文本对应的文本片段集合,其中,文本片段属于待识别接处警文本;对于文本片段集合中的文本片段,执行以下识别操作:根据该文本片段的文本长度,确定群体识别正则表达式集合中与该文本片段对应的群体识别正则表达式,其中,每个群体识别正则表达式对应有文本长度范围,该文本片段的文本长度在所确定的与该文本片段对应的群体识别正则表达式对应的文本长度范围内;响应于确定该文本片段与所确定的群体识别正则表达式匹配,将该文本片段确定为群体描述文本;用文本片段集合中确定为群体描述文本的各文本片段生成与待识别接处警文本对应的群体描述文本集合。该实施方式实现了自动识别接处警文本中的群体描述文本。

【技术实现步骤摘要】
基于正则表达式的群体识别方法与装置、设备及介质
本公开涉及计算机
,具体涉及基于正则表达式的群体识别方法与装置、设备及介质。
技术介绍
公安机关在接警后会生成接警文本,在处警后会生成处警文本。接处警文本即包括上述接警文本和处警文本。实践中,有的接处警文本中会涉及关于群体的描述。这里,群体是指因为相同或相近的目的而自发性聚集在一起的人群。群体中没有严格的组织管理体系。例如,高考学生群体、某小区的业主群体等。对公安机关而言,不同的群体需要采用不同的方式进行监管、跟踪调查等。因此,对公安机关而言,通过接处警文本识别出群体至关重要,即提取出接处警文本中用于描述群体的群体描述文本是很重要的。然而,目前基本是靠人工提取接处警文本中的群体描述文本,所需的人力和时间成本较高,且由于接处警文本大多采用自然语言描述、表达方式严重口语化且无规则,人工提取难度较高,依赖于人工经验,即人工提取群体描述文本过程中学习成本较高。
技术实现思路
本公开提出了基于正则表达式的群体识别方法与装置、设备及介质。第一方面,本公开提供了一种基于正则表达式的群体识别方法,该方法包括:获取待识别接处警文本;确定上述待识别接处警文本对应的文本片段集合,其中,文本片段属于上述待识别接处警文本;对于上述文本片段集合中的文本片段,执行以下识别操作:根据该文本片段的文本长度,确定群体识别正则表达式集合中与该文本片段对应的群体识别正则表达式,其中,每个群体识别正则表达式对应有文本长度范围,该文本片段的文本长度在所确定的与该文本片段对应的群体识别正则表达式对应的文本长度范围内;响应于确定该文本片段与所确定的群体识别正则表达式匹配,将该文本片段确定为群体描述文本;用上述文本片段集合中确定为群体描述文本的各文本片段生成与上述待识别接处警文本对应的群体描述文本集合。在一些可选的实施方式中,上述确定上述待识别接处警文本对应的文本片段集合,其中,文本片段属于上述待识别接处警文本,包括:将通过滑动窗口截取上述待识别接处警文本中的片段所得到的各文本片段确定为上述文本片段集合。在一些可选的实施方式中,上述将通过滑动窗口截取上述待识别接处警文本中的片段所得到的各文本片段确定为上述文本片段集合,包括:新建空的文本片段集合;对于1到N之间的每个正整数n,执行文本片段截取操作,其中,上述N为上述待识别接处警文本的文本长度,上述文本片段截取操作包括:将滑动窗口的起点确定为上述待识别接处警文本的首字符,以及将上述滑动窗口的窗口长度确定为该正整数n;执行以下滑动窗口文本截取操作:截取上述待识别接处警文本中上述滑动窗口对应的文本,将截取得到的文本添加到上述文本片段集合,以及按照预设步长向后滑动上述滑动窗口,响应于确定上述滑动窗口的终点在上述待识别接处警文本内,继续执行上述滑动窗口文本截取操作;响应于确定上述滑动窗口的终点不在上述待识别接处警文本内,结束上述滑动窗口文本截取操作。在一些可选的实施方式中,上述群体识别正则表达式集合是通过如下训练步骤预先训练得到的:获取历史群体描述文本片段集合和测试样本集合,其中,历史群体描述文本片段用于描述群体,测试样本包括历史接处警文本片段和对应的用于表征该历史接处警文本片段是否用于描述群体的标注信息;对于预设候选正则表达式数目集合中的候选正则表达式数目M,执行M个候选正则表达式生成操作以生成M个候选正则表达式,以及基于上述测试样本集合对所生成的M个候选正则表达式进行测试以确定与候选正则表达式数目M对应的准确率,其中,上述M个候选正则表达式生成操作包括:根据上述历史群体描述文本片段集合中各历史群体描述文本片段的文本长度,将上述历史群体描述文本片段集合划分成M个历史群体描述文本片段子集合,以及基于所得到的每个历史群体描述文本片段子集合,生成与该历史群体描述文本片段子集合对应的候选正则表达式;将所生成的最优正则表达式数目个候选正则表达式确定为上述群体识别正则表达式集合,其中,上述最优正则表达式数目为上述候选正则表达式数目集合中对应的准确率最高的候选正则表达式数目,上述群体识别正则表达式集合中每个群体识别正则表达式对应的文本长度范围为生成该群体识别正则表达式所基于的历史群体描述文本片段子集合中的各历史群体描述文本片段的文本长度对应的文本长度范围。在一些可选的实施方式中,上述根据上述历史群体描述文本片段集合中各历史群体描述文本片段的文本长度,将上述历史群体描述文本片段集合划分成M个历史群体描述文本片段子集合,包括:将第一长度减去第二长度的差确定为编辑长度,其中,上述第一长度为上述历史群体描述文本片段集合中各历史群体描述文本片段的文本长度中的最长文本长度,上述第二长度为上述历史群体描述文本片段集合中各历史群体描述文本片段的文本长度中的最短文本长度;将对上述编辑长度除以M的商向上取整所得的整数确定为该候选正则表达式数目M对应的子集合文本长度差;对于上述历史群体描述文本片段集合中的每个历史群体描述文本片段,执行以下分组操作:将该历史群体描述文本片段的文本长度减去上述第二长度的差确定为D;将对D除以该候选正则表达式数目M对应的子集合文本长度差的商向上取整所得的正整数确定为I;将该历史群体描述文本片段分到第I个历史群体描述文本片段子集合,其中,I为1到M之间的正整数。在一些可选的实施方式中,上述根据该文本片段的文本长度,确定群体识别正则表达式集合中与该文本片段对应的群体识别正则表达式,包括:将上述待识别接处警文本的文本长度减去上述第二长度所得到的差确定为D’;将对D’除以与上述最优候选表达式数目对应的子集合文本长度差的商向上取整所得的正整数确定为I’;将上述群体识别正则表达式集合中基于第I’个历史群体描述文本片段子集合所生成的正则表达式确定为与该文本片段对应的群体识别正则表达式。第二方面,本公开提供了一种基于正则表达式的群体识别装置,该装置包括:获取单元,被配置成获取待识别接处警文本;文本片段确定单元,被配置成确定上述待识别接处警文本对应的文本片段集合,其中,文本片段属于上述待识别接处警文本;识别单元,被配置成对于上述文本片段集合中的文本片段,执行以下识别操作:根据该文本片段的文本长度,确定群体识别正则表达式集合中与该文本片段对应的群体识别正则表达式,其中,每个群体识别正则表达式对应有文本长度范围,该文本片段的文本长度在所确定的与该文本片段对应的群体识别正则表达式对应的文本长度范围内;响应于确定该文本片段与所确定的群体识别正则表达式匹配,将该文本片段确定为群体描述文本;生成单元,被配置成用上述文本片段集合中确定为群体描述文本的各文本片段生成与上述待识别接处警文本对应的群体描述文本集合。在一些可选的实施方式中,上述文本片段确定单元进一步被配置成:将通过滑动窗口截取上述待识别接处警文本中的片段所得到的各文本片段确定为上述文本片段集合。在一些可选的实施方式中,上述将通过滑动窗口截取上述待识别接处警文本中的片段所得到的各文本片段确定为上述文本片段集合,包括:新建空的文本片段集合;对于1到N之间的每个正整数n,执行文本片段截取操作本文档来自技高网...

【技术保护点】
1.一种基于正则表达式的群体识别方法,包括:/n获取待识别接处警文本;/n确定所述待识别接处警文本对应的文本片段集合,其中,文本片段属于所述待识别接处警文本;/n对于所述文本片段集合中的文本片段,执行以下识别操作:根据该文本片段的文本长度,确定群体识别正则表达式集合中与该文本片段对应的群体识别正则表达式,其中,每个群体识别正则表达式对应有文本长度范围,该文本片段的文本长度在所确定的与该文本片段对应的群体识别正则表达式对应的文本长度范围内;响应于确定该文本片段与所确定的群体识别正则表达式匹配,将该文本片段确定为群体描述文本;/n用所述文本片段集合中确定为群体描述文本的各文本片段生成与所述待识别接处警文本对应的群体描述文本集合。/n

【技术特征摘要】
1.一种基于正则表达式的群体识别方法,包括:
获取待识别接处警文本;
确定所述待识别接处警文本对应的文本片段集合,其中,文本片段属于所述待识别接处警文本;
对于所述文本片段集合中的文本片段,执行以下识别操作:根据该文本片段的文本长度,确定群体识别正则表达式集合中与该文本片段对应的群体识别正则表达式,其中,每个群体识别正则表达式对应有文本长度范围,该文本片段的文本长度在所确定的与该文本片段对应的群体识别正则表达式对应的文本长度范围内;响应于确定该文本片段与所确定的群体识别正则表达式匹配,将该文本片段确定为群体描述文本;
用所述文本片段集合中确定为群体描述文本的各文本片段生成与所述待识别接处警文本对应的群体描述文本集合。


2.根据权利要求1所述的方法,其中,所述确定所述待识别接处警文本对应的文本片段集合,其中,文本片段属于所述待识别接处警文本,包括:
将通过滑动窗口截取所述待识别接处警文本中的片段所得到的各文本片段确定为所述文本片段集合。


3.根据权利要求2所述的方法,其中,所述将通过滑动窗口截取所述待识别接处警文本中的片段所得到的各文本片段确定为所述文本片段集合,包括:
新建空的文本片段集合;
对于1到N之间的每个正整数n,执行文本片段截取操作,其中,所述N为所述待识别接处警文本的文本长度,所述文本片段截取操作包括:将滑动窗口的起点确定为所述待识别接处警文本的首字符,以及将所述滑动窗口的窗口长度确定为该正整数n;执行以下滑动窗口文本截取操作:截取所述待识别接处警文本中所述滑动窗口对应的文本,将截取得到的文本添加到所述文本片段集合,以及按照预设步长向后滑动所述滑动窗口,响应于确定所述滑动窗口的终点在所述待识别接处警文本内,继续执行所述滑动窗口文本截取操作;响应于确定所述滑动窗口的终点不在所述待识别接处警文本内,结束所述滑动窗口文本截取操作。


4.根据权利要求1所述的方法,其中,所述群体识别正则表达式集合是通过如下训练步骤预先训练得到的:
获取历史群体描述文本片段集合和测试样本集合,其中,历史群体描述文本片段用于描述群体,测试样本包括历史接处警文本片段和对应的用于表征该历史接处警文本片段是否用于描述群体的标注信息;
对于预设候选正则表达式数目集合中的候选正则表达式数目M,执行M个候选正则表达式生成操作以生成M个候选正则表达式,以及基于所述测试样本集合对所生成的M个候选正则表达式进行测试以确定与候选正则表达式数目M对应的准确率,其中,所述M个候选正则表达式生成操作包括:根据所述历史群体描述文本片段集合中各历史群体描述文本片段的文本长度,将所述历史群体描述文本片段集合划分成M个历史群体描述文本片段子集合,以及基于所得到的每个历史群体描述文本片段子集合,生成与该历史群体描述文本片段子集合对应的候选正则表达式;
将所生成的最优正则表达式数目个候选正则表达式确定为所述群体识别正则表达式集合,其中,所述最优正则表达式数目为所述候选正则表达式数目集合中对应的准确率最高的候选正则表达式数目,所述群体识别正则表达式集合中每个群体识别正则表达式对应的文本长度范围为生成该群体识别正则表达式所基于的历史群体描述...

【专利技术属性】
技术研发人员:彭涛赵伟杨欣雨
申请(专利权)人:北京明亿科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1