基于支持向量机接处警文本人物信息要素提取方法和装置制造方法及图纸

技术编号:29255909 阅读:13 留言:0更新日期:2021-07-13 17:27
本公开实施例公开了基于支持向量机接处警文本人物信息要素提取方法和装置。该方法的一具体实施方式包括:获取待提取人物信息要素接处警文本以及目标人物信息要素标识集合,其中,各目标人物信息要素标识属于预设人物信息要素标识集合;对待提取人物信息要素接处警文本进行切词得到相应的分词序列;对于所得到的分词序列中的每个分词,执行以下要素确定操作:将该分词对应的词向量输入目标人物信息要素标识集合中的各目标人物信息要素标识对应的基于支持向量机的分类模型,以及响应于确定所得到的分类结果为是相应人物信息要素,将该分词确定为相应人物信息要素。该实施方式实现了自动提取接处警文本中的人物信息要素。

【技术实现步骤摘要】
基于支持向量机接处警文本人物信息要素提取方法和装置
本公开实施例涉及计算机
,具体涉及基于支持向量机接处警文本人物信息要素提取方法和装置。
技术介绍
目前,公安机关的110接警员在接警时会录入接警文本。处警员在处警结束后会录入处警文本。接处警文本即包括上述接警文本和处警文本。实践中,往往接处警文本中都会涉及关于人物信息要素的描述。例如,可能包括人物的姓名、年龄、性别、家庭住址、即使通讯软件注册用户名,还可能包括人物的身份证号码、电话号码等。案情分析员往往会根据接处警文本中的人物信息要素,分析各接处警文本中的相同人物信息要素以期发现系列案件或关联案件(例如,同一姓名出现在多个接处警文本中),然而凭人工提取接处警文本中的人物信息要素的人工成本太高且依赖于个人经验。
技术实现思路
本公开实施例提出了基于支持向量机接处警文本人物信息要素提取方法和装置。第一方面,本公开实施例提供了一种基于支持向量机的接处警文本人物信息要素提取方法,该方法包括:获取待提取人物信息要素接处警文本以及目标人物信息要素标识集合,其中,各目标人物信息要素标识属于预设人物信息要素标识集合;对待提取人物信息要素接处警文本进行切词得到相应的分词序列;对于所得到的分词序列中的每个分词,执行以下要素确定操作:将该分词对应的词向量输入目标人物信息要素标识集合中的各目标人物信息要素标识对应的基于支持向量机的分类模型,得到该分词是否为相应人物信息要素的分类结果;以及响应于确定所得到的分类结果为是,将该分词确定为待提取人物信息要素接处警文本中的相应人物信息要素。在一些实施例中,预设人物信息要素标识集合中每个预设人物信息要素标识对应的基于支持向量机的分类模型是通过对于预设人物信息要素标识集合中的每个预设人物信息要素标识,执行分类模型训练操作得到的,其中,分类模型训练操作包括:获取与该预设人物信息要素标识对应的训练样本集合,其中,训练样本包括对历史接处警文本进行切词所得到的分词序列以及与该分词序列对应的标注信息序列,其中,标注信息用于指示分词序列中相应分词是否为该预设人物信息要素标识所指示的人物信息要素;对于所获取的训练样本集合中的每个训练样本,确定与该训练样本对应的文本特征向量,其中,所确定的文本特征向量中的各分量分别与预设词典中的各词语一一对应;确定与该预设人物信息要素标识对应的正样本集合和负样本集合,其中,正样本集合包括所获取的训练样本集合中分词序列包括该预设人物信息要素标识所指示的人物信息要素的各训练样本对应的文本特征向量,负样本集合包括所获取的训练样本集合中分词序列不包括该预设人物信息要素标识所指示的人物信息要素的各训练样本对应的文本特征向量;基于该预设人物信息要素标识对应的正样本集合和负样本集合训练该预设人物信息要素标识对应的基于支持向量机的分类模型。在一些实施例中,对于所获取的训练样本集合中的每个训练样本,确定与该训练样本对应的文本特征向量,包括:对于所获取的训练样本集合中的每个训练样本,执行以下向量生成及赋值操作:生成与该训练样本对应的文本特征向量,其中,所生成的文本特征向量中的各分量分别与预设词典中的各词语一一对应;对于该训练样本的分词序列中的每个为该预设人物信息要素标识所指示的人物信息要素的分词,将生成的文本特征向量中与该分词对应的分量设置为该分词的词频-逆文本频率指数TF-IDF;以及将所生成的文本特征向量中的各未赋值分量设置为预设数值,未赋值分量为属于预设词典但不属于该训练样本的分词序列中该预设人物信息要素标识所指示的人物信息要素的词语对应的分量。在一些实施例中,预设人物信息要素标识集合包括以下至少一项:姓名、即时通讯软件注册用户名、网站注册用户名。第二方面,本公开实施例提供了一种基于支持向量机的接处警文本人物信息要素提取装置,该装置包括:获取单元,被配置成获取待提取人物信息要素接处警文本以及目标人物信息要素标识集合,其中,各目标人物信息要素标识属于预设人物信息要素标识集合;切词单元,被配置成对待提取人物信息要素接处警文本进行切词得到相应的分词序列;提取单元,被配置成对于所得到的分词序列中的每个分词,执行以下要素确定操作:将该分词对应的词向量输入目标人物信息要素标识集合中的各目标人物信息要素标识对应的基于支持向量机的分类模型,得到该分词是否为相应人物信息要素的分类结果;以及响应于确定所得到的分类结果为是,将该分词确定为待提取人物信息要素接处警文本中的相应人物信息要素。在一些实施例中,预设人物信息要素标识集合中每个预设人物信息要素标识对应的基于支持向量机的分类模型是通过对于预设人物信息要素标识集合中的每个预设人物信息要素标识,执行分类模型训练操作得到的,其中,分类模型训练操作包括:获取与该预设人物信息要素标识对应的训练样本集合,其中,训练样本包括对历史接处警文本进行切词所得到的分词序列以及与该分词序列对应的标注信息序列,其中,标注信息用于指示分词序列中相应分词是否为该预设人物信息要素标识所指示的人物信息要素;对于所获取的训练样本集合中的每个训练样本,确定与该训练样本对应的文本特征向量,其中,所确定的文本特征向量中的各分量分别与预设词典中的各词语一一对应;确定与该预设人物信息要素标识对应的正样本集合和负样本集合,其中,正样本集合包括所获取的训练样本集合中分词序列包括该预设人物信息要素标识所指示的人物信息要素的各训练样本对应的文本特征向量,负样本集合包括所获取的训练样本集合中分词序列不包括该预设人物信息要素标识所指示的人物信息要素的各训练样本对应的文本特征向量;基于该预设人物信息要素标识对应的正样本集合和负样本集合训练该预设人物信息要素标识对应的基于支持向量机的分类模型。在一些实施例中,对于所获取的训练样本集合中的每个训练样本,确定与该训练样本对应的文本特征向量,包括:对于所获取的训练样本集合中的每个训练样本,执行以下向量生成及赋值操作:生成与该训练样本对应的文本特征向量,其中,所生成的文本特征向量中的各分量分别与预设词典中的各词语一一对应;对于该训练样本的分词序列中的每个为该预设人物信息要素标识所指示的人物信息要素的分词,将生成的文本特征向量中与该分词对应的分量设置为该分词的词频-逆文本频率指数TF-IDF;以及将所生成的文本特征向量中的各未赋值分量设置为预设数值,未赋值分量为属于预设词典但不属于该训练样本的分词序列中该预设人物信息要素标识所指示的人物信息要素的词语对应的分量。在一些实施例中,预设人物信息要素标识集合包括以下至少一项:姓名、即时通讯软件注册用户名、网站注册用户名。第三方面,本公开实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。第四方面,本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被一个或多个处理器执行时实现如第一方面中任一实现方式描述的方法。现有技术中一般是通过人工对接处本文档来自技高网...

【技术保护点】
1.一种基于支持向量机的接处警文本人物信息要素提取方法,包括:/n获取待提取人物信息要素接处警文本以及目标人物信息要素标识集合,其中,各所述目标人物信息要素标识属于预设人物信息要素标识集合;/n对所述待提取人物信息要素接处警文本进行切词得到相应的分词序列;/n对于所得到的分词序列中的每个分词,执行以下要素确定操作:将该分词对应的词向量输入所述目标人物信息要素标识集合中的各目标人物信息要素标识对应的基于支持向量机的分类模型,得到该分词是否为相应人物信息要素的分类结果;以及响应于确定所得到的分类结果为是,将该分词确定为所述待提取人物信息要素接处警文本中的相应人物信息要素。/n

【技术特征摘要】
20200213 CN 20201009508281.一种基于支持向量机的接处警文本人物信息要素提取方法,包括:
获取待提取人物信息要素接处警文本以及目标人物信息要素标识集合,其中,各所述目标人物信息要素标识属于预设人物信息要素标识集合;
对所述待提取人物信息要素接处警文本进行切词得到相应的分词序列;
对于所得到的分词序列中的每个分词,执行以下要素确定操作:将该分词对应的词向量输入所述目标人物信息要素标识集合中的各目标人物信息要素标识对应的基于支持向量机的分类模型,得到该分词是否为相应人物信息要素的分类结果;以及响应于确定所得到的分类结果为是,将该分词确定为所述待提取人物信息要素接处警文本中的相应人物信息要素。


2.根据权利要求1所述的方法,其中,所述预设人物信息要素标识集合中每个预设人物信息要素标识对应的基于支持向量机的分类模型是通过对于所述预设人物信息要素标识集合中的每个预设人物信息要素标识,执行分类模型训练操作得到的,其中,所述分类模型训练操作包括:
获取与该预设人物信息要素标识对应的训练样本集合,其中,训练样本包括对历史接处警文本进行切词所得到的分词序列以及与该分词序列对应的标注信息序列,其中,标注信息用于指示分词序列中相应分词是否为该预设人物信息要素标识所指示的人物信息要素;
对于所获取的训练样本集合中的每个训练样本,确定与该训练样本对应的文本特征向量,其中,所确定的文本特征向量中的各分量分别与预设词典中的各词语一一对应;
确定与该预设人物信息要素标识对应的正样本集合和负样本集合,其中,所述正样本集合包括所获取的训练样本集合中分词序列包括该预设人物信息要素标识所指示的人物信息要素的各训练样本对应的文本特征向量,所述负样本集合包括所获取的训练样本集合中分词序列不包括该预设人物信息要素标识所指示的人物信息要素的各训练样本对应的文本特征向量;
基于该预设人物信息要素标识对应的正样本集合和负样本集合训练该预设人物信息要素标识对应的基于支持向量机的分类模型。


3.根据权利要求2所述的方法,其中,所述对于所获取的训练样本集合中的每个训练样本,确定与该训练样本对应的文本特征向量,包括:
对于所获取的训练样本集合中的每个训练样本,执行以下向量生成及赋值操作:生成与该训练样本对应的文本特征向量,其中,所生成的文本特征向量中的各分量分别与预设词典中的各词语一一对应;对于该训练样本的分词序列中的每个为该预设人物信息要素标识所指示的人物信息要素的分词,将生成的文本特征向量中与该分词对应的分量设置为该分词的词频-逆文本频率指数TF-IDF;以及将所生成的文本特征向量中的各未赋值分量设置为预设数值,未赋值分量为属于所述预设词典但不属于该训练样本的分词序列中该预设人物信息要素标识所指示的人物信息要素的词语对应的分量。


4.根据权利要求1-3中任一所述的方法,其中,所述预设人物信息要素标识集合包括以下至少一项:姓名、即时通讯软件注册用户名、网站注册用户名。


5.一种基于支持向量机的接处警文本人物信息要素提取装置,包括:
获取单元,被配置成获取待提取人物信息要素接处警文本以及目标人物信息要素标识集合,其...

【专利技术属性】
技术研发人员:彭涛
申请(专利权)人:北京明亿科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1