基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法技术

技术编号:21090109 阅读:18 留言:0更新日期:2019-05-11 10:09
本发明专利技术公开了一种基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法,包括如下步骤:对数据进行预处理;将原始语料数据分为训练集、测试集和验证集;统计训练集的字符个数,得到字符数据集,按字符出现频率降序进行编码,得到字符对应编号数据集Char_ID;将每条原始语料进行分词并编码,生成分词数据集Segs;统计训练集的所有字符的标签,并对标签按出现频次降序编号,得到标签数据Tags_ID;将训练集按组划分以生成批量数据集Butch_Data;建立基于IDCNN的深度学习模型,随机抽取Butch_Data进行参数训练;将膨胀算子计算的卷积矩阵组合,并进行dropout计算,得到每个字符对应的Logits值;以及将上层产生的Logits值经过softmax计算,并与labels的概率分布进行交叉熵计算,最终得到该字符的类别标签。

Named Entity Recognition of Public Security Records Based on Iterative Expansion Convolution Neural Network

【技术实现步骤摘要】
基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法
本专利技术是关于机器学习
,特别是关于一种基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法及计算机可读介质。
技术介绍
公安领域在多年的办案过程中,积累了大量案件笔录和涉案人员等非结构化的信息数据,侦查人员需要花费很多时间在庞大的文本处理工作上,如何将过往案件笔录中包含的信息提取出来,分析挖掘案情的关键线索、串并案件等,是公安部门信息化办案的首要工作。自然语言处理(NaturalLanguageProcessing)技术能够有效处理非结构化文本数据。其中命名实体识别(NamedEntityRecognition,NER)作为自然语言处理的基本载体,是正确理解文本内容的基础。在公安领域的案件笔录文本处理中,通过给定笔录,利用命名实体识别技术能够识别文本中所包含的实体边界和类型,减少了人工查询和整理,为民警在办案过程中提供便利。命名实体识别主要有基于知识工程方法和机器学习方法两种。传统的知识工程方法主要依靠人工编写信息抽取的规则模式,处理特定知识领域的信息抽取问题。但该方法依赖于具体领域的语言和文本格式,规则制定过程耗时,建设周期长,具有领域高度相关性,模型的泛化能力较差。机器学习方法基于贝叶斯统计理论,将命名实体识别问题视作典型的分类问题,通过标注语料生成数据并对统计模型进行训练,实现未知文本实体的识别。与传统的知识工程相比,机器学习方法的泛化能力更强,其中神经网络更具有不易受到人为因素和特定领域影响的优点。目前在公安领域的自然语言处理中较多采用深度神经网络方法,将语料标注与词向量特征结合,通过减少人工特征在模型中的比重,可减少命名实体识别系统对于大型语料库的依赖;并通过概率统计降低规则方法的复杂度,有效提高了模型的性能。在实际中主要采用循环神经网络(RecurrentNeuralNetwork,RNN)、长短期记忆(LongShortTermMemory,LSTM)神经网络及卷积神经网络(ConvolutionalNeuralNetworks,CNN)等深度学习算法。现有技术存在基于CNN的命名实体识别方法,其技术方案如下:采用卷积神经网络CNN建立模型,首先利用语料标注得到文本标签,并获取字符的特征,然后与该领域的大型语料词向量结合,建立CNN神经网络模型,该方法主要利用了CNN善于描述数据局部特征和领域词向量的特性。现有技术还存在基于BLSTM的命名实体识别方法,其技术方案如下:LSTM神经网络是RNN的一种特殊类型,通过输入门、忘记门和输出门的设计,在处理文本序列时可解决RNN所造成的长期依赖问题。目前对于序列化数据的标注任务,表现效果最好的实体识别算法基本上采用双向LSTM(BidirectionalLSTM),避免了模型庞大的参数优化问题。采用BLSTM通过词向量、字符向量等特征,建立Embedding层,再经过双向的LSTM层,激励层后,最后为CRF层。该模型集成了深度学习方法的优势,无需特征工程,仅使用词向量以及字符向量就可以达到很好的效果。与其他领域相比,公安笔录涉及案件类别复杂,包含的实体种类也千差万别,如盗窃案件和枪支案件具有不同的涉案物品,而且实体的命名方式无法统一,造成同一物品的不同表达方式。因此如果缺乏大型通用语料库,CNN模型在卷积之后,末层神经元可能只得到了输入数据的局部信息,这会导致与当前标注字符和相邻字符之间的关联性缺失,形成孤立的标签。为了覆盖整个句子的全部字符,就需要更多的卷积层,这会导致参数过多,并会加大训练难度。而且CNN模型在训练中极易陷入搜索空间巨大的情况,同时易造成数据的稀疏性。而LSTM模型的本质是处理序列数据问题,利用网络的记忆能力掌握全句的信息,从而确定单个字符的类型。然而在实际公安笔录的应用中,往往出现多条句子之间存在关联性的情况。若采用LSTM模型训练,需合并整篇笔录中的语句作为单条数据,从而满足前后语句的语义衔接,这样会造成训练复杂度的增加;而且在并行计算方面,LSTM无法体现出卷积网络的优势。公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
技术实现思路
本专利技术的目的在于提供一种基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法及计算机可读介质,其能够克服现有技术的缺点。为实现上述目的,本专利技术提供了一种基于迭代膨胀卷积神经网络(IDCNN)的公安笔录命名实体识别方法,包括如下步骤:对数据进行预处理;将原始语料数据分为训练集、测试集和验证集;统计训练集的字符个数,得到字符数据集,按字符出现频率降序进行编码,得到字符对应编号数据集Char_ID;将每条原始语料进行分词并编码,生成分词数据集Segs;统计训练集的所有字符的标签,并对标签按出现频次降序编号,得到标签数据Tags_ID;将训练集按组划分以生成批量数据集Butch_Data;建立基于IDCNN的深度学习模型,随机抽取Butch_Data进行参数训练;将膨胀算子计算的卷积矩阵组合,并采用dropout正则化模型参数,在每个批次的训练中将隐层神经元以概率p=0.5保留,得到每个字符对应的非归一化的对数概率Logits值,其中该Logits值将概率p由[0,1]映射到[-∞,+∞];将上层产生的Logits值经过交叉熵函数softmax计算,最终得到该字符的类别标签label,其中交叉熵函数j为标签类别数。在一优选的实施方式中,对数据进行预处理包括:采集多个公安笔录数据;以及通过训练将多个公安笔录数据所包含的字符映射成100维实数词向量Word2vec。在一优选的实施方式中,其中,数据集中的字符包含对应标签Tag。在一优选的实施方式中,其中,未在Word2vec中出现的字符ID置0。在一优选的实施方式中,批量数据集Butch_Data包括原始字符语料、字符对应的Char_ID、原始语料的分词数据集Segs和字符对应标签的Tags_ID。在一优选的实施方式中,在IDCNN的深度学习模型中包括4个相同结构的膨胀卷积单元,每个膨胀卷积单元的膨胀算子为[{1},{1},{2}]。本专利技术还提供了一种其上存储有计算机可执行代码的非暂时性计算机可读介质,在被执行时,计算机可执行代码可操作以使处理器进行以下操作:对数据进行预处理;将原始语料数据分为训练集、测试集和验证集;统计训练集的字符个数,得到字符数据集,按字符出现频率降序进行编码,得到字符对应编号数据集Char_ID;将每条原始语料进行分词并编码,生成分词数据集Segs;统计训练集的所有字符的标签,并对标签按出现频次降序编号,得到标签数据Tags_ID;将训练集按组划分以生成批量数据集Butch_Data;建立基于IDCNN的深度学习模型,随机抽取Butch_Data进行参数训练;将膨胀算子计算的卷积矩阵组合,并采用dropout正则化模型参数,在每个批次的训练中将隐层神经元以概率p=0.5保留,得到每个字符对应的非归一化的对数概率Logits值,其中该Logits值将概率p由[0,1]映射到[-∞,+∞];将上层产生的所述Logits值经过交叉熵函数softmax计算,最终得到该字符的类本文档来自技高网
...

【技术保护点】
1.一种基于迭代膨胀卷积神经网络(IDCNN)的公安笔录命名实体识别方法,其特征在于:所述公安笔录命名实体识别方法包括如下步骤:对数据进行预处理;将原始语料数据分为训练集、测试集和验证集;统计训练集的字符个数,得到字符数据集,按字符出现频率降序进行编码,得到字符对应编号数据集Char_ID;将每条原始语料进行分词并编码,生成分词数据集Segs;统计所述训练集的所有字符的标签,并对标签按出现频次降序编号,得到标签数据Tags_ID;将所述训练集按组划分以生成批量数据集Butch_Data;建立基于IDCNN的深度学习模型,随机抽取所述Butch_Data进行参数训练;将膨胀算子计算的卷积矩阵组合,并采用dropout正则化模型参数,在每个批次的训练中将隐层神经元以概率p=0.5保留,得到每个字符对应的非归一化的对数概率Logits值,其中

【技术特征摘要】
1.一种基于迭代膨胀卷积神经网络(IDCNN)的公安笔录命名实体识别方法,其特征在于:所述公安笔录命名实体识别方法包括如下步骤:对数据进行预处理;将原始语料数据分为训练集、测试集和验证集;统计训练集的字符个数,得到字符数据集,按字符出现频率降序进行编码,得到字符对应编号数据集Char_ID;将每条原始语料进行分词并编码,生成分词数据集Segs;统计所述训练集的所有字符的标签,并对标签按出现频次降序编号,得到标签数据Tags_ID;将所述训练集按组划分以生成批量数据集Butch_Data;建立基于IDCNN的深度学习模型,随机抽取所述Butch_Data进行参数训练;将膨胀算子计算的卷积矩阵组合,并采用dropout正则化模型参数,在每个批次的训练中将隐层神经元以概率p=0.5保留,得到每个字符对应的非归一化的对数概率Logits值,其中该Logits值将概率p由[0,1]映射到[-∞,+∞];将上层产生的所述Logits值经过交叉熵函数softmax计算,最终得到该字符的类别标签label,其中交叉熵函数j为标签类别数。2.如权利要求1所述的公安笔录命名实体识别方法,其特征在于:所述对数据进行预处理包括:采集多个公安笔录数据;以及通过训练将所述多个公安笔录数据所包含的字符映射成100维实数词向量Word2vec。3.如权利要求2所述的公安笔录命名实体识别方法,其特征在于:其中,未在Word2vec中出现的字符ID置0。4.如权利要求3所述的公安笔录命名实体识别方法,其特征在于:所述批量数据集Butch_Data包括原始字符语料、字符对应的Char_ID、原始语料的分词数据集Segs和字符对应标签的Tags_ID。5.如权利要求4所述的公安笔录命名实体识别方法,其特征在于:在所述IDCNN的深度学习模型中包括4个相同结构的膨胀卷积单元,每个所述膨胀卷积单元的膨胀算子为[{1},{1},{2}]...

【专利技术属性】
技术研发人员:张强喻波王志海魏力谢福进
申请(专利权)人:北京明朝万达科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1