基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法技术

技术编号：21090109 阅读：18 留言：0更新日期：2019-05-11 10:09

本发明专利技术公开了一种基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法，包括如下步骤：对数据进行预处理；将原始语料数据分为训练集、测试集和验证集；统计训练集的字符个数，得到字符数据集，按字符出现频率降序进行编码，得到字符对应编号数据集Char_ID；将每条原始语料进行分词并编码，生成分词数据集Segs；统计训练集的所有字符的标签，并对标签按出现频次降序编号，得到标签数据Tags_ID；将训练集按组划分以生成批量数据集Butch_Data；建立基于IDCNN的深度学习模型，随机抽取Butch_Data进行参数训练；将膨胀算子计算的卷积矩阵组合，并进行dropout计算，得到每个字符对应的Logits值；以及将上层产生的Logits值经过softmax计算，并与labels的概率分布进行交叉熵计算，最终得到该字符的类别标签。

Named Entity Recognition of Public Security Records Based on Iterative Expansion Convolution Neural Network

全部详细技术资料下载

【技术实现步骤摘要】
基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法
本专利技术是关于机器学习
，特别是关于一种基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法及计算机可读介质。
技术介绍
公安领域在多年的办案过程中，积累了大量案件笔录和涉案人员等非结构化的信息数据，侦查人员需要花费很多时间在庞大的文本处理工作上，如何将过往案件笔录中包含的信息提取出来，分析挖掘案情的关键线索、串并案件等，是公安部门信息化办案的首要工作。自然语言处理(NaturalLanguageProcessing)技术能够有效处理非结构化文本数据。其中命名实体识别(NamedEntityRecognition,NER)作为自然语言处理的基本载体，是正确理解文本内容的基础。在公安领域的案件笔录文本处理中，通过给定笔录，利用命名实体识别技术能够识别文本中所包含的实体边界和类型，减少了人工查询和整理，为民警在办案过程中提供便利。命名实体识别主要有基于知识工程方法和机器学习方法两种。传统的知识工程方法主要依靠人工编写信息抽取的规则模式，处理特定知识领域的信息抽取问题。但该方法依赖于具体领域的语言和文本格式，规则制定过程耗时，建设周期长，具有领域高度相关性，模型的泛化能力较差。机器学习方法基于贝叶斯统计理论，将命名实体识别问题视作典型的分类问题，通过标注语料生成数据并对统计模型进行训练，实现未知文本实体的识别。与传统的知识工程相比，机器学习方法的泛化能力更强，其中神经网络更具有不易受到人为因素和特定领域影响的优点。目前在公安领域的自然语言处理中较多采用深度神经网络方法，将语料标注与词向量特征结合，通过减少...

【技术保护点】
1.一种基于迭代膨胀卷积神经网络(IDCNN)的公安笔录命名实体识别方法，其特征在于：所述公安笔录命名实体识别方法包括如下步骤：对数据进行预处理；将原始语料数据分为训练集、测试集和验证集；统计训练集的字符个数，得到字符数据集，按字符出现频率降序进行编码，得到字符对应编号数据集Char_ID；将每条原始语料进行分词并编码，生成分词数据集Segs；统计所述训练集的所有字符的标签，并对标签按出现频次降序编号，得到标签数据Tags_ID；将所述训练集按组划分以生成批量数据集Butch_Data；建立基于IDCNN的深度学习模型，随机抽取所述Butch_Data进行参数训练；将膨胀算子计算的卷积矩阵组合，并采用dropout正则化模型参数，在每个批次的训练中将隐层神经元以概率p＝0.5保留，得到每个字符对应的非归一化的对数概率Logits值，其中

【技术特征摘要】
1.一种基于迭代膨胀卷积神经网络(IDCNN)的公安笔录命名实体识别方法，其特征在于：所述公安笔录命名实体识别方法包括如下步骤：对数据进行预处理；将原始语料数据分为训练集、测试集和验证集；统计训练集的字符个数，得到字符数据集，按字符出现频率降序进行编码，得到字符对应编号数据集Char_ID；将每条原始语料进行分词并编码，生成分词数据集Segs；统计所述训练集的所有字符的标签，并对标签按出现频次降序编号，得到标签数据Tags_ID；将所述训练集按组划分以生成批量数据集Butch_Data；建立基于IDCNN的深度学习模型，随机抽取所述Butch_Data进行参数训练；将膨胀算子计算的卷积矩阵组合，并采用dropout正则化模型参数，在每个批次的训练中将隐层神经元以概率p＝0.5保留，得到每个字符对应的非归一化的对数概率Logits值，其中该Logits值将概率p由[0,1]映射到[-∞,+∞]；将上层产生的所述Logits值经过交叉熵函数softmax计算，最终得到该字符的类别标签label，其中交叉熵函数j为标签类别数。2.如权利要求1所述的公安笔录命名实体识别方法，其特征在于：所述对数据进行预处理包括：采集多个公安笔录数据；以及通过训练将所述多个公安笔录数据所包含的字符映射成100维实数词向量Word2vec。3.如权利要求2所述的公安笔录命名实体识别方法，其特征在于：其中，未在Word2vec中出现的字符ID置0。4.如权利要求3所述的公安笔录命名实体识别方法，其特征在于：所述批量数据集Butch_Data包括原始字符语料、字符对应的Char_ID、原始语料的分词数据集Segs和字符对应标签的Tags_ID。5.如权利要求4所述的公安笔录命名实体识别方法，其特征在于：在所述IDCNN的深度学习模型中包括4个相同结构的膨胀卷积单元，每个所述膨胀卷积单元的膨胀算子为[{1},{1},{2}]...

【专利技术属性】
技术研发人员：张强，喻波，王志海，魏力，谢福进，
申请(专利权)人：北京明朝万达科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人