【技术实现步骤摘要】
基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法
本专利技术是关于机器学习
,特别是关于一种基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法及计算机可读介质。
技术介绍
公安领域在多年的办案过程中,积累了大量案件笔录和涉案人员等非结构化的信息数据,侦查人员需要花费很多时间在庞大的文本处理工作上,如何将过往案件笔录中包含的信息提取出来,分析挖掘案情的关键线索、串并案件等,是公安部门信息化办案的首要工作。自然语言处理(NaturalLanguageProcessing)技术能够有效处理非结构化文本数据。其中命名实体识别(NamedEntityRecognition,NER)作为自然语言处理的基本载体,是正确理解文本内容的基础。在公安领域的案件笔录文本处理中,通过给定笔录,利用命名实体识别技术能够识别文本中所包含的实体边界和类型,减少了人工查询和整理,为民警在办案过程中提供便利。命名实体识别主要有基于知识工程方法和机器学习方法两种。传统的知识工程方法主要依靠人工编写信息抽取的规则模式,处理特定知识领域的信息抽取问题。但该方法依赖于具体领域的语言和文本格式,规则 ...
【技术保护点】
1.一种基于迭代膨胀卷积神经网络(IDCNN)的公安笔录命名实体识别方法,其特征在于:所述公安笔录命名实体识别方法包括如下步骤:对数据进行预处理;将原始语料数据分为训练集、测试集和验证集;统计训练集的字符个数,得到字符数据集,按字符出现频率降序进行编码,得到字符对应编号数据集Char_ID;将每条原始语料进行分词并编码,生成分词数据集Segs;统计所述训练集的所有字符的标签,并对标签按出现频次降序编号,得到标签数据Tags_ID;将所述训练集按组划分以生成批量数据集Butch_Data;建立基于IDCNN的深度学习模型,随机抽取所述Butch_Data进行参数训练;将膨胀算 ...
【技术特征摘要】
1.一种基于迭代膨胀卷积神经网络(IDCNN)的公安笔录命名实体识别方法,其特征在于:所述公安笔录命名实体识别方法包括如下步骤:对数据进行预处理;将原始语料数据分为训练集、测试集和验证集;统计训练集的字符个数,得到字符数据集,按字符出现频率降序进行编码,得到字符对应编号数据集Char_ID;将每条原始语料进行分词并编码,生成分词数据集Segs;统计所述训练集的所有字符的标签,并对标签按出现频次降序编号,得到标签数据Tags_ID;将所述训练集按组划分以生成批量数据集Butch_Data;建立基于IDCNN的深度学习模型,随机抽取所述Butch_Data进行参数训练;将膨胀算子计算的卷积矩阵组合,并采用dropout正则化模型参数,在每个批次的训练中将隐层神经元以概率p=0.5保留,得到每个字符对应的非归一化的对数概率Logits值,其中该Logits值将概率p由[0,1]映射到[-∞,+∞];将上层产生的所述Logits值经过交叉熵函数softmax计算,最终得到该字符的类别标签label,其中交叉熵函数j为标签类别数。2.如权利要求1所述的公安笔录命名实体识别方法,其特征在于:所述对数据进行预处理包括:采集多个公安笔录数据;以及通过训练将所述多个公安笔录数据所包含的字符映射成100维实数词向量Word2vec。3.如权利要求2所述的公安笔录命名实体识别方法,其特征在于:其中,未在Word2vec中出现的字符ID置0。4.如权利要求3所述的公安笔录命名实体识别方法,其特征在于:所述批量数据集Butch_Data包括原始字符语料、字符对应的Char_ID、原始语料的分词数据集Segs和字符对应标签的Tags_ID。5.如权利要求4所述的公安笔录命名实体识别方法,其特征在于:在所述IDCNN的深度学习模型中包括4个相同结构的膨胀卷积单元,每个所述膨胀卷积单元的膨胀算子为[{1},{1},{2}]...
【专利技术属性】
技术研发人员:张强,喻波,王志海,魏力,谢福进,
申请(专利权)人:北京明朝万达科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。