基于命名实体识别的案件信息提取方法技术

技术编号:24498747 阅读:96 留言:0更新日期:2020-06-13 04:08
本发明专利技术公开了一种基于命名实体识别的案件信息提取方法,包括以下具体步骤:S1、对原始的案情文本数据进行数据预处理;S2、基于biLSTM‑CRF模型构建命名实体识别模型;S3、在步骤S1数据预处理阶段加入分词流程,将中文文本内容划分成多个语义单元,将分词信息与字序列共同作为输入数据传入命名实体识别模型;在步骤S2嵌入层的字向量序列结构的基础上加入分词信息,通过拼接字向量和分词信息,得到新的特征向量序列并传入biLSTM层进行学习训练。本发明专利技术提取每个字在当前文本中的位置信息,该部分信息扩充了原始数据的特征维度,提升模型的处理能力。同时将模型的最小语义单元从字符扩展到词语,有效地提升了模型对复杂实体的识别能力。

Case information extraction method based on Named Entity Recognition

【技术实现步骤摘要】
基于命名实体识别的案件信息提取方法
本专利技术涉及自然语言处理
,特别是一种基于命名实体识别的案件信息提取方法。
技术介绍
随着大数据技术的普及和公安信息化平台的部署,数据的管理和利用已成为当前亟需解决的问题。大量案情数据由非结构化的中文文本构成,无法直接应用到信息化系统中。当前,案情数据的结构化处理主要由信息补采民警完成。民警需要依据简要案情信息对案件进行标签化、结构化,以便在信息平台中对案件进行更深层的智能分析,从而实现案件的串并化。补采民警只能依靠人工的方式提取案件内容中的涉案人员身份信息、案发时间和地点信息,同时需对作案手段等描述性文字进行归纳。历史案件数据规模庞大,传统处理方式极大浪费了人力和时间成本。因此迫切需要一种案情数据结构化处理方法,自动提取文本中的关键信息,将案情数据标签化,让其在平台中发挥应有的价值。近几年来,基于人工智能的算法模型在视觉、语音等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展。命名实体识别作为自然语言处理的基础任务,主要应用于信息抽取、文本数据结构化。通常,我们将文本文档来自技高网...

【技术保护点】
1.基于命名实体识别的案件信息提取方法,其特征在于,包括以下具体步骤:/nS1、对原始的案情文本数据进行数据预处理;所述数据预处理包括:/n数据过滤,用于对与案情内容无关的部分进行清洗或替换;/n新词发现,用于从大量案情数据中自动提取出专业术语,将提取出的专业术语作为新词加入分词词典;/nS2、基于biLSTM-CRF模型构建命名实体识别模型;所述命名实体识别模型的构建包括:/n数据标注,针对案情信息提取的任务需求,编写数据标注标准,组织标注人员对经步骤S1处理后的部分案情数据进行标注,人工提取对应文本中的关键信息;/n模型训练,经步骤S1处理后的文字序列进入模型,通过对模型输出结果的处理,提...

【技术特征摘要】
1.基于命名实体识别的案件信息提取方法,其特征在于,包括以下具体步骤:
S1、对原始的案情文本数据进行数据预处理;所述数据预处理包括:
数据过滤,用于对与案情内容无关的部分进行清洗或替换;
新词发现,用于从大量案情数据中自动提取出专业术语,将提取出的专业术语作为新词加入分词词典;
S2、基于biLSTM-CRF模型构建命名实体识别模型;所述命名实体识别模型的构建包括:
数据标注,针对案情信息提取的任务需求,编写数据标注标准,组织标注人员对经步骤S1处理后的部分案情数据进行标注,人工提取对应文本中的关键信息;
模型训练,经步骤S1处理后的文字序列进入模型,通过对模型输出结果的处理,提取出其中的实体;
推理模块,通过模型调试,得到准确率最高的神经网络模型,以模型文件为中心搭建推理模块;
S3、对步骤S2中的命名实体识别模型进行优化;对命名实体识别模型进行优化的步骤包括:
在步骤S1数据预处理阶段加入分词流程,将中文文本内容划分成多个语义单元,将分词信息与字序列共同作为输入数据传入命名实体识别模型;
在步骤S2嵌入层的字向量序列结构的基础上加入分词信息,通过拼接字向量和分词信息,得到新的特征向量序列并传入biLSTM层进行学习训练。


2.根据权利要求1所述的基于命名实体识别的案件信息提取方法,其特征在于,所述步骤S1中的数据过滤是对文本数据中存在的非...

【专利技术属性】
技术研发人员:苏学武陈诚水军龚波刘怀春杨刚
申请(专利权)人:珠海市新德汇信息技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1