一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质制造方法及图纸

技术编号：23162016 阅读：49 留言：0更新日期：2020-01-21 22:02

本发明专利技术涉及中文语言处理及识别技术领域，公开了一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质。通过本发明专利技术创造，提供了一种综合利用字符和词特征进行基于神经网络的深度学习方式来提高中文命名实体识别率的新方法，即在模型训练前，通过对待训练数据进行预处理，使训练样本包含有作为词边界信息的字符位置标识向量，进而确保训练得到的中文命名实体识别模型具有极高的识别率，使该识别模型能够将输入文本转化为命名实体标签，从而可解决现有技术无法利用句子中单词的信息，进而导致识别效果有瑕疵，限制了识别率提升的问题，便于实际应用和推广。此外，所述中文命名实体识别方法容易实现，并且开发和运行成本较低。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质
本专利技术属于中文语言处理及识别
，具体涉及一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质。
技术介绍
命名实体识别(NamedEntityRecognition，简称NER)是自然语言处理的一项基本任务，目的是识别出自然语言处理中的专有名词和短语，并加以分类。随着越来越多的研究者在NEP领域提出各种各样的模型结构，采用神经网络或深度学习来处理NER问题已经成为主要趋势。当前基于字符的方法和基于词的方法是两种主流的处理方法，其中，基于词的方法需要使用分词工具，但分词工具效果不太完美，一旦分词错误，就会直接影响实体边界的预测，导致识别错误；而基于字符的方法，其以字符为单位进行训练，虽然训练规模变大，训练时间变长，但研究表明，对于中文的命名实体识别，基于字符的方法优于基于词的方法。但是基于字符的方法无法利用句子中单词的信息(实际上提供词边界信息能够有效提升识别率)，这会使识别效果有瑕疵，限制了识别率的提升。专利技...

【技术保护点】
1.一种基于神经网络的中文命名实体识别方法，其特征在于，包括如下步骤：/nS101.对待训练数据进行预处理，得到各个句子的字符特征标识向量和字符位置标识向量，其中，所述字符特征标识向量包含有在对应句子中各个字的字符特征唯一ID号，所述字符位置标识向量包含有在对应句子中各个字的字符位置唯一ID号；/nS102.将各个句子的所述字符特征标识向量和所述字符位置标识向量作为训练样本，导入多层神经网络模型进行训练，得到中文命名实体识别模型；/nS103.应用所述中文命名实体识别模型对目标文本进行中文命名实体识别，获取实体标注结果。/n

【技术特征摘要】
1.一种基于神经网络的中文命名实体识别方法，其特征在于，包括如下步骤：
S101.对待训练数据进行预处理，得到各个句子的字符特征标识向量和字符位置标识向量，其中，所述字符特征标识向量包含有在对应句子中各个字的字符特征唯一ID号，所述字符位置标识向量包含有在对应句子中各个字的字符位置唯一ID号；
S102.将各个句子的所述字符特征标识向量和所述字符位置标识向量作为训练样本，导入多层神经网络模型进行训练，得到中文命名实体识别模型；
S103.应用所述中文命名实体识别模型对目标文本进行中文命名实体识别，获取实体标注结果。

2.如权利要求1所述的一种基于神经网络的中文命名实体识别方法，其特征在于，在所述步骤S101中，按照如下步骤得到各个句子的字符特征标识向量：
S1011及S1021.对所述待训练数据进行分句处理，得到若干句子；
S1012.对各个句子进行文字分割处理，使字与字之间分开；
S1013.统计所有字，并为每个字分配字符特征唯一ID号；
S1014.针对各个句子，根据在对应句子中每个字的对应字符特征唯一ID号，生成所述字符特征标识向量。

3.如权利要求1所述的一种基于神经网络的中文命名实体识别方法，其特征在于，在所述步骤S101中，按照如下步骤得到各个句子的字符位置标识向量：
S1021.对所述待训练数据进行分句处理，得到若干句子；
S1022.对各个句子进行基于分词工具的全模式分词处理，得到若干词语；
S1023.针对各个句子，标记每个字在所属词语中的位置，然后根据所属词语在对应句子中的先后顺序，将位置标记信息拼接组成对应字的字符位置标签；
S1024.统计所有字符位置标签，并为每个字符位置标签分配字符位置唯一ID号；
S1025.针对各个句子，根据在对应句子中每个字的对应字符位置唯一ID号，生成所述字符位置标识向量。

4.如权利要求3所述的一种基于神经网络的中文命名实体识别方法，其特征在于，在所述步骤S1023中，按照如下方式标记每个字在所属词语中的位置：采用词首符号、词中符号、词尾符号或非词符号以及词语长度和字位序号拼接构成字在所属词语中的位置标记信息，其中，所述字位序号是指字在所属词语中先后顺序的序列号。

5.如...

【专利技术属性】
技术研发人员：黄浩，
申请(专利权)人：北京爱医博通信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人