一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质制造方法及图纸

技术编号:23162016 阅读:36 留言:0更新日期:2020-01-21 22:02
本发明专利技术涉及中文语言处理及识别技术领域,公开了一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质。通过本发明专利技术创造,提供了一种综合利用字符和词特征进行基于神经网络的深度学习方式来提高中文命名实体识别率的新方法,即在模型训练前,通过对待训练数据进行预处理,使训练样本包含有作为词边界信息的字符位置标识向量,进而确保训练得到的中文命名实体识别模型具有极高的识别率,使该识别模型能够将输入文本转化为命名实体标签,从而可解决现有技术无法利用句子中单词的信息,进而导致识别效果有瑕疵,限制了识别率提升的问题,便于实际应用和推广。此外,所述中文命名实体识别方法容易实现,并且开发和运行成本较低。

【技术实现步骤摘要】
一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质
本专利技术属于中文语言处理及识别
,具体涉及一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质。
技术介绍
命名实体识别(NamedEntityRecognition,简称NER)是自然语言处理的一项基本任务,目的是识别出自然语言处理中的专有名词和短语,并加以分类。随着越来越多的研究者在NEP领域提出各种各样的模型结构,采用神经网络或深度学习来处理NER问题已经成为主要趋势。当前基于字符的方法和基于词的方法是两种主流的处理方法,其中,基于词的方法需要使用分词工具,但分词工具效果不太完美,一旦分词错误,就会直接影响实体边界的预测,导致识别错误;而基于字符的方法,其以字符为单位进行训练,虽然训练规模变大,训练时间变长,但研究表明,对于中文的命名实体识别,基于字符的方法优于基于词的方法。但是基于字符的方法无法利用句子中单词的信息(实际上提供词边界信息能够有效提升识别率),这会使识别效果有瑕疵,限制了识别率的提升。
技术实现思路
为了解决现有基于字符的中文命名实体识别方法所存在的因无法利用句子中单词的信息,进而导致识别效果有瑕疵,限制了识别率提升的问题,本专利技术目的在于提供一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质。本专利技术所采用的技术方案为:一种基于神经网络的中文命名实体识别方法,包括如下步骤:S101.对待训练数据进行预处理,得到各个句子的字符特征标识向量和字符位置标识向量,其中,所述字符特征标识向量包含有在对应句子中各个字的字符特征唯一ID号,所述字符位置标识向量包含有在对应句子中各个字的字符位置唯一ID号;S102.将各个句子的所述字符特征标识向量和所述字符位置标识向量作为训练样本,导入多层神经网络模型进行训练,得到中文命名实体识别模型;S103.应用所述中文命名实体识别模型对目标文本进行中文命名实体识别,获取实体标注结果。优化的,在所述步骤S101中,按照如下步骤得到各个句子的字符特征标识向量:S1011.对所述待训练数据进行分句处理,得到若干句子;S1012.对各个句子进行文字分割处理,使字与字之间分开;S1013.统计所有字,并为每个字分配字符特征唯一ID号;S1014.针对各个句子,根据在对应句子中每个字的对应字符特征唯一ID号,生成所述字符特征标识向量。优化的,在所述步骤S101中,按照如下步骤得到各个句子的字符位置标识向量:S1021.对所述待训练数据进行分句处理,得到若干句子;S1022.对各个句子进行基于分词工具的全模式分词处理,得到若干词语;S1023.针对各个句子,标记每个字在所属词语中的位置,然后根据所属词语在对应句子中的先后顺序,将位置标记信息拼接组成对应字的字符位置标签;S1024.统计所有字符位置标签,并为每个字符位置标签分配字符位置唯一ID号;S1025.针对各个句子,根据在对应句子中每个字的对应字符位置唯一ID号,生成所述字符位置标识向量。进一步优化的,在所述步骤S1023中,按照如下方式标记每个字在所属词语中的位置:采用词首符号、词中符号、词尾符号或非词符号以及词语长度和字位序号拼接构成字在所属词语中的位置标记信息,其中,所述字位序号是指字在所属词语中先后顺序的序列号。优化的,在所述步骤S102中包括有如下步骤:S201.在将所述字符特征标识向量和所述字符位置标识向量进行拼接后,导入所述多层神经网络模型进行训练,然后输出包含隐藏层向量的识别模型;S202.利用条件随机场对每个字符进行实体标注,标记出语句序列中的实体信息;S203.通过反复训练获得一组最优数据权重,得到识别精度最高的中文命名实体识别模型。优化的,在所述步骤S103中包括有如下步骤:S301.应用所述中文命名实体识别模型对目标文本进行按字地序列化标注,然后把成块的字符串转化为实体,获取实体标注结果。具体的,所述多层神经网络模型为CNN神经网络模型、GRU神经网络模型、双向LSTM神经网络模型、Transformer神经网络模型或BERT神经网络模型。本专利技术所采用的另一种技术方案为:一种基于神经网络的中文命名实体识别装置,包括依次通信相连的数据预处理模块、模型训练模块和实体标注模块;所述数据预处理模块,用于对待训练数据进行预处理,得到各个句子的字符特征标识向量和字符位置标识向量,其中,所述字符特征标识向量包含有在对应句子中各个字的字符特征唯一ID号,所述字符位置标识向量包含有在对应句子中各个字的字符位置唯一ID号;所述模型训练模块,用于将各个句子的所述字符特征标识向量和所述字符位置标识向量作为训练样本,导入多层神经网络模型进行训练,得到中文命名实体识别模型;所述实体标注模块,用于应用所述中文命名实体识别模型对目标文本进行中文命名实体识别,获取实体标注结果。本专利技术所采用的另一种技术方案为:一种基于神经网络的中文命名实体识别设备,包括通信相连的存储器和处理器,其中,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序实现如前所述基于神经网络的中文命名实体识别方法的步骤。本专利技术所采用的另一种技术方案为:一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述基于神经网络的中文命名实体识别方法的步骤。本专利技术的有益效果为:(1)本专利技术创造提供了一种综合利用字符和词特征进行基于神经网络的深度学习方式来提高中文命名实体识别率的新方法,即在模型训练前,通过对待训练数据进行预处理,使训练样本包含有作为词边界信息的字符位置标识向量,进而确保训练得到的中文命名实体识别模型具有极高的识别率,使该识别模型能够将输入文本转化为命名实体标签,即将需要识别的文本输入到训练完成的所述中文命名实体识别模型中,模型就会将文本转化为相应的标签文本,从而可解决现有技术无法利用句子中单词的信息,进而导致识别效果有瑕疵,限制了识别率提升的问题,便于实际应用和推广;(2)所述中文命名实体识别方法容易实现,并且开发和运行成本较低,通过一台服务器便可实现中文实体识别服务,判断的速度和准确率也高,且可以运用于别的NLP任务中。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术提供的中文命名实体识别方法的流程示意图。图2是本专利技术提供的全模式分词结果的示例图。图3是本专利技术提供的中文命名实体识别装置的结构示意图。图4是本专利技术提供的中文命名实体识别设备的结构示意图。具体实施本文档来自技高网...

【技术保护点】
1.一种基于神经网络的中文命名实体识别方法,其特征在于,包括如下步骤:/nS101.对待训练数据进行预处理,得到各个句子的字符特征标识向量和字符位置标识向量,其中,所述字符特征标识向量包含有在对应句子中各个字的字符特征唯一ID号,所述字符位置标识向量包含有在对应句子中各个字的字符位置唯一ID号;/nS102.将各个句子的所述字符特征标识向量和所述字符位置标识向量作为训练样本,导入多层神经网络模型进行训练,得到中文命名实体识别模型;/nS103.应用所述中文命名实体识别模型对目标文本进行中文命名实体识别,获取实体标注结果。/n

【技术特征摘要】
1.一种基于神经网络的中文命名实体识别方法,其特征在于,包括如下步骤:
S101.对待训练数据进行预处理,得到各个句子的字符特征标识向量和字符位置标识向量,其中,所述字符特征标识向量包含有在对应句子中各个字的字符特征唯一ID号,所述字符位置标识向量包含有在对应句子中各个字的字符位置唯一ID号;
S102.将各个句子的所述字符特征标识向量和所述字符位置标识向量作为训练样本,导入多层神经网络模型进行训练,得到中文命名实体识别模型;
S103.应用所述中文命名实体识别模型对目标文本进行中文命名实体识别,获取实体标注结果。


2.如权利要求1所述的一种基于神经网络的中文命名实体识别方法,其特征在于,在所述步骤S101中,按照如下步骤得到各个句子的字符特征标识向量:
S1011及S1021.对所述待训练数据进行分句处理,得到若干句子;
S1012.对各个句子进行文字分割处理,使字与字之间分开;
S1013.统计所有字,并为每个字分配字符特征唯一ID号;
S1014.针对各个句子,根据在对应句子中每个字的对应字符特征唯一ID号,生成所述字符特征标识向量。


3.如权利要求1所述的一种基于神经网络的中文命名实体识别方法,其特征在于,在所述步骤S101中,按照如下步骤得到各个句子的字符位置标识向量:
S1021.对所述待训练数据进行分句处理,得到若干句子;
S1022.对各个句子进行基于分词工具的全模式分词处理,得到若干词语;
S1023.针对各个句子,标记每个字在所属词语中的位置,然后根据所属词语在对应句子中的先后顺序,将位置标记信息拼接组成对应字的字符位置标签;
S1024.统计所有字符位置标签,并为每个字符位置标签分配字符位置唯一ID号;
S1025.针对各个句子,根据在对应句子中每个字的对应字符位置唯一ID号,生成所述字符位置标识向量。


4.如权利要求3所述的一种基于神经网络的中文命名实体识别方法,其特征在于,在所述步骤S1023中,按照如下方式标记每个字在所属词语中的位置:采用词首符号、词中符号、词尾符号或非词符号以及词语长度和字位序号拼接构成字在所属词语中的位置标记信息,其中,所述字位序号是指字在所属词语中先后顺序的序列号。


5.如...

【专利技术属性】
技术研发人员:黄浩
申请(专利权)人:北京爱医博通信息技术有限公司
类型:发明
国别省市:北京;11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1