中文命名实体识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：22295637 阅读：58 留言：0更新日期：2019-10-15 04:46

本申请涉及一种中文命名实体识别方法，包括：获取待识别语句，将所述待识别语句输入预设神经网络的嵌入层，输出所述待识别语句的输出字向量；将所述输出字向量分别同步输入预设的双向长短期记忆网络和预设的空洞卷积网络得到输出矩阵；将所述输出矩阵输入预设的分段长短期记忆网络，得到多个预测序列；采用条件随机场算法从所述预测序列中选取最优序列，根据所述最优序列获取识别出的实体。本申请通过同步采用双向长短期记忆网络和预设的空洞卷积网络进行特征变换，可以有效提取特征，无需赖于实体词典，提高识别效率。

Chinese Named Entity Recognition Method, Device, Computer Equipment and Storage Media

全部详细技术资料下载

【技术实现步骤摘要】
中文命名实体识别方法、装置、计算机设备和存储介质
本申请涉及信息处理领域，特别是涉及一种中文命名实体识别方法、装置、计算机设备和存储介质。
技术介绍
命名实体识别(NamedEntityRecognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。命名实体识别作为自然语言处理任务中的基础任务，它的效果会直接影响实体链接、机器翻译、关系抽取等任务。由于中文没有天然的分割符来分割每个单词，因此基于字的中文命名实体识别相比于基于词的方法是一个更好的选择。常用的命名实体识别方法有BiLSTM(Bi-directionalLongShort-TermMemory，双向长短期记忆)结合CRF(Conditionalrandomfields，条件随机场)等方法，通过训练，识别出每个字的标签，然后将相同类型的标签结合组成一个实体，这种方法依赖于较大的实体词典，然而，当添加较大的实体词典时，识别效率较低。
技术实现思路
本申请的目的在于提供一种中文命名实体识别方法、装置、计算机设备和可读存储介质，可以无需依赖实体字典，有效提高识别效率。本申请的目的通过如下技术方案实现：一种中文命名实体识别方法，所述方法包括：获取待识别语句，将所述待识别语句输入预设神经网络的嵌入层，输出所述待识别语句的输出字向量；将所述输出字向量分别同步输入预设的双向长短期记忆网络和预设的空洞卷积网络得到输出矩阵；将所述输出矩阵输入预设的分段长短期记忆网络，得到多个预测序列；采用条件随机场算法从所述预测序列中选取最优序列，根据所述最优序列获取...

【技术保护点】
1.一种中文命名实体识别方法，其特征在于，所述方法包括：获取待识别语句，将所述待识别语句输入预设神经网络的嵌入层，输出所述待识别语句的输出字向量；将所述输出字向量分别同步输入预设的双向长短期记忆网络和预设的空洞卷积网络得到输出矩阵；将所述输出矩阵输入预设的分段长短期记忆网络，得到多个预测序列；采用条件随机场算法从所述预测序列中选取最优序列，根据所述最优序列获取识别出的实体。

【技术特征摘要】
1.一种中文命名实体识别方法，其特征在于，所述方法包括：获取待识别语句，将所述待识别语句输入预设神经网络的嵌入层，输出所述待识别语句的输出字向量；将所述输出字向量分别同步输入预设的双向长短期记忆网络和预设的空洞卷积网络得到输出矩阵；将所述输出矩阵输入预设的分段长短期记忆网络，得到多个预测序列；采用条件随机场算法从所述预测序列中选取最优序列，根据所述最优序列获取识别出的实体。2.根据权利要求1所述的方法，其特征在于，所述预设神经网络的嵌入层包括word2vec工具、分词器和Bichar特征。3.根据权利要求2所述的方法，其特征在于，所述将所述待识别语句输入预设神经网络的嵌入层，输出所述待识别语句的输出字向量的步骤，包括：采用word2vec工具获取所述待识别语句的word2vec字向量；采用所述分词器对所述待识别语句进行分词得到分词向量；根据所述Bichar特征获取所述待识别语句的Bichar向量；将所述word2vec字向量、所述分词向量和所述Bichar向量组合得到所述输出字向量。4.根据权利要求3所述的方法，其特征在于，所述word2vec工具包括固定的word2vec和微调的word2vec。5.根据权利要求4所述的方法，其特征在于，所述采用word2vec工具获取所述待识别语句的word2vec字向量的步骤，包括：采用固定的word2vec获取所述待识别语句的第一字向量；采用微调的word2vec获取所述待识别语句的第二字向量；将所述第一字向量和所述第二字向量利用加权平均的方法结合得到所述word2vec字向量。6.根...

【专利技术属性】
技术研发人员：傅湘玲，刘少辉，吴及，周学思，
申请(专利权)人：北京邮电大学，清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人