一种命名实体识别方法、系统、设备及存储介质技术方案

技术编号：34616555 阅读：14 留言：0更新日期：2022-08-20 09:23

本发明专利技术公开了一种命名实体识别方法、系统、设备及存储介质，步骤一，构建BERT预训练语言模型，将中文语句输出至BERT预训练语言模型中，输出具有语义特征表示的向量；步骤二，构建BiLSTM神经网络模型，将BERT预训练语言模型的输出结果作为BiLSTM神经网络模型的输入；步骤三，将BiLSTM神经网络模型的输出结果进行BIO联合标注，得到正确的标签，进行标注后得到该中文语句的命名实体识别结果。有效提高了命名实体识别任务中准确率。实体识别任务中准确率。实体识别任务中准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种命名实体识别方法、系统、设备及存储介质

[0001]本专利技术属于信息抽取领域，涉及一种命名实体识别方法、系统、设备及存储介质。

技术介绍

[0002]命名实体识别是自然语言处理中的一项基本研究任务，也是信息抽取的一个子任务，最早是在MUC－6会议上引入这一评测任务，作为信息抽取技术的子课题供广大学者讨论研究，旨在识别出自然语言文本中的专有名词和有意义的数量短语，并加以分类。
[0003]通用领域的命名实体识别已经得到了广泛研究，其识别方法可分为基于规则的方法和基于统计的方法两大类。基于规则的方法通过分析实体本身的词汇特征和短语的搭配习惯，人工构建规则集抽取预先定义的各种类别的实体，需要具备大量的专业知识，因此导致召回率低、可移植性差的问答。基于统计的方法是从给定的、己标注好的训练集出发，定义特征集合，并应用学习算法训练统计模型，完成命名实体识别。目前常用的统计模型包括支持向量机(SupportVectorMachine，SVM)、隐马尔可夫(HiddenMarkovModels，HMM)和条件随机场(ConditionalRandomFields，CRFS)等，但这些模型都需要人依靠逻辑直觉和训练语料中的统计信息手工设计出大量的特征，其识别性能很大程度上依赖于所设计特征的准确度。

技术实现思路

[0004]本专利技术的目的在于克服上述现有技术的缺点，提供一种命名实体识别方法、系统、设备及存储介质，有效提高了命名实体识别任务中准确率。
[0005]为达到上述目的，本专利技术采用以下...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别方法，其特征在于，包括以下步骤：步骤一，构建BERT预训练语言模型，将中文语句输出至BERT预训练语言模型中，输出具有语义特征表示的向量；步骤二，构建BiLSTM神经网络模型，将BERT预训练语言模型的输出结果作为BiLSTM神经网络模型的输入；步骤三，将BiLSTM神经网络模型的输出结果进行BIO联合标注，得到正确的标签，进行标注后得到该中文语句的命名实体识别结果。2.根据权利要求1所述的命名实体识别方法，其特征在于，步骤三中，对BiLSTM神经网络模型的输出结果进行BIO联合标注后，在标签的基础上，加入一层CRF约束，然后进行反向解码，得到最优路径，找到正确的标签。3.根据权利要求2所述的命名实体识别方法，其特征在于，使用维比特算法进行反向解码。4.根据权利要求1所述的命名实体识别方法，其特征在于，步骤一中，BERT预训练语言模型中中文语句的特征向量表示包括词嵌入向量和位置编码。5.根据权利要求1所述的命名实体识别方法，其特征在于，步骤一中，BERT预训练语言模型包括输入层、特征向量层、多头自注意力层、残差网络层、全连接层和输出层。6.根据权利要求1所述的命名实体识别方法，其特征在于，BiLSTM神经网络模型由四层组成，依次为输入层、前向LSTM层、反向LSTM层和输出层，通过前向LSTM层和反向LSTM层的输出进行连接表示作为BiLSTM神经网络模型的结果输出。7.根据权利要求6所述的命名实体识别方法，其特征在于，设t时...

【专利技术属性】
技术研发人员：王萌，叶娜，张翔，
申请(专利权)人：西安建筑科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人