实体识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：26479188 阅读：22 留言：0更新日期：2020-11-25 19:23

本发明专利技术公开了一种实体识别方法、装置、电子设备和存储介质，涉及自然语言处理领域，该方法解决实体识别需要大规模的标注语料样本的问题，包括：将待标注文本基于BERT模型学习以得到文本向量；利用已标注文本对各个神经网络模型进行初步训练，将各未标注文本分别基于模型集中其他N‑1个初步训练过的神经网络模型得到各未标注文本的N‑1组实体标签序列，基于各未标注文本和各未标注文本的N‑1组实体标签序列训练每个初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi；将文本向量分别基于多个协同训练好的神经网络模型和CRF模型计算得到多个候选标注序列；基于投票规则选择一组候选标注序列作为待标注文本的标注结果。

全部详细技术资料下载

【技术实现步骤摘要】
实体识别方法、装置、电子设备及存储介质
本专利技术涉及自然语言处理领域，尤其涉及一种实体识别方法、装置、电子设备及存储介质。
技术介绍
命名实体识别(NamedEntityRecognition，简称NER)是自然语言处理领域应用最为广泛且最具实用性的关键技术之一，是知识图谱、机器翻译、问答系统等领域的基础，它的目的是识别出文本中有特定意义或者指代性强的实体并对它们分类，这些实体的类型主要包括人名、机构名、地点以及其他一些专有名词。实体识别模型的训练方法一般分为有监督和无监督两种类型，其中无监督以CRF、HMM为常用模型，有监督则以神经网络模型为主要代表。无监督模型存在特征选择繁琐、可移植性差等缺点，而有监督模型最直观的缺点就是需要大量的标注语料，这往往需要消耗大量的人力去进行数据的标注，并且数据的标注质量会大大影响模型的识别准确率。
技术实现思路
为了克服现有技术的不足，本专利技术的目的之一在于提供一种实体识别方法，其基于初步训练过的神经网络模型获得未标注语料集中各未标注文本的实体标签序列，并根据各未标注文本的实体标签序列再次训练初步训练过的神经网络模型得到协同训练好的神经网络模型，待标注文本的文本向量通过协同训练好的神经网络模型和CRF模型计算得到多个候选标注序列，并最终从多个候选标注序列中基于投票规则得到待标注文本的标注结果，可以减少对未标注语料集的人工标注成本，提高未标注语料集的标注质量，解决实体识别需要大规模的标注语料样本的问题。本专利技术的目的之一采用以下技术方案实现：...

【技术保护点】
1.一种实体识别方法，其特征在于：包括以下步骤：/n将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量，并由各所述单字的词向量组成文本向量；/n获取包括N个初步训练过的神经网络模型的模型集和包括多个未标注文本的未标注语料集，并将N个初步训练过的神经网络模型分别记为mi，i＝1，...，N，N>2；/n对每个所述初步训练过的神经网络模型mi，将各所述未标注文本分别基于所述模型集中其他的N-1个初步训练过的神经网络模型进行识别得到各所述未标注文本的N-1组实体标签序列，基于各所述未标注文本和各所述未标注文本的N-1组实体标签序列，训练所述初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi，其中，所述实体标签表示所述未标注文本中单字所属的实体类型；/n将所述文本向量分别基于N个所述协同训练好的神经网络模型进行识别得到N组标注标签序列，并将N组所述标注标签序列分别基于N个训练好的CRF模型计算得到N组候选标注序列；/n基于预设的投票规则从N组所述候选标注序列中选择一组候选标注序列作为所述待标注文本的标注结果。/n

【技术特征摘要】
1.一种实体识别方法，其特征在于：包括以下步骤：
将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量，并由各所述单字的词向量组成文本向量；
获取包括N个初步训练过的神经网络模型的模型集和包括多个未标注文本的未标注语料集，并将N个初步训练过的神经网络模型分别记为mi，i＝1，...，N，N>2；
对每个所述初步训练过的神经网络模型mi，将各所述未标注文本分别基于所述模型集中其他的N-1个初步训练过的神经网络模型进行识别得到各所述未标注文本的N-1组实体标签序列，基于各所述未标注文本和各所述未标注文本的N-1组实体标签序列，训练所述初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi，其中，所述实体标签表示所述未标注文本中单字所属的实体类型；
将所述文本向量分别基于N个所述协同训练好的神经网络模型进行识别得到N组标注标签序列，并将N组所述标注标签序列分别基于N个训练好的CRF模型计算得到N组候选标注序列；
基于预设的投票规则从N组所述候选标注序列中选择一组候选标注序列作为所述待标注文本的标注结果。

2.如权利要求1所述的一种实体识别方法，其特征在于：将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量之前，还包括：
获取待标注语料；
对所述待标注语料进行分句得到多个包括两个句子的待标注句子对；
剔除各所述待标注句子对中的无效字符分别得到各所述待标注文本。

3.如权利要求1所述的一种实体识别方法，其特征在于：所述待标注文本包括两个句子，将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量，并由各所述单字的词向量构成文本向量，包括：
在所述待标注文本的句首、句末和所述待标注文本中的两个句子之间分别放置句首标签、句末标签和分割标签得到中间文本；
对所述中间文本进行字符级切分得到多个单字，按照预设遮盖概率从多个单字中随机选取若干个单字，并对选取的单字进行遮盖处理得到学习文本；
将所述学习文本输入所述BERT模型进行学习得到所述学习文本中各单字的词向量；
将各单字的词向量进行拼接得到所述文本向量。

4.如权利要求3所述的一种实体识别方法，其特征在于：将所述学习文本输入所述BERT模型进行学习得到所述学习文本中各单字的词向量，其中，所述BERT模型包括嵌入层和双向Transformer编码器，包括：
将所述学习文本输入所述嵌入层计算得到所述学习文本中各单字的词嵌入、位置嵌入和句子类别嵌入，并由各所述单字的词嵌入、位置嵌入和句子类别嵌入组成各所述单字的嵌入向量；
将各所述单字的嵌入向量输入所述双向Transformer编码器计算得到各所述单字的词向量。

5.如权利要求1所述的一种实体识别方法，其特征在于：基于各所述未标注文本和各所述未标注文本的N-1组实体标签序列训练所述初步训练过的神经网络模型...

【专利技术属性】
技术研发人员：嵇望，朱鹏飞，王伟凯，钱艳，安毫亿，梁青，陈默，
申请(专利权)人：杭州远传新业科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人