实体识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26479188 阅读:22 留言:0更新日期:2020-11-25 19:23
本发明专利技术公开了一种实体识别方法、装置、电子设备和存储介质,涉及自然语言处理领域,该方法解决实体识别需要大规模的标注语料样本的问题,包括:将待标注文本基于BERT模型学习以得到文本向量;利用已标注文本对各个神经网络模型进行初步训练,将各未标注文本分别基于模型集中其他N‑1个初步训练过的神经网络模型得到各未标注文本的N‑1组实体标签序列,基于各未标注文本和各未标注文本的N‑1组实体标签序列训练每个初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi;将文本向量分别基于多个协同训练好的神经网络模型和CRF模型计算得到多个候选标注序列;基于投票规则选择一组候选标注序列作为待标注文本的标注结果。

【技术实现步骤摘要】
实体识别方法、装置、电子设备及存储介质
本专利技术涉及自然语言处理领域,尤其涉及一种实体识别方法、装置、电子设备及存储介质。
技术介绍
命名实体识别(NamedEntityRecognition,简称NER)是自然语言处理领域应用最为广泛且最具实用性的关键技术之一,是知识图谱、机器翻译、问答系统等领域的基础,它的目的是识别出文本中有特定意义或者指代性强的实体并对它们分类,这些实体的类型主要包括人名、机构名、地点以及其他一些专有名词。实体识别模型的训练方法一般分为有监督和无监督两种类型,其中无监督以CRF、HMM为常用模型,有监督则以神经网络模型为主要代表。无监督模型存在特征选择繁琐、可移植性差等缺点,而有监督模型最直观的缺点就是需要大量的标注语料,这往往需要消耗大量的人力去进行数据的标注,并且数据的标注质量会大大影响模型的识别准确率。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供一种实体识别方法,其基于初步训练过的神经网络模型获得未标注语料集中各未标注文本的实体标签序列,并根据各未标注文本的实体标签序列再次训练初步训练过的神经网络模型得到协同训练好的神经网络模型,待标注文本的文本向量通过协同训练好的神经网络模型和CRF模型计算得到多个候选标注序列,并最终从多个候选标注序列中基于投票规则得到待标注文本的标注结果,可以减少对未标注语料集的人工标注成本,提高未标注语料集的标注质量,解决实体识别需要大规模的标注语料样本的问题。本专利技术的目的之一采用以下技术方案实现:将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量,并由各所述单字的词向量组成文本向量;获取包括N个初步训练过的神经网络模型的模型集和包括多个未标注文本的未标注语料集,并将N个初步训练过的神经网络模型分别记为mi,i=1,...,N,N>2;对每个所述初步训练过的神经网络模型mi,将各所述未标注文本分别基于所述模型集中其他的N-1个初步训练过的神经网络模型进行识别得到各所述未标注文本的N-1组实体标签序列,基于各所述未标注文本和各所述未标注文本的N-1组实体标签序列,训练所述初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi,其中,所述实体标签表示所述未标注文本中单字所属的实体类型;将所述文本向量分别基于N个所述协同训练好的神经网络模型进行识别得到N组标注标签序列,并将N组所述标注标签序列分别基于N个训练好的CRF模型计算得到N组候选标注序列;基于预设的投票规则从N组所述候选标注序列中选择一组候选标注序列作为所述待标注文本的标注结果。进一步地,将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量之前,还包括:获取待标注语料;对所述待标注语料进行分句得到多个包括两个句子的待标注句子对;剔除各所述待标注句子对中的无效字符分别得到各所述待标注文本。进一步地,所述待标注文本包括两个句子,将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量,并由各所述单字的词向量构成文本向量,包括:在所述待标注文本的句首、句末和所述待标注文本中的两个句子之间分别放置句首标签、句末标签和分割标签得到中间文本;对所述中间文本进行字符级切分得到多个单字,按照预设遮盖概率从多个单字中随机选取若干个单字,并对选取的单字进行遮盖处理得到学习文本;将所述学习文本输入所述BERT模型进行学习得到所述学习文本中各单字的词向量;将各单字的词向量进行拼接得到所述文本向量。进一步地,将所述学习文本输入所述BERT模型进行学习得到所述学习文本中各单字的词向量,其中,所述BERT模型包括嵌入层和双向Transformer编码器,包括:将所述学习文本输入所述嵌入层计算得到所述学习文本中各单字的词嵌入、位置嵌入和句子类别嵌入,并由各所述单字的词嵌入、位置嵌入和句子类别嵌入组成各所述单字的嵌入向量;将各所述单字的嵌入向量输入所述双向Transformer编码器计算得到各所述单字的词向量。进一步地,基于各所述未标注文本和各所述未标注文本的N-1组实体标签序列训练所述初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi,包括:从每个所述未标注文本的N-1组实体标签序列中选择一组实体标签序列作为每个所述未标注文本的样本标签;根据各所述未标注文本和各所述未标注文本的样本标签训练所述初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi。进一步地,从每个所述未标注文本的N-1组实体标签序列中选择一组实体标签序列作为每个所述未标注文本的样本标签,包括:若N-1组实体标签序列中各组实体标签序列的值相同,则从N-1组所述实体标签序列中任选一组实体标签序列作为所述样本标签。进一步地,根据各所述未标注文本和各所述未标注文本的样本标签训练所述初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi,包括:由各所述未标注文本与各所述未标注文本的样本标签分别组成各训练样本,并将各所述训练样本加入标注语料样本集Fi中得到新的标注语料样本集Fi’,其中,所述标注语料样本集Fi为所述初步训练过的神经网络模型mi在初步训练时使用的样本集;根据所述新的标注语料样本集Fi’再次训练所述初步训练过的神经网络模型mi得到所述协同训练好的神经网络模型Mi。本专利技术的目的之二在于提供一种实体识别装置,其基于初步训练过的神经网络模型获得未标注语料集中各未标注文本的实体标签序列,并根据各未标注文本的实体标签序列再次训练初步训练过的神经网络模型得到协同训练好的神经网络模型,待标注文本的文本向量通过协同训练好的神经网络模型和CRF模型计算得到多个候选标注序列,并最终从多个候选标注序列中基于投票规则得到待标注文本的标注结果,可以减少对未标注语料集的人工标注成本,提高未标注语料集的标注质量,解决实体识别需要大规模的标注语料样本的问题。本专利技术的目的之二采用以下技术方案实现:一种实体识别装置,其包括:文本向量计算模块,用于将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量,并由各所述单字的词向量组成文本向量;模型集和未标注语料集获取模块,用于获取包括N个初步训练过的神经网络模型的模型集和包括多个未标注文本的未标注语料集,并将N个初步训练过的神经网络模型分别记为mi,i=1,...,N,N>2;协同训练模块,用于对每个所述初步训练过的神经网络模型mi,将各所述未标注文本分别基于所述模型集中其他的N-1个初步训练过的神经网络模型进行识别得到各所述未标注文本的N-1组实体标签序列,基于各所述未标注文本和各所述未标注文本的N-1组实体标签序列,训练所述初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi,其中,所述实体标签表示所述未标注文本中单字所属的实体类型;标注结果确定模块,用于将所述文本向量分别基于本文档来自技高网...

【技术保护点】
1.一种实体识别方法,其特征在于:包括以下步骤:/n将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量,并由各所述单字的词向量组成文本向量;/n获取包括N个初步训练过的神经网络模型的模型集和包括多个未标注文本的未标注语料集,并将N个初步训练过的神经网络模型分别记为mi,i=1,...,N,N>2;/n对每个所述初步训练过的神经网络模型mi,将各所述未标注文本分别基于所述模型集中其他的N-1个初步训练过的神经网络模型进行识别得到各所述未标注文本的N-1组实体标签序列,基于各所述未标注文本和各所述未标注文本的N-1组实体标签序列,训练所述初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi,其中,所述实体标签表示所述未标注文本中单字所属的实体类型;/n将所述文本向量分别基于N个所述协同训练好的神经网络模型进行识别得到N组标注标签序列,并将N组所述标注标签序列分别基于N个训练好的CRF模型计算得到N组候选标注序列;/n基于预设的投票规则从N组所述候选标注序列中选择一组候选标注序列作为所述待标注文本的标注结果。/n

【技术特征摘要】
1.一种实体识别方法,其特征在于:包括以下步骤:
将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量,并由各所述单字的词向量组成文本向量;
获取包括N个初步训练过的神经网络模型的模型集和包括多个未标注文本的未标注语料集,并将N个初步训练过的神经网络模型分别记为mi,i=1,...,N,N>2;
对每个所述初步训练过的神经网络模型mi,将各所述未标注文本分别基于所述模型集中其他的N-1个初步训练过的神经网络模型进行识别得到各所述未标注文本的N-1组实体标签序列,基于各所述未标注文本和各所述未标注文本的N-1组实体标签序列,训练所述初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi,其中,所述实体标签表示所述未标注文本中单字所属的实体类型;
将所述文本向量分别基于N个所述协同训练好的神经网络模型进行识别得到N组标注标签序列,并将N组所述标注标签序列分别基于N个训练好的CRF模型计算得到N组候选标注序列;
基于预设的投票规则从N组所述候选标注序列中选择一组候选标注序列作为所述待标注文本的标注结果。


2.如权利要求1所述的一种实体识别方法,其特征在于:将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量之前,还包括:
获取待标注语料;
对所述待标注语料进行分句得到多个包括两个句子的待标注句子对;
剔除各所述待标注句子对中的无效字符分别得到各所述待标注文本。


3.如权利要求1所述的一种实体识别方法,其特征在于:所述待标注文本包括两个句子,将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量,并由各所述单字的词向量构成文本向量,包括:
在所述待标注文本的句首、句末和所述待标注文本中的两个句子之间分别放置句首标签、句末标签和分割标签得到中间文本;
对所述中间文本进行字符级切分得到多个单字,按照预设遮盖概率从多个单字中随机选取若干个单字,并对选取的单字进行遮盖处理得到学习文本;
将所述学习文本输入所述BERT模型进行学习得到所述学习文本中各单字的词向量;
将各单字的词向量进行拼接得到所述文本向量。


4.如权利要求3所述的一种实体识别方法,其特征在于:将所述学习文本输入所述BERT模型进行学习得到所述学习文本中各单字的词向量,其中,所述BERT模型包括嵌入层和双向Transformer编码器,包括:
将所述学习文本输入所述嵌入层计算得到所述学习文本中各单字的词嵌入、位置嵌入和句子类别嵌入,并由各所述单字的词嵌入、位置嵌入和句子类别嵌入组成各所述单字的嵌入向量;
将各所述单字的嵌入向量输入所述双向Transformer编码器计算得到各所述单字的词向量。


5.如权利要求1所述的一种实体识别方法,其特征在于:基于各所述未标注文本和各所述未标注文本的N-1组实体标签序列训练所述初步训练过的神经网络模型...

【专利技术属性】
技术研发人员:嵇望朱鹏飞王伟凯钱艳安毫亿梁青陈默
申请(专利权)人:杭州远传新业科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1