一种命名实体提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24170280 阅读:27 留言:0更新日期:2020-05-16 02:43
本发明专利技术公开了一种命名实体提取方法、装置、电子设备及存储介质,由于在本发明专利技术实施例中,首先基于预先训练完成的命名实体提取模型,根据第一文本序列中每个第一目标文字的第一语义表示向量,提取第一文本序列中每个第一目标文字的开始边界标签,然后将预测开始边界标签时每个第一目标文字的每个第一标签概率与每个第一目标文字的第一语义表示向量进行拼接,得到第二语义表示向量,根据第二语义表示向量中每个第一目标文字的每个第一标签概率,可以确定每个实体开始边界的位置,考虑到每个实体开始边界的位置得出每个第一目标文字的结束边界标签,可以使得同一实体的结束边界位置在开始边界位置之后,从而提高了命名实体提取的准确性。

【技术实现步骤摘要】
一种命名实体提取方法、装置、电子设备及存储介质
本专利技术涉及自然语言处理
,尤其涉及一种命名实体提取方法、装置、电子设备及存储介质。
技术介绍
命名实体提取作为信息提取的基石,是研究如何从文本中抽取出人名、地名、机构名等特定的实体并将其以结构化的形式呈现出来,对于问答、检索、知识图谱等技术的发展具有重要的意义。目前命名实体提取的技术方案一般包括:1、使用BiLSTM+CRF模型将命名实体提取任务作为序列标记任务。该方法存在的问题是,无法提取嵌套实体,所谓嵌套实体是指一个实体中包含另一个实体,例如“浙江大学”为一个组织机构实体,但是其中又包含一个位置实体“浙江”。2、结合使用激活学习和深度学习,采用sequencetosequence模式解决命名实体提取问题,分别使用CNN和LSTM作为编码器和解码器,并引入激活学习,从而实现在小数据集下模型能够取得良好的效果。该方法仍然存在无法提取嵌套实体的问题。3、采用BERT+BiLSTM+CRF模型识别实体边界信息,通过边界组合产生候选实体集,最后使用CNN模型对候选实体集本文档来自技高网...

【技术保护点】
1.一种命名实体提取方法,其特征在于,所述方法包括:/n将待提取的第一文本序列输入预先训练完成的命名实体提取模型;基于所述命名实体提取模型进行命名实体提取;/n其中,确定所述第一文本序列中每个第一目标文字的第一语义表示向量;/n根据每个第一语义表示向量确定所述每个第一目标文字的每个第一标签概率;根据所述每个第一目标文字的每个第一标签概率,确定所述每个第一目标文字的开始边界标签;/n将所述每个第一目标文字的第一语义表示向量与对应的每个第一标签概率进行拼接得到第二语义表示向量;根据每个第二语义表示向量确定所述每个第一目标文字的每个第二标签概率;根据所述每个第一目标文字的每个第二标签概率,确定所述每...

【技术特征摘要】
1.一种命名实体提取方法,其特征在于,所述方法包括:
将待提取的第一文本序列输入预先训练完成的命名实体提取模型;基于所述命名实体提取模型进行命名实体提取;
其中,确定所述第一文本序列中每个第一目标文字的第一语义表示向量;
根据每个第一语义表示向量确定所述每个第一目标文字的每个第一标签概率;根据所述每个第一目标文字的每个第一标签概率,确定所述每个第一目标文字的开始边界标签;
将所述每个第一目标文字的第一语义表示向量与对应的每个第一标签概率进行拼接得到第二语义表示向量;根据每个第二语义表示向量确定所述每个第一目标文字的每个第二标签概率;根据所述每个第一目标文字的每个第二标签概率,确定所述每个第一目标文字的结束边界标签;
根据所述每个第一目标文字的开始边界标签和结束边界标签,提取所述第一文本序列中的实体。


2.如权利要求1所述的方法,其特征在于,所述确定所述第一文本序列中每个第一目标文字的第一语义表示向量包括:
根据预先保存的每个文字与向量的对应关系,确定所述第一文本序列中每个第一目标文字的初始向量;
将所述每个第一目标文字的初始向量输入预先训练完成的语义表示子模型,得到所述每个第一目标文字的第一语义表示向量。


3.如权利要求1所述的方法,其特征在于,所述根据每个第一语义表示向量确定所述每个第一目标文字的每个第一标签概率包括:
根据所述每个第一语义表示向量与预先确定的第一向量的乘积,确定所述每个第一目标文字的第二向量;将所述每个第一目标文字的第二向量输入预先训练完成的开始边界检测子模型得到所述每个第一目标文字的每个第一标签概率。


4.如权利要求1所述的方法,其特征在于,所述根据所述每个第一目标文字的每个第一标签概率,确定所述每个第一目标文字的开始边界标签包括:
针对所述每个第一目标文字,将该第一目标文字的第一标签概率大于预设的第一阈值的标签作为该第一目标文字的开始边界标签。


5.如权利要求3所述的方法,其特征在于,所述根据每个第二语义表示向量确定所述每个第一目标文字的每个第二标签概率包括:
根据所述每个第二语义表示向量与预先确定的第三向量的乘积,确定所述每个第一目标文字的第四向量;将所述每个第一目标文字的第四向量输入预先训练完成的结束边界检测子模型得到所述每个第一目标文字的每个第二标签概率。


6.如权利要求1所述的方法,其特征在于,所述根据所述每个第一目标文字的每个第二标签概率,确定所述每个第一目标文字的结束边界标签包括:
针对所述每个第一目标文字,将该第一目标文字的第二标签概率大于预设的第二阈值的标签作为该第一目标文字的结束边界标签。


7.如权利要求1所述的方法,其特征在于,所述根据所述每个第一目标文字的开始边界标签和结束边界标签,提取所述第一文本序列中的实体包括:
依次以所述开始边界标签中的每一个标签为第一基准标签,确定所述第一基准标签对应的第一目标文字,在所述结束边界标签中由该第一目标文字起向后查找第一个与所述第一基准标签相同的第二基准标签,将所述第一基准标签和第二基准标签之间的第一目标文字确定为一个实体,该实体的标签类型为所述第一基准标签所代表的类型。


8.如权利要求5所述的方法,其特征在于,所述开始边界检测子模型的训练过程包括:
针对训练集中的每个第二文本序列,确定该第二文本序列中的每个第二目标文字的第三语义表示向量,根据所述每个第二目标文字的第三语义表示向量与预先确定的第一向量的乘积,确定所述每个第二目标文字的第五向量;将所述每个第二目标文字的第五向量和所述每个第二目标文字的标签输入开始边界检测子模型,对所述开始边界检测子模型进行训练。


9.如权利要求8所述的方法,其特征在于,所述结束边界检测子模型的训练过程包括:
针对训练集中的每个第二文本序列,确定该第二文本序列中的每个第二目标文字的第三语义表示向量,根据所述每个第二目标文字的第三语义表示向量和预先训练完成的开始边界检测模型得到所述每个第二目标文字的每个第三标签概率;将所述每个第二目标文字的第三语义表示向量与对应的每个第三标签概率进行拼接得到第四语义表示向量;根据所述每个第二目标文字的第四语义表示向量与预先确定的第三向量的乘积,确定所述每个第二目标文字的第六向量;将所述每个第二目标文字的第六向量和所述每个第二目标文字的标签输入结束边界检测子模型,对所述结束边界检测子模型进行训练。


10.一种命名实体提取装置,其特征在于,所述装置包括:
输入模块...

【专利技术属性】
技术研发人员:刘伟棠李保敏何林强
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1