一种识别实体的方法、装置及电子设备制造方法及图纸

技术编号:35453169 阅读:29 留言:0更新日期:2022-11-03 12:08
本申请公开了一种识别实体的方法、装置及电子设备,用以提升在文本中识别实体及实体含义的准确率。该方法包括:通过实体识别模型确定指示待识别文本的待识别向量;其中,所述实体识别模型包括所述待识别词组与所述待识别元素之间的对应关系,所述待识别词组中目标词组与实体之间的对应关系,以及实体与实体含义之间的对应关系;在所述待识别向量中,基于任一待识别元素与其它待识别元素之间的关系,在所述待识别元素中确定目标元素和所述目标元素所对应的目标含义;其中,所述目标元素为对应于所述目标词组的待识别元素;确定所述目标元素指示的所述目标词组为实体,及所述目标含义为实体含义。义为实体含义。义为实体含义。

【技术实现步骤摘要】
一种识别实体的方法、装置及电子设备


[0001]本申请涉及人工智能
,尤其涉及一种识别实体的方法、装置及电子设备。

技术介绍

[0002]知识图谱作为一种语义网络,以数据结构图的形式描述实体与实体之间的关系。其中,实体可以是人、地方、组织、机构等等,关系可以是人与人之间的关系,人与组织的关系,组织与机构的关系等等。为构建如前所述的知识图谱,强化语义网络,需要在文本中进行实体抽取,并确定、建立实体与实体之间的关系。其中,实体抽取又称作命名实体识别(Named Entity Recognition,NER),指识别文本中具有特定意义的实体,并标记出实体的位置和类别,进而抽取该实体的技术。
[0003]因此,在构建或补充知识图谱过程中,不论是实体抽取阶段,还是建立实体间关系阶段,都需要正确识别实体,并确定实体含义。目前,知识图谱的表达能力仍然较为简单,原因之一在于不能准确识别实体及实体含义,尤其是具有多重含义的实体,这导致实体识别错误率高,进而导致实体抽取准确率低的问题。

技术实现思路

[0004]本申请提供了一种识别实体的方法、装置及电子设备,用以提升在文本中识别实体及实体含义的准确率。
[0005]第一方面,本申请提供一种识别实体的方法,包括:
[0006]通过实体识别模型确定指示所述待识别文本的待识别向量;其中,所述待识别向量包括待识别元素,所述待识别元素对应于所述待识别文本中的待识别词组;所述实体识别模型包括所述待识别词组与所述待识别元素之间的对应关系,所述待识别词组中目标词组与实体之间的对应关系,以及所述实体与实体含义之间的对应关系;
[0007]在所述待识别向量中,基于任一待识别元素与其它待识别元素之间的关系,在所述待识别元素中确定目标元素和所述目标元素所对应的目标含义;其中,所述目标元素为对应于所述目标词组的待识别元素,所述目标含义指示所述目标词组在所述待识别文本中的含义;
[0008]确定所述目标元素指示的所述目标词组为实体,及所述目标含义为实体含义。
[0009]上述申请实施例中通过将待识别文本转化为包括待识别元素的待识别向量,该待识别元素对应于待识别文本的待识别词组,进而基于任一待识别元素与其它待识别元素的关系,在待识别向量中确定指示目标词组的待识别元素为目标元素,并确定该目标元素的目标含义为实体含义,即首先通过将待识别文本中的词组准确地划分,继而基于词组上下文语境,确定待识别文本中指示实体词组的目标词组,从而提升识别实体及实体含义的准确性。
[0010]一种可能的实施方式,所述实体识别模型包括BERT模型,
[0011]则所述通过实体识别模型确定指示待识别文本的待识别向量,包括:
[0012]通过所述BERT模型,针对所述待识别文本进行划分,确定所述待识别文本中的词组,以及对应于所述词组的词组向量和词性向量;其中,所述词组向量包括,指示所述词组的词组元素;所述词组元素的顺序与所述词组在所述待识别文本中的顺序一致;所述词性向量包括,指示所述词组词性的词性元素;所述词性元素的顺序与所述词组元素的顺序一致;
[0013]将所述词组向量和所述词性向量拼接,得到待识别向量;其中,所述待识别向量中的待识别元素指示,所述词组元素和对应于所述词组元素的所述词性元素。
[0014]一种可能的实施方式,所述在所述待识别向量中,基于任一待识别元素与其它所述待识别元素之间的关系,在所述待识别元素中确定目标元素和所述目标元素所对应的目标含义,包括:
[0015]基于所述其它待识别元素所指示的词组元素和词性元素,以及所述其它待识别元素与所述任一待识别元素之间的位置关系,在所述待识别元素中确定所述目标元素,以及所述目标元素的候选含义;
[0016]将所述候选含义的数量以及所述待识别元素的数量导入分类器函数,确定每一所述候选含义的候选概率;
[0017]确定所述候选概率的值最大的所述候选含义为所述目标含义。
[0018]一种可能的实施方式,所述实体识别模型包括BiLSTM模型,
[0019]则所述基于所述其它待识别元素所指示的词组元素和词性元素,以及所述其它待识别元素与所述任一待识别元素之间的位置关系,在所述待识别元素中确定所述目标元素,以及所述目标元素的候选含义,包括:
[0020]将所述待识别向量正向输入所述BiLSTM模型中的前向LSTM模型,得到第一中间向量;
[0021]将所述待识别向量反向输入所述BiLSTM模型中的后向LSTM模型,得到第二中间向量;
[0022]将所述第一中间向量和第二中间向量融合,得到第三中间向量;
[0023]在第三中间向量中,基于任一中间元素的前向参考元素和后向参考元素,确定对应于所述目标元素的中间目标元素,以及所述中间目标元素的候选含义;其中,所述前向参考元素为,在所述第三中间向量中位于所述任一中间元素之前影响所述任一中间元素含义的元素;所述后向参考元素为,在所述第三中间向量中位于所述任一中间元素之后影响所述任一中间元素含义的元素。
[0024]一种可能的实施方式,所述实体识别模型通过如下方式训练得到:
[0025]基于分词模型处理测试文本,得到与所述测试文本对应的训练文本;其中,所述测试文本包括至少一个对应于所述实体的实体词组,所述分词模型包括词义语料库,所述训练文本包括所述测试文本中的预设词组、所述预设词组的预设词性、以及所述预设词组中对应于所述实体词组的预设实体含义;
[0026]将所述训练文本输入所述待训练模型,得到训练词组向量、训练词性向量,训练向量、训练实体元素的含义;其中,所述训练词组向量包括对应于所述训练文本中训练词组的训练词组元素,所述训练词性向量包括,指示所述训练词组词性的训练词性元素;所述训练向量包括,指示所述训练词组元素和所述训练词性元素的训练元素;所述训练实体元素的
含义指示基于所述待训练模型中的语料库所确定的训练实体元素的含义,所述训练实体元素指示所述实体词组;
[0027]确定所述训练词组向量与对应于所述预设词组的预设词组向量之间的第一误差,所述训练词性向量与对应于所述预设词性的预设词性向量之间的第二误差,所述训练向量与预设向量之间的第三误差,所述训练实体元素的含义与所述预设实体含义之间的第四误差;
[0028]基于所述第一误差,所述第二误差,所述第三误差,和所述第四误差,调整所述待训练模型的参数,直到所述第一误差、第二误差、第三误差、和第四误差均低于误差阈值,得到所述实体识别模型。
[0029]第二方面,本申请提供一种识别实体的装置,包括:
[0030]向量单元:用于通过实体识别模型确定指示待识别文本的待识别向量;其中,所述待识别向量包括待识别元素,所述待识别元素对应于所述待识别文本中的待识别词组;所述实体识别模型包括所述待识别词组与所述待识别元素之间的对应关系,所述待识别词组中目标词组与实体之间的对应关系,以及所述实体与实体含义之间的对应关系;...

【技术保护点】

【技术特征摘要】
1.一种识别实体的方法,其特征在于,包括:通过实体识别模型确定指示待识别文本的待识别向量;其中,所述待识别向量包括待识别元素,所述待识别元素对应于所述待识别文本中的待识别词组;所述实体识别模型包括所述待识别词组与所述待识别元素之间的对应关系,所述待识别词组中目标词组与实体之间的对应关系,以及所述实体与实体含义之间的对应关系;在所述待识别向量中,基于任一待识别元素与其它待识别元素之间的关系,在所述待识别元素中确定目标元素和所述目标元素所对应的目标含义;其中,所述目标元素为对应于所述目标词组的待识别元素,所述目标含义指示所述目标词组在所述待识别文本中的含义;确定所述目标元素指示的所述目标词组为实体,及所述目标含义为实体含义。2.如权利要求1所述的方法,其特征在于,所述实体识别模型包括BERT模型,则所述通过实体识别模型确定指示待识别文本的待识别向量,包括:通过所述BERT模型,针对所述待识别文本进行划分,确定所述待识别文本中的词组,以及对应于所述词组的词组向量和词性向量;其中,所述词组向量包括,指示所述词组的词组元素;所述词组元素的顺序与所述词组在所述待识别文本中的顺序一致;所述词性向量包括,指示所述词组词性的词性元素;所述词性元素的顺序与所述词组元素的顺序一致;将所述词组向量和所述词性向量拼接,得到待识别向量;其中,所述待识别向量中的待识别元素指示,所述词组元素和对应于所述词组元素的所述词性元素。3.如权利要求2所述的方法,其特征在于,所述在所述待识别向量中,基于任一待识别元素与其它所述待识别元素之间的关系,在所述待识别元素中确定目标元素和所述目标元素所对应的目标含义,包括:基于所述其它待识别元素所指示的词组元素和词性元素,以及所述其它待识别元素与所述任一待识别元素之间的位置关系,在所述待识别元素中确定所述目标元素,以及所述目标元素的候选含义;将所述候选含义的数量以及所述待识别元素的数量导入分类器函数,确定每一所述候选含义的候选概率;确定所述候选概率的值最大的所述候选含义为所述目标含义。4.如权利要求3所述的方法,其特征在于,所述实体识别模型包括BiLSTM模型,则所述基于所述其它待识别元素所指示的词组元素和词性元素,以及所述其它待识别元素与所述任一待识别元素之间的位置关系,在所述待识别元素中确定所述目标元素,以及所述目标元素的候选含义,包括:将所述待识别向量正向输入所述BiLSTM模型中的前向LSTM模型,得到第一中间向量;将所述待识别向量反向输入所述BiLSTM模型中的后向LSTM模型,得到第二中间向量;将所述第一中间向量和第二中间向量融合,得到第三中间向量;在第三中间向量中,基于任一中间元素的前向参考元素和后向参考元素,确定对应于所述目标元素的中间目标元素,以及所述中间目标元素的候选含义;其中,所述前向参考元素为,在所述第三中间向量中位于所述任一中间元素之前影响所述任一中间元素含义的元素;所述后向参考元素为,在所述第三中间向量中位于所述任一中间元素之后影响所述任一中间元素含义的元素。
5.如权利要求1

4任一项所述的方法,其特征在于,所述实体识别模型通过如下方式训练得到:基于分词模型处理测试文本,得到与所述测试文本对应的训练文本;其中,所述测试文本包括至少一个对应于所述实体的实体词组,所述分词模型包括词义语料库,所述训练文本包括所述测试文本中的预设词组、所述预设词组的预设词性、...

【专利技术属性】
技术研发人员:操涛涛刘伟棠陈立力
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1