【技术实现步骤摘要】
一种识别实体的方法、装置及电子设备
[0001]本申请涉及人工智能
,尤其涉及一种识别实体的方法、装置及电子设备。
技术介绍
[0002]知识图谱作为一种语义网络,以数据结构图的形式描述实体与实体之间的关系。其中,实体可以是人、地方、组织、机构等等,关系可以是人与人之间的关系,人与组织的关系,组织与机构的关系等等。为构建如前所述的知识图谱,强化语义网络,需要在文本中进行实体抽取,并确定、建立实体与实体之间的关系。其中,实体抽取又称作命名实体识别(Named Entity Recognition,NER),指识别文本中具有特定意义的实体,并标记出实体的位置和类别,进而抽取该实体的技术。
[0003]因此,在构建或补充知识图谱过程中,不论是实体抽取阶段,还是建立实体间关系阶段,都需要正确识别实体,并确定实体含义。目前,知识图谱的表达能力仍然较为简单,原因之一在于不能准确识别实体及实体含义,尤其是具有多重含义的实体,这导致实体识别错误率高,进而导致实体抽取准确率低的问题。
技术实现思路
[0004]本申请提供了一种识别实体的方法、装置及电子设备,用以提升在文本中识别实体及实体含义的准确率。
[0005]第一方面,本申请提供一种识别实体的方法,包括:
[0006]通过实体识别模型确定指示所述待识别文本的待识别向量;其中,所述待识别向量包括待识别元素,所述待识别元素对应于所述待识别文本中的待识别词组;所述实体识别模型包括所述待识别词组与所述待识别元素之间的对应关系,所述待识别词组中
【技术保护点】
【技术特征摘要】
1.一种识别实体的方法,其特征在于,包括:通过实体识别模型确定指示待识别文本的待识别向量;其中,所述待识别向量包括待识别元素,所述待识别元素对应于所述待识别文本中的待识别词组;所述实体识别模型包括所述待识别词组与所述待识别元素之间的对应关系,所述待识别词组中目标词组与实体之间的对应关系,以及所述实体与实体含义之间的对应关系;在所述待识别向量中,基于任一待识别元素与其它待识别元素之间的关系,在所述待识别元素中确定目标元素和所述目标元素所对应的目标含义;其中,所述目标元素为对应于所述目标词组的待识别元素,所述目标含义指示所述目标词组在所述待识别文本中的含义;确定所述目标元素指示的所述目标词组为实体,及所述目标含义为实体含义。2.如权利要求1所述的方法,其特征在于,所述实体识别模型包括BERT模型,则所述通过实体识别模型确定指示待识别文本的待识别向量,包括:通过所述BERT模型,针对所述待识别文本进行划分,确定所述待识别文本中的词组,以及对应于所述词组的词组向量和词性向量;其中,所述词组向量包括,指示所述词组的词组元素;所述词组元素的顺序与所述词组在所述待识别文本中的顺序一致;所述词性向量包括,指示所述词组词性的词性元素;所述词性元素的顺序与所述词组元素的顺序一致;将所述词组向量和所述词性向量拼接,得到待识别向量;其中,所述待识别向量中的待识别元素指示,所述词组元素和对应于所述词组元素的所述词性元素。3.如权利要求2所述的方法,其特征在于,所述在所述待识别向量中,基于任一待识别元素与其它所述待识别元素之间的关系,在所述待识别元素中确定目标元素和所述目标元素所对应的目标含义,包括:基于所述其它待识别元素所指示的词组元素和词性元素,以及所述其它待识别元素与所述任一待识别元素之间的位置关系,在所述待识别元素中确定所述目标元素,以及所述目标元素的候选含义;将所述候选含义的数量以及所述待识别元素的数量导入分类器函数,确定每一所述候选含义的候选概率;确定所述候选概率的值最大的所述候选含义为所述目标含义。4.如权利要求3所述的方法,其特征在于,所述实体识别模型包括BiLSTM模型,则所述基于所述其它待识别元素所指示的词组元素和词性元素,以及所述其它待识别元素与所述任一待识别元素之间的位置关系,在所述待识别元素中确定所述目标元素,以及所述目标元素的候选含义,包括:将所述待识别向量正向输入所述BiLSTM模型中的前向LSTM模型,得到第一中间向量;将所述待识别向量反向输入所述BiLSTM模型中的后向LSTM模型,得到第二中间向量;将所述第一中间向量和第二中间向量融合,得到第三中间向量;在第三中间向量中,基于任一中间元素的前向参考元素和后向参考元素,确定对应于所述目标元素的中间目标元素,以及所述中间目标元素的候选含义;其中,所述前向参考元素为,在所述第三中间向量中位于所述任一中间元素之前影响所述任一中间元素含义的元素;所述后向参考元素为,在所述第三中间向量中位于所述任一中间元素之后影响所述任一中间元素含义的元素。
5.如权利要求1
‑
4任一项所述的方法,其特征在于,所述实体识别模型通过如下方式训练得到:基于分词模型处理测试文本,得到与所述测试文本对应的训练文本;其中,所述测试文本包括至少一个对应于所述实体的实体词组,所述分词模型包括词义语料库,所述训练文本包括所述测试文本中的预设词组、所述预设词组的预设词性、...
【专利技术属性】
技术研发人员:操涛涛,刘伟棠,陈立力,
申请(专利权)人:浙江大华技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。