一种识别方法及装置制造方法及图纸

技术编号:35460550 阅读:26 留言:0更新日期:2022-11-03 12:27
本申请公开了一种识别方法及装置,方法包括:基于第一模型获得待识别数据的表示数据,所述表示数据具有词汇标签;基于所述词汇标签对所述表示数据进行聚团处理,得到聚团数据,所述聚团数据包括至少一个实体团;基于所述聚团数据生成数据团图像;基于所述数据团图像,确定所述实体团中第一对象的开始位置和结束位置。上述方案在从句子或文章中进行实体识别时,会对识别内容的基础表示数据进行聚团处理,得到满足一定条件的聚团词组,然后基于聚团词组生成数据团图像,由于数据团图像的结构表示特点,能够更准确的确定出其中包含的第一对象的边界数据,从而确定出准确的第一对象。从而确定出准确的第一对象。从而确定出准确的第一对象。

【技术实现步骤摘要】
一种识别方法及装置


[0001]本申请涉及数据处理技术,更具体的说,是涉及一种识别方法及装置。

技术介绍

[0002]命名实体识别是信息抽取领域的一个基础任务,在问答、信息检索、指代消解和话题识别等任务中扮演着至关重要的角色,它从文本中识别出命名实体并将该实体标记为某一类别,如人名、地名、机构名、电影名等等。然而,当前的命名实体识别方案的识别效果并不理想。

技术实现思路

[0003]有鉴于此,本申请提供如下技术方案:
[0004]一种识别方法,包括:
[0005]基于第一模型获得待识别数据的表示数据,所述表示数据具有词汇标签;
[0006]基于所述词汇标签对所述表示数据进行聚团处理,得到聚团数据,所述聚团数据包括至少一个实体团;
[0007]基于所述聚团数据生成数据团图像;
[0008]基于所述数据团图像,确定所述实体团中第一对象的开始位置和结束位置。
[0009]可选地,所述聚团数据还包括非实体团,所述词汇标签表征词汇性质,所述基于所述词汇标签对所述表示数据进行聚团处理,得到聚团数据,包括:
[0010]基于所述词汇标签所表征的词汇性质对所述表示数据进行聚团处理,得到至少一个实体团和非实体团,其中所述实体团至少包括人名实体团、组织机构实体团、地名实体团和作品名称实体团中的一种。
[0011]可选地,所述基于所述数据团图像,确定所述实体团中第一对象的开始位置和结束位置,包括:
[0012]对所述数据团图像进行第一序列标注处理,确定实体团中第一对象的边界数据;
[0013]基于所述边界数据确定所述第一对象的开始位置和结束位置。
[0014]可选地,所述方法还包括:
[0015]对所述表示数据进行第二序列标注处理,基于处理结果确定所述表示数据中的接续数据;
[0016]基于所述边界数据确定所述第一对象的开始位置和结束位置,包括:
[0017]基于所述边界数据和所述接续数据确定所述第一对象的开始位置和结束位置。
[0018]可选地,所述对所述数据团图像进行第一序列标注处理,确定实体团中第一对象的边界数据,包括:
[0019]基于图神经网络对所述数据团图像进行序列标注,得到图结构的序列标注结果;
[0020]基于所述图结构的序列标注结果确定实体团中第一对象的边界数据。
[0021]可选地,所述对所述表示数据进行第二序列标注处理,基于处理结果确定所述第
一对象的接续数据,包括:
[0022]基于卷积神经网络对所述表示数据进行序列标注,得到接续标注结果;
[0023]基于所述接续标注结果确定所述第一对象的接续数据。
[0024]可选地,所述方法还包括:
[0025]对所述表示数据进行第三序列标注处理,得到标注结果,其中所述第三序列标注处理基于命名实体识别模型或条件随机场模型实现;
[0026]则所述基于所述边界数据和所述接续数据确定所述第一对象的开始位置和结束位置,包括:
[0027]基于所述边界数据、所述接续数据和所述标注结果确定所述第一对象的开始位置和结束位置。
[0028]可选地,所述基于所述边界数据、所述接续数据和所述标注结果确定所述第一对象的开始位置和结束位置,包括:
[0029]基于所述边界数据、所述接续数据和所述标注结果进行联合处理,确定所述第一对象的开始位置和结束位置。
[0030]可选地,所述方法还包括:
[0031]将所述第一序列标注处理、所述第二序列标注处理以及所述第三序列标注处理分别对应的损失函数求和,得到综合损失函数;
[0032]则所述基于所述边界数据、所述接续数据和所述标注结果进行联合处理,确定所述第一对象的开始位置和结束位置,包括:
[0033]基于所述边界数据、所述接续数据、所述标注结果和所述综合损失函数进行联合处理,确定所述第一对象的开始位置和结束位置。
[0034]本申请还公开了一种识别装置,包括:
[0035]表示数据获得模块,用于基于第一模型获得待识别数据的表示数据,所述表示数据具有词汇标签;
[0036]聚团处理模块,用于基于所述词汇标签对所述表示数据进行聚团处理,得到聚团数据,所述聚团数据包括至少一个实体团;
[0037]团图像生成模块,用于基于所述聚团数据生成数据团图像;
[0038]边界位置确定模块,用于基于所述数据团图像,确定所述实体团中第一对象的开始位置和结束位置。
[0039]进一步的,本申请还公开了一种电子设备,包括:
[0040]处理器;
[0041]存储器,用于存储所述处理器的可执行指令;
[0042]其中,所述可执行指令包括:基于第一模型获得待识别数据的表示数据,所述表示数据具有词汇标签;基于所述词汇标签对所述表示数据进行聚团处理,得到聚团数据,所述聚团数据包括至少一个实体团;基于所述聚团数据生成数据团图像;基于所述数据团图像,确定所述实体团中第一对象的开始位置和结束位置。
[0043]本申请实施例公开了一种识别方法及装置,方法包括:基于第一模型获得待识别数据的表示数据,所述表示数据具有词汇标签;基于所述词汇标签对所述表示数据进行聚团处理,得到聚团数据,所述聚团数据包括至少一个实体团;基于所述聚团数据生成数据团
图像;基于所述数据团图像,确定所述实体团中第一对象的开始位置和结束位置。上述方案在从句子或文章中进行实体识别时,会对识别内容的基础表示数据进行聚团处理,得到满足一定条件的聚团词组,然后基于聚团词组生成数据团图像,由于数据团图像的结构表示特点,能够更准确的确定出其中包含的第一对象的边界数据,从而确定出准确的第一对象。
附图说明
[0044]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0045]图1为本申请实施例公开的一种识别方法的流程图;
[0046]图2为本申请实施例公开的确定实体团中第一对象的边界数据的流程图;
[0047]图3为本申请实施例公开的一个数据团图像的示例图;
[0048]图4为本申请实施例公开的另一个识别方法的流程图;
[0049]图5为本申请实施例公开的第二序列标注的标注实现示意图;
[0050]图6为本申请实施例公开的又一种识别方法的流程图;
[0051]图7为本申请实施例公开的包括三个序列标注任务的识别方法的实现原理架构示意图;
[0052]图8为本申请实施例公开的一种识别装置的结构示意图;
[0053]图9为本申请实施例公开的一种电子设备的结构示意图。
具体实施方式
[0054]为了引用和清楚起见,下文中使用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别方法,包括:基于第一模型获得待识别数据的表示数据,所述表示数据具有词汇标签;基于所述词汇标签对所述表示数据进行聚团处理,得到聚团数据,所述聚团数据包括至少一个实体团;基于所述聚团数据生成数据团图像;基于所述数据团图像,确定所述实体团中第一对象的开始位置和结束位置。2.根据权利要求1所述的识别方法,所述聚团数据还包括非实体团,所述词汇标签表征词汇性质,所述基于所述词汇标签对所述表示数据进行聚团处理,得到聚团数据,包括:基于所述词汇标签所表征的词汇性质对所述表示数据进行聚团处理,得到至少一个实体团和非实体团,其中所述实体团至少包括人名实体团、组织机构实体团、地名实体团和作品名称实体团中的一种。3.根据权利要去1所述的识别方法,所述基于所述数据团图像,确定所述实体团中第一对象的开始位置和结束位置,包括:对所述数据团图像进行第一序列标注处理,确定实体团中第一对象的边界数据;基于所述边界数据确定所述第一对象的开始位置和结束位置。4.根据权利要求3所述的识别方法,所述方法还包括:对所述表示数据进行第二序列标注处理,基于处理结果确定所述表示数据中的接续数据;基于所述边界数据确定所述第一对象的开始位置和结束位置,包括:基于所述边界数据和所述接续数据确定所述第一对象的开始位置和结束位置。5.根据权利要求3所述的识别方法,所述对所述数据团图像进行第一序列标注处理,确定实体团中第一对象的边界数据,包括:基于图神经网络对所述数据团图像进行序列标注,得到图结构的序列标注结果;基于所述图结构的序列标注结果确定实体团中第一对象的边界数据。6.根据权利要求4所述的识别方法,所述对所述表示数据进行第二序列标注处理,基于处理结果确定所述第一对象...

【专利技术属性】
技术研发人员:敬毅民刘思良胡家豪
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1