实体识别方法、介质、装置和计算设备制造方法及图纸

技术编号:35302163 阅读:33 留言:0更新日期:2022-10-22 12:51
本公开的实施方式提供了一种实体识别方法、介质、装置和计算设备。该方法包括:将待识别文本输入至实体预测模型,以预测待识别文本中所包含的潜在实体以及相应潜在实体的潜在实体类别;基于潜在实体以及潜在实体类别确定相应知识库中的第一词条,第一词条还包括对应的第一词条简介;将待识别文本、第一词条以及第一词条简介输入至实体识别模型中,确定待识别文本中的目标实体以及相应目标实体的目标实体类别。本公开解决了相关技术中文本数据特征不足时实体识别准确性和可靠性较差的问题,显著提高实体识别的准确性和可靠性。显著提高实体识别的准确性和可靠性。显著提高实体识别的准确性和可靠性。

【技术实现步骤摘要】
实体识别方法、介质、装置和计算设备


[0001]本公开的实施方式涉及计算机
,更具体地,本公开的实施方式涉及一种实体识别方法、介质、装置和计算设备。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]在人机对话、语言翻译等领域中,准确无误的识别出给定的文本信息中包含的各类型相应的文本实体是非常重要的。通过在给定的文本中快速找到其语境下对应的实体,能够方便调用实体相对应的功能,在医药、汽车、电商等场景中得到广泛应用。
[0004]相关技术中,识别文本实体的方法一般为通过将文本转化为特征向量,并通过对特征向量进行分析,以识别文本中的实体。但当文本长度较短时,其对应的特征向量较少,由此得到的数据特征准确性不足,进而导致的得到识别结果的准确性和可靠性较差。

技术实现思路

[0005]本公开提供一种实体识别方法、介质、装置和计算设备,以解决相关技术中文本数据特征不足时实体识别准确性和可靠性较差的问题。
[0006]在本公开实施方式的第一方面中,提供了一种实体识别方法,包括:
[0007]将待识别文本输入至实体预测模型,以预测待识别文本中所包含的潜在实体以及相应潜在实体的潜在实体类别;
[0008]基于潜在实体以及潜在实体类别确定相应知识库中的第一词条,第一词条还包括对应的第一词条简介;
[0009]将待识别文本、第一词条以及第一词条简介输入至实体识别模型中,确定待识别文本中的目标实体以及相应目标实体的目标实体类别。
[0010]在本公开实施方式的第二方面中,提供了一种实体预测模型训练方法,包括:
[0011]将标注有字符类别标签的训练文本输入到实体预测模型中进行训练,输出训练文本中包含的预测实体以及相应预测实体的预测实体类别,
[0012]字符类别标签包括:
[0013]实体的首字符与实体类别标签;
[0014]实体的非首字符与实体类别标签;
[0015]非实体标签。
[0016]在本公开实施方式的第三方面中,提供了一种实体识别模型训练方法,包括:
[0017]确定训练文本在知识库中的对应词条以及词条简介,训练文本标注有字符类别标签;
[0018]将训练文本,以及训练文本在实体库中对应的词条和词条简介输入到实体识别模型中进行训练,以输出训练文本中包含的最终实体以及相应最终实体的最终实体类别,
[0019]字符类别标签包括:
[0020]实体的首字符与实体类别标签;
[0021]实体的非首字符与实体类别标签;
[0022]非实体标签。
[0023]在本公开实施方式的第四方面中,提供了一种计算机可读存储介质,包括:
[0024]计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如本公开第一方面中的实体识别方法;和/或,计算机执行指令被处理器执行时用于实现如本公开第二方面中的实体预测模型训练方法;和/或,计算机执行指令被处理器执行时用于实现如本公开第三方面中的实体识别模型训练方法。
[0025]在本公开实施方式的第五方面中,提供了一种实体识别装置,包括:预测模块,用于将待识别文本输入至实体预测模型,以预测待识别文本中所包含的潜在实体以及相应潜在实体的潜在实体类别;
[0026]增强模块,用于基于潜在实体以及潜在实体类别确定相应知识库中的第一词条,第一词条还包括对应的第一词条简介;
[0027]识别模块,用于将待识别文本、第一词条以及第一词条简介输入至实体识别模型中,确定待识别文本中的目标实体以及相应目标实体的目标实体类别。
[0028]在本公开实施方式的第六方面中,提供了一种实体预测模型训练装置,包括:
[0029]训练模块,用于将标注有字符类别标签的训练文本输入到实体预测模型中进行训练,输出训练文本中包含的预测实体以及相应预测实体的预测实体类别,
[0030]字符类别标签包括:
[0031]实体的首字符与实体类别标签;
[0032]实体的非首字符与实体类别标签;
[0033]非实体标签。
[0034]在本公开实施方式的第七方面中,提供了一种实体识别模型训练装置,包括:
[0035]确定模块,用于确定训练文本在知识库中的对应词条以及词条简介,训练文本标注有字符类别标签;
[0036]训练模块,用于将训练文本,以及训练文本在实体库中对应的词条和词条简介输入到实体识别模型中进行训练,以输出训练文本中包含的最终实体以及相应最终实体的最终实体类别,
[0037]字符类别标签包括:
[0038]实体的首字符与实体类别标签;
[0039]实体的非首字符与实体类别标签;
[0040]非实体标签。
[0041]在本公开实施方式的第八方面中,提供了一种计算设备,包括:至少一个处理器;
[0042]以及与至少一个处理器通信连接的存储器;
[0043]其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使计算设备执行如本公开第一方面中的实体识别方法;和/或,以使计算设备执行如本公开第二方面中的实体预测模型训练方法;和/或,以使计算设备执行如本公开第三方面中的实体识别模型训练方法。
[0044]根据本公开实施方式的实体识别方法、介质、装置和计算设备,通过将待识别文本输入至实体预测模型,预测待识别文本中所包含的潜在实体以及相应潜在实体的潜在实体类别,然后基于潜在实体以及潜在实体类别确定相应知识库中的第一词条,并将待识别文本、第一词条以及第一词条简介输入至实体识别模型中,确定待识别文本中的目标实体以及相应目标实体的目标实体类别。由此,可以通过知识库中的词条和词条简介对待识别文本结合,增加结合后的文本中可用于识别的信息,由此可以显著提高识别待识别文本中实体的准确性和可靠性。
附图说明
[0045]通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
[0046]图1示意性地示出了根据本公开实施方式的应用场景图;
[0047]图2示意性地示出了根据本公开另一实施例的实体识别方法的流程图;
[0048]图3示意性地示出了根据本公开又一实施例的实体识别方法的流程图;
[0049]图4示意性地示出了根据本公开再一实施例的实体预测模型训练方法的流程图;
[0050]图5a示意性地示出了根据本公开再一实施例的实体预测模型训练方法的流程图;
[0051]图5b示意性地示出了根据图5a所示实施例中将外文训练文本翻译为第一语种训练文本的流程图;
[0052]图6示意性地示出了根据本公开再一实施例的实体识别模型训练方法的流程图;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体识别方法,其特征在于,包括:将待识别文本输入至实体预测模型,以预测所述待识别文本中所包含的潜在实体以及相应潜在实体的潜在实体类别;基于所述潜在实体以及所述潜在实体类别确定相应知识库中的第一词条,所述第一词条还包括对应的第一词条简介;将所述待识别文本、所述第一词条以及所述第一词条简介输入至实体识别模型中,确定所述待识别文本中的目标实体以及相应目标实体的目标实体类别。2.根据权利要求1所述的实体识别方法,其特征在于,所述知识库中以三元组的方式存储有词条、词条简介以及词条热度值;所述基于所述潜在实体以及所述潜在实体类别确定相应知识库中的第一词条,包括:确定所述知识库中与所述潜在实体同名的词条为第一词条;响应于与所述潜在实体同名的词条不唯一,基于相应各同名词条的词条热度值唯一确定所述第一词条。3.根据权利要求2所述的实体识别方法,其特征在于,所述响应于与所述潜在实体同名词条不唯一,基于相应各同名词条的词条热度值唯一确定所述第一词条,包括:将相应各同名词条的词条热度值最高的词条,唯一确定为所述第一词条。4.根据权利要求1所述的实体识别方法,其特征在于,所述将所述待识别文本、所述第一词条以及所述第一词条简介输入至实体识别模型中,确定所述待识别文本中的目标实体以及相应目标实体的目标实体类别,包括:将所述待识别文本,与所述第一词条和所述第一词条简介相拼接,得到对应于所述待识别文本的信息增强文本;将所述信息增强文本输入至所述实体识别模型中,得到所述待识别文本中的目标实体以及相应目标实体的目标实体类别。5.根据权利要求4所述的实体识别方法,其特征在于,所述实体预测模型包括第一编码器和第一解码器,所述第一编码器用于对所述待识别文本进行识别和编码,所述第一解码器用于基于第一编码器的输出结果,确定所述待识别文本中的潜在实体以及相应潜在实体的潜在实体类别;所述实体识别模型包括第二编码器和第二解码器,所述第二编码器用于对所述信息增强文本进行识别和编码,所述第二解码器用于基于第二编码器的输出结果,确定所述待识别文本中的目标实体以及相应目标实体的目标实体类...

【专利技术属性】
技术研发人员:李家诚胡光龙侯同鹏沙雨辰袁威强肖康卢睿轩
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1