一种实体识别方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:37251230 阅读:11 留言:0更新日期:2023-04-20 23:29
本申请提供了一种实体识别方法、装置、设备及计算机可读存储介质;应用于视频处理和文本处理等应用场景中;该实体识别方法包括:获取目标账号对应的待处理文本;对待处理文本进行特征提取,得到每个字符对应的字符特征;获取待处理文本中的每个候选实体字符串;基于字符特征,对每个候选实体字符串进行识别,得到每个实体字符串对应的实体情感类别,其中,实体情感类别为目标账号对每个实体字符串的情感所属的类别,所述实体字符串为属于实体的所述候选实体字符串。通过本申请,能够提升实体识别效果。识别效果。识别效果。

【技术实现步骤摘要】
一种实体识别方法、装置、设备及计算机可读存储介质


[0001]本申请涉及计算机应用领域中的信息推荐技术,尤其涉及一种实体识别方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]实体识别是对文本信息中的实体进行识别的过程。一般来说,在对文本信息进行实体识别时,所获得的识别结果通常为文本信息中所包含的实体,识别出的内容单一,导致实体识别的效果较差。

技术实现思路

[0003]本申请实施例提供一种实体识别方法、装置、设备及计算机可读存储介质,能够提升实体识别的效果。
[0004]本申请实施例的技术方案是这样实现的:
[0005]本申请实施例提供一种实体识别方法,包括:
[0006]获取目标账号对应的待处理文本;
[0007]对所述待处理文本进行特征提取,得到每个字符对应的字符特征;
[0008]获取所述待处理文本中的每个候选实体字符串;
[0009]基于所述字符特征,对每个所述候选实体字符串进行识别,得到每个实体字符串对应的实体情感类别,其中,所述实体情感类别为所述目标账号对每个所述实体字符串的情感所属的类别,所述实体字符串为属于实体的所述候选实体字符串。
[0010]本申请实施例提供一种实体识别装置,包括:
[0011]文本获取模块,用于获取目标账号对应的待处理文本;
[0012]特征提取模块,用于对所述待处理文本进行特征提取,得到每个字符对应的字符特征;
[0013]字符串提取模块,用于获取所述待处理文本中的每个候选实体字符串;
[0014]实体识别模块,用于基于所述字符特征,对每个所述候选实体字符串进行识别,得到每个实体字符串对应的实体情感类别,其中,所述实体情感类别为所述目标账号对每个所述实体字符串的情感所属的类别,所述实体字符串为属于实体的所述候选实体字符串。
[0015]在本申请实施例中,所述特征提取模块,还用于提取所述待处理文本中的每个所述字符对应的文本特征;将所述文本特征确定为所述字符特征。
[0016]在本申请实施例中,所述特征提取模块,还用于提取所述待处理文本中的图像对应的图像特征;基于所述图像特征对所述文本特征进行增强,得到所述字符特征。
[0017]在本申请实施例中,所述特征提取模块,还用于基于所述文本特征的特征维度,对所述图像特征进行维度转换,得到目标图像特征;融合所述目标图像特征和所述文本特征,得到所述字符特征。
[0018]在本申请实施例中,所述字符串提取模块,还用于获取最大跨度,其中,所述最大
跨度为所述候选实体字符串对应的最大字符长度;在所述待处理文本中,从第一个字符开始至最后一个字符,按照一个跨度至所述最大跨度组合字符串,得到每个所述候选实体字符串。
[0019]在本申请实施例中,所述实体识别模块,还用于基于所述候选实体字符串中每个所述字符的所述字符特征,确定所述候选实体字符串对应的字符串特征;基于所述字符串特征对每个所述候选实体字符串进行实体识别,得到每个所述实体字符串;基于所述字符串特征对每个所述实体字符串进行情感分析,得到每个所述实体字符串对应的所述实体情感类别。
[0020]在本申请实施例中,所述实体识别模块,还用于提取所述待处理文本对应的内容特征。
[0021]在本申请实施例中,所述实体识别模块,还用于将所述内容特征和所述候选实体字符串对应的字符长度中的至少一种,与所述字符串特征进行拼接,得到字符串实体特征;基于所述字符串实体特征对每个所述候选实体字符串进行实体识别,得到每个所述实体字符串。
[0022]在本申请实施例中,所述实体识别模块,还用于基于所述内容特征和每个所述实体字符串的所述字符串特征的拼接结果,对每个所述实体字符串进行情感分析,得到每个所述实体字符串对应的所述实体情感类别。
[0023]在本申请实施例中,所述信息推荐模块,还用于基于所述内容特征,对所述待处理文本进行内容识别,得到文本内容类别;从第一待推荐信息库中,获取与所述文本内容类别匹配的第一推荐信息;向所述目标账号推荐所述第一推荐信息。
[0024]在本申请实施例中,所述实体识别装置还包括信息推荐模块,用于基于每个所述实体字符串对应的所述实体情感类别,确定所述目标账号对应的属于正面情感类别的至少一个所述实体字符串;从第二待推荐信息库中,获取与至少一个所述实体字符串匹配的第二推荐信息;向所述目标账号推荐所述第二推荐信息。
[0025]在本申请实施例中,所述信息推荐模块,还用于针对至少一个所述实体字符串中的每个所述实体字符串,统计目标账号集合;向所述目标账号集合中的每个所述目标账号推荐所述第二推荐信息。
[0026]在本申请实施例中,所述基于所述字符串特征对每个所述候选实体字符串进行实体识别,得到每个所述实体字符串,是通过实体识别模型实现的;从而,所述实体识别装置还包括模型训练模块,用于通过以下步骤训练所述实体识别模型:获取实体训练样本,其中,所述实体训练样本包括候选实体字符串样本和实体标签;利用待训练实体识别模型对所述候选实体字符串样本进行实体识别,得到实体预测结果;基于所述实体预测结果与所述实体标签之间的差异,在所述待训练实体识别模型中进行反向传播,得到所述实体识别模型。
[0027]在本申请实施例中,所述基于所述字符串特征对每个所述实体字符串进行情感分析,得到每个所述实体字符串对应的所述实体情感类别,以及,所述基于所述内容特征,对所述待处理文本进行内容识别,得到文本内容类别,是基于综合分类模型实现的;从而,所述模型训练模块,还用于通过以下步骤训练所述综合分类模型:获取类别训练样本,其中,所述类别训练样本包括文本样本、文本样本对应的实体字符串样本、文本内容类别标签和
实体情感类别标签;利用待训练实体识别模型对所述文本样本和所述文本样本对应的所述实体字符串样本进行分类,得到与所述文本样本对应的文本内容预测类别、以及与所述文本样本的所述实体字符串样本对应的实体情感预测类别;基于所述文本内容类别标签和所述文本内容预测类别之间的差异、以及所述实体情感类别标签与所述实体情感预测类别之间的差异,在所述待训练综合分类模型中进行反向传播,得到所述综合分类模型。
[0028]本申请实施例提供一种实体识别设备,包括:
[0029]存储器,用于存储可执行指令;
[0030]处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的实体识别方法。
[0031]本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的实体识别方法。
[0032]本申请实施例提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现本申请实施例提供的实体识别方法。
[0033]本申请实施例至少具有以下有益效果:通过对待处理文本进行实体识别,并确定识别出的每个实体字符串对应的实体情感类别,能够准确地确定目标账号针对每个实体字符串本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体识别方法,其特征在于,包括:获取目标账号对应的待处理文本;对所述待处理文本进行特征提取,得到每个字符对应的字符特征;获取所述待处理文本中的每个候选实体字符串;基于所述字符特征,对每个所述候选实体字符串进行识别,得到每个实体字符串对应的实体情感类别,其中,所述实体情感类别为所述目标账号对每个所述实体字符串的情感所属的类别,所述实体字符串为属于实体的所述候选实体字符串。2.根据权利要求1所述的方法,其特征在于,所述对所述待处理文本进行特征提取,得到每个字符对应的字符特征,包括:提取所述待处理文本中的每个所述字符对应的文本特征;将所述文本特征确定为所述字符特征。3.根据权利要求2所述的方法,其特征在于,所述提取所述待处理文本中的每个所述字符对应的文本特征之后,所述方法还包括:提取所述待处理文本中的图像对应的图像特征;基于所述图像特征对所述文本特征进行增强,得到所述字符特征。4.根据权利要求3所述的方法,其特征在于,所述基于所述图像特征对所述文本特征进行增强,得到所述字符特征,包括:基于所述文本特征的特征维度,对所述图像特征进行维度转换,得到目标图像特征;融合所述目标图像特征和所述文本特征,得到所述字符特征。5.根据权利要求1至4任一项所述的方法,其特征在于,所述获取所述待处理文本中的每个候选实体字符串,包括:获取最大跨度,其中,所述最大跨度为所述候选实体字符串对应的最大字符长度;在所述待处理文本中,从第一个字符开始至最后一个字符,按照一个跨度至所述最大跨度组合字符串,得到每个所述候选实体字符串。6.根据权利要求1至4任一项所述的方法,其特征在于,所述基于所述字符特征,对每个所述候选实体字符串进行识别,得到每个实体字符串对应的实体情感类别,包括:基于所述候选实体字符串中每个所述字符的所述字符特征,确定所述候选实体字符串对应的字符串特征;基于所述字符串特征对每个所述候选实体字符串进行实体识别,得到每个所述实体字符串;基于所述字符串特征对每个所述实体字符串进行情感分析,得到每个所述实体字符串对应的所述实体情感类别。7.根据权利要求6所述的方法,其特征在于,所述基于所述字符串特征对每个所述候选实体字符串进行实体识别,得到每个所述实体字符串之前,所述方法还包括:提取所述待处理文本对应的内容特征;所述基于所述字符串特征对每个所述候选实体字符串进行实体识别,得到每个所述实体字符串,包括:将所述内容特征和所述候选实体字符串对应的字符长度中的至少一种,与所述字符串特征进行拼接,得到字符串实体特征;
基于所述字符串实体特征对每个所述候选实体字符串进行实体识别,得到每个所述实体字符串;所述基于所述字符串特征对每个所述实体字符串进行情感分析,得到每个所述实体字符串对应的所述实体情感类别,包括:基于所述内容特征和每个所述实体字符串的所述字符串特征的拼接结果,对每个所述实体字符串进行情感分析,得到每个所述实体字符串对应的所述实体情感类别。8.根据权利要求7所述的方法,其特征在于,所述提取所述待处理文本对应的内容特征之后,所述方法还包括:基于所述内容特征,对所述待处理文本进行内容识别,得到文本内容类别;从第一待推荐信息库中,获取与所述文本内容类别匹配的第一推荐...

【专利技术属性】
技术研发人员:徐启东陈小帅
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1