实体识别方法、装置、设备及存储介质制造方法及图纸

技术编号：41491637 阅读：14 留言：0更新日期：2024-05-30 14:37

本申请公开了一种实体识别方法、装置、设备及存储介质，涉及AI技术领域。所述方法包括：获取待识别文本的特征信息，待识别文本的特征信息用于表征待识别文本的语义特征；根据待识别文本的特征信息，确定待识别文本的主题类目信息，待识别文本的主题类目信息用于表征待识别文本的主题所属的类目；根据待识别文本的特征信息和待识别文本的主题类目信息，确定待识别文本中的实体词。本申请通过融合待识别文本的特征信息和待识别文本的主题类目信息来实现对待识别文本中的实体词的抽取，提高了实体识别流程的效率，和抽取到的实体词的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及ai(artificial intelligence，人工智能)，特别涉及一种实体识别方法、装置、设备及存储介质。

技术介绍

1、标题是视频内容的主要成分，结合自然语言处理等基础算法对标题内容进行文本解析是视频搜索系统的核心工作。其中，基于标题给出视频的主题类别以及基于标题抽取其中的实体信息都是理解标题内容的重要步骤。

2、相关技术中，实体识别任务和主题分类任务是分开进行的，主题分类任务一般采用判别模型完成二分类或者多分类的建模过程，实体识别任务则是构建序列模型来完成实体抽取过程，两个任务的数据都是分别进行标注，各自建模。

3、然而，由于实体识别任务和主题分类任务是分开进行、分别建模的，导致两个任务的信息无法共享，抽取到的实体词准确性不高。

技术实现思路

1、本申请实施例提供了一种实体识别方法、装置、设备及存储介质。所述技术方案如下：

2、根据本申请实施例的一个方面，提供了一种实体识别方法，所述方法包括：

3、获取待识别文本的特征信...

【技术保护点】

1.一种实体识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述待识别文本的特征信息，确定所述待识别文本的主题类目信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述n个主题类目分别对应的概率值，从所述n个主题类目中选择k个目标主题类目，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述k个目标主题类目，确定所述待识别文本的主题类目信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述待识别文本的特征信息和所述待识别文本的主题类目信息，确定所述待识别文本中的实...

【技术特征摘要】

1.一种实体识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述待识别文本的特征信息，确定所述待识别文本的主题类目信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述n个主题类目分别对应的概率值，从所述n个主题类目中选择k个目标主题类目，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述k个目标主题类目，确定所述待识别文本的主题类目信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述待识别文本的特征信息和所述待识别文本的主题类目信息，确定所述待识别文本中的实体词，包括：

6.根据权利要求5所述的方法，其特征在于，所述待识别文本的特征信息包括所述待识别文本中的多个元素分别对应的特征向量；

7.根据权利要求1所述的方法，其特征在于，所述根据所述待识别文本的特征信息和所述待识别文本的主题类目信息，确定所述待识别文本中的实体词之后，还包括：

8.根据权利要求7所述的方法，其特征在于，所述待识别文本的特征信息包括第一特征向量，所述第一特征向量用于表征所述待识别文本整体的语义特征；

9.根据权利要求7所述的方法，其特征在于，所述根据各个所述实体词的重要度指标，确定所述待识别文本的实体词识别结果，包括：

10.根据权利要求1至9任一项所述的方法，其特征在于，所述待识别文本中的实体词由实体识别模型确定，所述实体识别模型包括特征提取网络、主题分类网络和实体识别网络；

11.一种实体识别模型的训练方法，其特征在于，所述实体识别模型包括特征提取网络、主题分类网络和实体识别网络，所述方法包括：

12.根据权利要求11所述的方法，其特征在于，所述根据所述样本文本的主题类目预测结果、实体词预测结果、主...

【专利技术属性】
技术研发人员：黄剑辉，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人