实体识别方法、装置、设备和存储介质制造方法及图纸

技术编号：40557192 阅读：13 留言：0更新日期：2024-03-05 19:18

本申请提供一种实体识别方法、装置、设备及计算机可读存储介质，该实体识别方法包括：获取待识别的文本数据；对所述文本数据进行编码，得到所述文本数据的文本编码特征，其中，所述文本编码特征包含所述文本数据的相对文本位置；根据所述文本位置对所述文本编码特征进行实体提取，得到所述文本编码特征对应的实体文本；对所述实体文本进行实体类型识别，得到所述文本数据对应的实体类型。实现通过根据文本特征编码中各文本的文本位置来准确地提取各实体文本，从而有效地对提取到的实体文本进行实体识别，提高命名实体识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能领域，具体涉及一种实体识别方法、装置、设备和存储介质。

技术介绍

1、目前，随着人工智能领域技术的飞速发展，衍生出各种基于人工智能进行语音或文本识别的应用，然而很多下游语音或文本识别任务需要依赖于命名实体识别系统来进行实体识别，而现有的命名实体识别系统在应用过程中跨域性能较差，在应用过程中可能产生错误判断实体的类型或边界，从而导致相近的实体间混淆，从而导致识别错误，难以满足现有的语音或文本识别场景的应用需求。

技术实现思路

1、本申请实施例提供一种基于实体识别方法、装置、设备和存储介质，旨在解决现有技术中的命名实体识别系统容易误判的技术问题。

2、一方面，本申请实施例提供一种实体识别方法，所述实体识别方法包括以下步骤：

3、获取待识别的文本数据；

4、对所述文本数据进行编码，得到所述文本数据的文本编码特征，其中，所述文本编码特征包含所述文本数据的相对文本位置；

5、根据所述相对文本位置对所述文本编码特征进行实体提取，得到所述文本编码特征对应的实体文本；

6、对所述实体文本进行实体类型识别，确定所述实体文本对应的实体类型。

7、在本申请一种可能的实现方式中，对所述文本数据进行编码，得到所述文本数据的文本编码特征，其中，所述文本编码特征包含所述文本数据的相对文本位置，包括：

8、对所述文本数据进行编码，得到文本特征矩阵；

9、对所述文本数据进行相对位置编码，得到所述文本数据的相对位置特征；

10、将所述相对位置特征添加到所述文本特征矩阵，得到位置特征矩阵；

11、根据所述文本特征矩阵和所述位置特征矩阵进行整合，得到所述文本编码特征。

12、在本申请一种可能的实现方式中，所述根据所述文本特征矩阵和所述位置特征矩阵进行整合，得到所述文本编码特征，包括：

13、根据预设位移规则对所述位置特征矩阵进行位移处理，得到位移特征矩阵；

14、将所述位移特征矩阵和所述文本特征矩阵进行相加，得到所述文本特征矩阵的注意力得分；

15、根据所述注意力得分和预设文本向量进行矩阵运算，得到所述文本编码特征。

16、在本申请一种可能的实现方式中，所述根据所述文本位置对所述文本编码特征进行实体提取，得到所述文本编码特征中的实体文本，包括：

17、获取所述文本编码特征对应的位置编码特征，根据所述位置编码特征对所述文本编码特征进行位置信息融合，得到融合特征向量；

18、解析所述融合特征向量，识别所述融合特征向量中的实体位置，得到所述实体位置对应的实体文本。

19、在本申请一种可能的实现方式中，所述对所述实体文本进行实体类型识别，确定所述实体文本对应的实体类型，包括：

20、计算所述实体文本的实体特征；

21、根据所述实体特征和预设实体数据库中的预设实体条目的条目特征计算实体相似度；

22、获取实体相似度大于预设相似度阈值的目标实体条目，根据所述目标实体条目确定所述实体文本对应的实体类型标签。

23、在本申请一种可能的实现方式中，所述实体识别方法应用于实体识别模型，所述获取待识别的文本数据之前，还包括：

24、获取预设的训练实体数据，根据实体类型对所述训练实体数据进行随机交换，对随机交换后的训练实体数据进行去重，生成第一训练实体集；

25、和/或，

26、识别所述训练实体数据的实体词根和文本格式，将所述实体词根和预设填充文本根据所述文本格式进行组合，生成第二训练实体集；

27、将所述第一训练实体集和/或所述第二训练实体集确定为训练实体集；

28、根据所述训练实体集对预设模型进行训练，得到所述实体识别模型。

29、在本申请一种可能的实现方式中，

30、所述根据所述训练实体集对预设模型进行训练，得到所述实体识别模型，包括：

31、获取所述训练实体集中的实体类型标签；

32、根据预设的实体更新策略对所述实体类型标签进行更新，得到实体更新标签；

33、根据所述实体更新标签和训练实体集对预设模型进行训练，得到实体识别模型。

34、另一方面，本申请提供一种实体识别装置，所述实体识别装置包括：

35、文本获取模块，被配置为获取待识别的文本数据；

36、位置编码模块，被配置为对所述文本数据进行编码，得到所述文本数据的文本编码特征，其中，所述文本编码特征包含所述文本数据的相对文本位置；

37、实体提取模块，被配置为根据所述相对文本位置对所述文本编码特征进行实体提取，得到所述文本编码特征中的实体文本；

38、实体识别模块，被配置为对所述实体文本进行实体类型识别，确定所述实体文本对应的实体类型。

39、另一方面，本申请还提供一种实体识别设备，所述实体识别设备包括：

40、一个或多个处理器；

41、存储器；以及

42、一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现所述的实体识别方法。

43、另一方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行所述的实体识别方法中的步骤。

44、本申请中通过获取待识别的文本数据，并对该文本数据进行相对位置编码，从而识别该文本数据中的各文本的相对文本位置，得到包含该文本数据中各文本位置的文本编码特征；并通过该文本位置对该文本编码特征进行实体提取，以提取该文本编码特征中的实体文本，从而准确地定位到该文本数据中待分类的实体文本；并在获取该实体文本后，对该实体文本进行实体类型识别，得到该文本数据对应的目标实体。实现通过根据文本特征编码中各文本的相对文本位置来准确地提取各实体文本，从而有效地对提取到的实体文本进行实体识别，提高命名实体识别准确率。

本文档来自技高网...

【技术保护点】

1.一种实体识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述对所述文本数据进行编码，得到所述文本数据的文本编码特征，其中，所述文本编码特征包含所述文本数据的相对文本位置，包括：

3.如权利要求2所述的方法，其特征在于，所述根据所述文本特征矩阵和所述位置特征矩阵进行整合，得到所述文本编码特征，包括：

4.如权利要求1所述的方法，其特征在于，所述根据所述相对文本位置对所述文本编码特征进行实体提取，得到所述文本编码特征对应的实体文本，包括：

5.如权利要求1所述的方法，其特征在于，所述对所述实体文本进行实体类型识别，确定所述实体文本对应的实体类型，包括：

6.如权利要求1-5任一项所述的方法，其特征在于，所述实体识别方法应用于实体识别模型，所述获取待识别的文本数据之前，还包括：

7.如权利要求6所述的方法，其特征在于，所述根据所述训练实体集对预设模型进行训练，得到所述实体识别模型，包括：

8.一种实体识别装置，其特征在于，所述实体识别装置包括：

9.一种实体识别设备

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行权利要求1至7中任一项所述的实体识别方法的步骤。

...

【技术特征摘要】

1.一种实体识别方法，其特征在于，包括：

3.如权利要求2所述的方法，其特征在于，所述根据所述文本特征矩阵和所述位置特征矩阵进行整合，得到所述文本编码特征，包括：

5.如权利要求1所述的方法，其特征在于，所述对所述实体文本进行实体类型识别，确定所述...

【专利技术属性】
技术研发人员：蔡云龙，
申请(专利权)人：TCL科技集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人