基于深度学习的实体识别方法、装置、介质及电子设备制造方法及图纸

技术编号：30905246 阅读：60 留言：0更新日期：2021-11-22 23:50

本申请公开了一种基于深度学习的实体识别方法、装置、计算机可读存储介质及电子设备，通过将输入的自然句拆分为多个字向量，然后对多个字向量进行特征提取得到每个字向量的特性信息，并且对多个字向量进行双向编码，得到每个字向量的双向编码信息，最后根据多个字向量的特性信息和双向编码信息，综合得到识别结果；即对自然句中的每个字进行特性提取以及对每个字进行双向编码，以获取每个字的语义特征和上下文特征，从而可以准确的识别命名实体。从而可以准确的识别命名实体。从而可以准确的识别命名实体。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的实体识别方法、装置、介质及电子设备

[0001]本申请涉及非结构化文字实体识别
，具体涉及一种基于深度学习的实体识别方法、装置、计算机可读存储介质及电子设备。

技术介绍

[0002]命名实体识别(Named Entity Recognition,NER)为自然语言处理的一项基础任务。早期基于规则和词典，主要依赖语言学家根据上下文语义结构归纳的模板。该方法对于难以归纳的总结无法解决，识别效果不明显，且归纳总结过程代价比较大，所以学者们使用机器学习方法来解决，对NER问题分类3类小问题：特征选择、机器学习策略、序列标注等。在处理NER问题时，使用大规模的标注语料让机器来训练模型，通过训练好的模型对测试语料进行序列解码等，得到命名实体。
[0003]但机器学习方法对文本特征提取要求较高，目前的机器学习方法参数巨大、运算内存占用较多，从而导致模型的运算效果和效率不高，且识别精度不高。

技术实现思路

[0004]为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于深度学习的实体识...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的实体识别方法，其特征在于，包括：对输入的自然句拆分为多个字向量；其中所述多个字向量构成所述自然句；对所述多个字向量分别进行特征提取，得到每个字向量的特性信息；其中所述特征信息包括所述字向量的类别信息；对所述多个字向量分别进行双向编码，得到每个字向量的双向编码信息；其中所述双向编码信息包括对应的当前字向量与所述当前字向量的前一个字向量、所述当前字向量的后一个字向量之间的关系信息；以及根据所述多个字向量的所述特征信息和所述双向编码信息，得到识别结果。2.根据权利要求1所述的实体识别方法，其特征在于，在所述对所述多个字向量分别进行特征提取之后，还包括：对所述特征信息进行降维处理，得到降维后的特征信息；其中，所述根据所述多个字向量的所述特征信息和所述双向编码信息，得到识别结果包括：根据所述降维后的特征信息和所述双向编码信息，得到识别结果。3.根据权利要求2所述的实体识别方法，其特征在于，所述对所述特征信息进行降维处理包括：共享所述多个字向量的全局参数信息和注意力参数信息。4.根据权利要求1所述的实体识别方法，其特征在于，所述对所述多个字向量分别进行双向编码包括：将所述多个字向量的链式结构转换为图形结构；以及对所述图形结构中每两个字向量之间的编码信息设置权重。5.根据权利要求4所述的实体识别方法，其特征在于，所述将所述多个字向量的链式结构转换为图形结构包括：在每两个字向量之间设置一个信息节点；所述信息节点包括所述双向编码信息，且所述信息节点的字节长度为预设的定值。6.根据权利要求5所述的实体识别方法，其特征在于，所述在每两个字向量之间设置一个...

【专利技术属性】
技术研发人员：鲁冰青，丁川，叶凯，樊海东，王剑斌，
申请(专利权)人：江苏曼荼罗软件股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人