命名实体识别方法及装置制造方法及图纸

技术编号：29331405 阅读：30 留言：0更新日期：2021-07-20 17:48

本发明专利技术公开了一种命名实体识别方法及装置，本发明专利技术并未直接调用使用特定领域的训练样本训练得到的神经网络模型，而是采用现有的预训练语言模型得到待分析文本对应的向量集合，进而不需要生成适用于待分析文本所在领域、且用于将文本转换成词向量的神经网络模型，并且，预训练语言模型的结构复杂，训练样本数量较多、且可以在各个领域通用，则采用预训练语言模型确定待分析文本的向量的方式，相比于调用神经网络模型确定待分析文本的向量的方式，能够提高生成的待分析文本的向量集合的准确度，进而使得命名实体识别结果更准确。

全部详细技术资料下载

【技术实现步骤摘要】
命名实体识别方法及装置
本专利技术涉及命名实体识别领域，更具体的说，涉及一种命名实体识别方法及装置。
技术介绍
命名实体识别是自然语言处理(NLP)领域中的一项重要任务，也是知识图谱领域的一项基础技术，该技术可以对不定长度的文本提取特定的命名实体，如地点、人物、公司名等。在对文本进行命名实体识别之前，需要将文本转换成词向量，此时会调用一个用于将文本转换成词向量的神经网络模型(如词向量模型)来将该文本转换成词向量。该神经网络模型的结构简单、且训练样本数量较少，使得训练的用于将文本转换成词向量的神经网络模型生成的词向量的准确度较差，进而使得命名实体识别结果不准确。
技术实现思路
鉴于上述问题，本专利技术提供一种克服上述问题或者至少部分地解决上述问题的一种命名实体识别方法及装置。一种命名实体识别方法，包括：获取待分析文本，并确定所述待分析文本中所包含字符对应的标识信息；调用预训练语言模型对所述标识信息进行处理，得到所述待分析文本对应的向量集合；对所述待分析文本对应的向量集...

【技术保护点】
1.一种命名实体识别方法，其特征在于，包括：/n获取待分析文本，并确定所述待分析文本中所包含字符对应的标识信息；/n调用预训练语言模型对所述标识信息进行处理，得到所述待分析文本对应的向量集合；/n对所述待分析文本对应的向量集合进行命名实体识别处理，得到所述待分析文本中的命名实体数据。/n

【技术特征摘要】
1.一种命名实体识别方法，其特征在于，包括：
获取待分析文本，并确定所述待分析文本中所包含字符对应的标识信息；
调用预训练语言模型对所述标识信息进行处理，得到所述待分析文本对应的向量集合；
对所述待分析文本对应的向量集合进行命名实体识别处理，得到所述待分析文本中的命名实体数据。

2.根据权利要求1所述的命名实体识别方法，其特征在于，获取待分析文本，包括：
获取目标文本；
对所述目标文本进行文本切割，得到所述待分析文本；所述待分析文本的文字数量在预设范围内。

3.根据权利要求1所述的命名实体识别方法，其特征在于，确定所述待分析文本中所包含字符对应的标识信息，包括：
获取字符与标识信息的对应关系；
依据所述对应关系，确定所述待分析文本中的字符对应的标识信息；
对所述待分析文本中的字符对应的标识信息进行整合，得到所述待分析文本中所包含字符对应的标识信息。

4.根据权利要求1所述的命名实体识别方法，其特征在于，所述预训练语言模型中包括多个网络层，不同网络层对应的权重不同，并且，调用预训练语言模型对所述标识信息进行处理，得到所述待分析文本对应的向量集合，包括：
将所述标识信息输入到所述预训练语言模型，获取所述预训练语言模型中每一所述网络层的输出结果；
根据每一所述网络层的输出结果与相应的权重值，对所述多个网络层的输出结果进行加权求和，得到所述待分析文本对应的向量集合。

5.根据权利要求1所述的命名实体识别方法，其特征在于，对所述待分析文本对应的向量集合进行命名实体识别处理，得到所述待分析文本中的命名实体数据，包括：
调用神经网络模型对所述待分析文...

【专利技术属性】
技术研发人员：彭程，王志立，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人