一种命名实体识别方法、装置及终端设备制造方法及图纸

技术编号:24854801 阅读:59 留言:0更新日期:2020-07-10 19:08
本发明专利技术提供一种命名实体识别方法、装置及终端设备,该命名实体识别方法包括:获取待识别数据;对所述待识别数据进行预处理,获得待识别数据的字符向量;将所述字符向量输入至预先训练的基于字的命名实体识别模型中,输出表示待识别数据的命名实体信息的识别结果;根据识别结果,确定所述待识别数据的命名实体;所述命名实体识别模型的训练特征向量包括训练数据的实体边界特征向量,用于提取训练数据的特征时,将同一命名实体的多个字符特征归一为相应命名实体的特征,以基于归一后的命名实体的特征进行模型参数训练。本发明专利技术的实施例,可以解决现有基于字的命名实体识别模型存在的实体边界问题,从而提高模型性能,提高命名实体识别时的准确率。

【技术实现步骤摘要】
一种命名实体识别方法、装置及终端设备
本专利技术涉及数据处理
,尤其涉及一种命名实体识别方法、装置及终端设备。
技术介绍
命名实体识别(NamedEntityRecognition,NER)是指识别出文本或字符串中具有特定意义的实体,主要包括人名、地名、机构名和专有名词等。评判一个命名实体是否被正确识别主要包括两个方面,分别为:实体的边界是否正确,和实体的类型是否标注正确。现有的命名实体识别方法主要包括:基于规则(rule-based)的方法,和基于统计(statistic-based)的方法。该基于统计的方法中,目前普遍使用的网络结构是BI-LSTM-CRF(Bi-directionalLongShort-TermMemory-ConditionalRandomField,双向长短期记忆神经网络和条件随机场),该BI-LSTM-CRF可以将BI-LSTM捕获长远的上下文信息、神经网络拟合非线性的能力和CRF灵活应用局部上下文特征的能力结合一起,将识别性能提升到最大。在网络结构BI-LSTM-CRF中,基于字的BI-LSTM-CRF模型的命名实体识别方法是常常用到的命名实体识别方法。然而,现有基于字的命名实体识别模型比如BI-LSTM-CRF模型中,常常存在实体边界问题,造成命名实体识别时的准确率低。
技术实现思路
本专利技术实施例提供一种命名实体识别方法、装置及终端设备,以解决现有基于字的命名实体识别模型因存在实体边界问题,造成命名实体识别时的准确率低的问题。为了解决上述技术问题,本专利技术是这样实现的:第一方面,本专利技术实施例提供了一种命名实体识别方法,包括:获取待识别数据;对所述待识别数据进行预处理,获得所述待识别数据的字符向量;将所述字符向量输入至预先训练的基于字的命名实体识别模型中,输出表示所述待识别数据的命名实体信息的识别结果;根据所述识别结果,确定所述待识别数据的命名实体;其中,所述命名实体识别模型的训练特征向量包括训练数据的实体边界特征向量,用于提取训练数据的特征时,将同一命名实体的多个字符特征归一为相应命名实体的特征,以基于归一后的命名实体的特征进行模型参数训练。第二方面,本专利技术实施例提供了一种命名实体识别装置,包括:第一获取模块,用于获取待识别数据;第一预处理模块,用于对所述待识别数据进行预处理,获得所述待识别数据的字符向量;识别模块,用于将所述字符向量输入至预先训练的基于字的命名实体识别模型中,输出表示所述待识别数据的命名实体信息的识别结果;确定模块,用于根据所述识别结果,确定所述待识别数据的命名实体;其中,所述命名实体识别模型的训练特征向量包括训练数据的实体边界特征向量,用于提取训练数据的特征时,将同一命名实体的多个字符特征归一为相应命名实体的特征,以基于归一后的命名实体的特征进行模型参数训练。第三方面,本专利技术实施例提供了一种终端设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理器执行时可实现上述命名实体识别方法的步骤。第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时可实现上述命名实体识别方法的步骤。本专利技术实施例中,获取待识别数据,对所述待识别数据进行预处理,获得所述待识别数据的字符向量,将所述字符向量输入至命名实体识别模型中,输出表示所述待识别数据的命名实体信息的识别结果,根据所述识别结果,确定所述待识别数据的命名实体,所述命名实体识别模型的训练特征向量包括训练数据的实体边界特征向量,用于提取训练数据的特征时,将同一命名实体的多个字符特征归一为相应命名实体的特征,以基于归一后的命名实体的特征进行模型参数训练,由于模型参数的训练考虑到实体边界特征,因此可以解决现有基于字的命名实体识别模型存在的实体边界问题,从而提高模型性能,提高命名实体识别时的准确率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例的命名实体识别方法的流程图;图2为本专利技术实施例的模型训练过程的流程示意图;图3为本专利技术实施例的命名实体识别装置的结构示意图;图4为本专利技术实施例的终端设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参见图1,图1是本专利技术实施例提供的一种命名实体识别方法的流程图,该方法应用于终端设备,如图1所示,该方法包括以下步骤:步骤101:获取待识别数据。其中,上述待识别数据(TestData)可选为中文文本语句。步骤102:对待识别数据进行预处理,获得所述待识别数据的字符向量。此步骤中,在对待识别数据进行预处理时,可首先将待识别数据转化为字符级数据,然后利用预设的字符编码文件将该字符级数据转化为字符向量,从而得到识别数据的字符向量。需说明的是,该预设的字符编码文件与模型训练过程中所使用的字符编码文件是完全相同的。该字符向量的长度是预设长度,且与模型训练过程中训练数据的字符向量的长度一致,以保证模型识别效果。步骤103:将所述字符向量输入至预先训练的基于字的命名实体识别模型中,输出表示所述待识别数据的命名实体信息的识别结果。其中,所述命名实体识别模型可选为基于字的BI-LSTM-CRF模型。所述命名实体识别模型的训练特征向量包括训练数据的实体边界特征向量,所述实体边界特征向量表示对应命名实体在上下文中的位置关系,可通过注意力机制构建,用于提取训练数据的特征时,将同一命名实体的多个字符特征归一为相应命名实体的特征,以基于归一后的命名实体的特征进行模型参数训练。可选的,在对同一命名实体的多个字符特征进行归一处理时,可采用加权平均的方法,即将同一命名实体的多个字符特征通过一个权重矩阵加权构成相应命名实体的特征,该权重矩阵作为模型参数可在模型训练中训练得到。可以理解的,模型训练时,上述命名实体识别模型的训练特征向量除包括训练数据的实体边界特征向量外,还可以包括训练数据的字符向量和命名实体标签向量,从而使得训练得到的命名实体识别模型能够基于输入的待识别数据的字符向量,输出表示待识别数据的命名实体信息的识别结果。步骤104:根据所述识别结果,确定所述待识别数据的命名实体。通常,基于字的命名实体识别模型比如BI-LSTM-CRF模型输出的是,待识别数据的每个字符分类到相本文档来自技高网...

【技术保护点】
1.一种命名实体识别方法,其特征在于,包括:/n获取待识别数据;/n对所述待识别数据进行预处理,获得所述待识别数据的字符向量;/n将所述字符向量输入至预先训练的基于字的命名实体识别模型中,输出表示所述待识别数据的命名实体信息的识别结果;/n根据所述识别结果,确定所述待识别数据的命名实体;/n其中,所述命名实体识别模型的训练特征向量包括训练数据的实体边界特征向量,用于提取训练数据的特征时,将同一命名实体的多个字符特征归一为相应命名实体的特征,以基于归一后的命名实体的特征进行模型参数训练。/n

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,包括:
获取待识别数据;
对所述待识别数据进行预处理,获得所述待识别数据的字符向量;
将所述字符向量输入至预先训练的基于字的命名实体识别模型中,输出表示所述待识别数据的命名实体信息的识别结果;
根据所述识别结果,确定所述待识别数据的命名实体;
其中,所述命名实体识别模型的训练特征向量包括训练数据的实体边界特征向量,用于提取训练数据的特征时,将同一命名实体的多个字符特征归一为相应命名实体的特征,以基于归一后的命名实体的特征进行模型参数训练。


2.根据权利要求1所述的方法,其特征在于,所述获取待识别数据之前,所述方法还包括:
获取训练数据,其中,所述训练数据为字符级数据,所述训练数据中包括命名实体标签信息;
对所述训练数据进行预处理,获得所述训练数据的字符向量和命名实体标签向量;
通过注意力机制,构建所述训练数据的实体边界特征向量,所述实体边界特征向量包括实体起始位置标记向量和实体长度标记向量;
将所述字符向量、所述命名实体标签向量、所述实体起始位置标记向量和所述实体长度标记向量拼接后输入至预先构建的模型中,训练所述预先构建的模型的参数,直至达到预设迭代次数或者模型损失值满足预设条件,得到所述命名实体识别模型。


3.根据权利要求2所述的方法,其特征在于,所述预先构建的模型为基于BI-LSTM-CRF的深度学习模型。


4.根据权利要求1所述的方法,其特征在于,所述根据所述识别结果,确定所述待识别数据的命名实体,包括:
根据所述识别结果,对所述待识别数据的字符级数据进行命名实体的标记,得到所述待识别数据的命名实体标签信息;
当所述字符级数据中预设字符的平行位置上,一个位置存在命名实体标签信息,另一个位置不存在命名实体标签信息时,利用所述一个位置上存在的命名实体标签信息,对所述另一个位置进行标记,以更新所述待识别数据的命名实体标签信息;
根据更新后的所述待识别数据的命名实体标签信息,确定所述待识别数据的命名实体。


5.根据权利要求1所述的方法,其特征在于,所述根据所述识别结果,确定所述待识别数据的命名实体,包括:
根据所述识别结果,对所述待识别数据的字符级数据进行命名实体的标记,得到所述待识别数据的命名实体标签信息;
根据所述待识别数据的命名实体标签信息,确定所述待识别数据的每一个命名实体;
对所述待识别数据进行分词,获得分词结果;
利用所述分词结果,对所述每一个命名实体进行字补齐处理,以更新所述待识别数据的命名实体标签信息;
根据更新后的所述待识别数据的命名实体标签信息,确定所述待识别数据的命名实体。


6.根据权利要求5所述的方法,其特征在于,所述利用所述分词结果,对所述每一个命名实体进行字补齐处理,包括:
确定所述每一个命名实体对应的分...

【专利技术属性】
技术研发人员:王惠欣胡珉
申请(专利权)人:中国移动通信有限公司研究院中国移动通信集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1