一种命名实体识别方法及装置制造方法及图纸

技术编号:19691974 阅读:25 留言:0更新日期:2018-12-08 11:13
本申请实施例提供了一种命名实体识别方法及装置,能够从预测文本序列的发射概率矩阵获取高置信度的发射概率作为第一类可信结果,并使用第一类可信结果的置信度对第一类可信结果进行自加权,生成优化的发射概率矩阵,以提高第一类可信结果对求解最大概率路径的贡献度;能够从预测文本序列的转移概率矩阵获取高梯度值的转移概率作为第二类可信结果,并使用第二类可信结果的梯度值对第二类可信结果进行自加权,以提高第二类可信结果对求解最大概率路径的贡献度,生成优化的转移概率矩阵,通过优化的发射概率矩阵和优化的转移概率矩阵引导最大概率路径朝着更贴近命名实体真实结果的方向去产生,提高了基于隐马尔可夫模型进行命名实体识别的准确性。

【技术实现步骤摘要】
一种命名实体识别方法及装置
本申请涉及自然语言处理
,尤其涉及一种命名实体识别方法及装置。
技术介绍
在自然语言处理
,命名实体识别是一项基础任务,其目的是识别语料中人名、地名、组织机构名等命名实体,为信息抽取等任务做铺垫。命名实体识别的应用极为广泛,例如从警情语料中提取出地址信息、从电商的搜索结果中识别产品名称等。现有技术的命名实体识别方法主要包括基于规则的方法和基于统计的方法等。其中,基于统计的方法主要通过训练一些机器学习模型,并根据训练后的机器学习模型去进行命名实体识别,这些机器学习模型包括:隐马尔可夫模型(HiddenMarkovMode,HMM)、较大熵(MaximumEntropy,ME)、支持向量机(SupportVectorMachine,SVM)、条件随机场(ConditionalRandomFields,CRF)等。在这些模型对文本进行命名实体的预测标注时,可以使用维特比(Veterbi)算法作为预测结果的最优解的求解算法。现有技术,在使用隐马尔可夫模型和维特比算法进行求解时存在着一些问题,例如:该维特比算法只计算预测结果的局部最优解,对预测结果的全局最优解缺乏考虑等。从而,导致现有技术中基于隐马尔可夫模型进行命名实体识别时,其预测结果的准确性还有待提升。
技术实现思路
本申请实施例提供了一种命名实体识别方法及装置,以解决现有技术中基于统计的机器学习模型在进行命名实体识别时,预测结果的准确性不高的问题。第一方面,本申请实施例提供了一种命名实体识别方法,包括:获取预测文本序列的发射概率矩阵和转移概率矩阵;获取所述发射概率矩阵的基准置信度序列;根据所述基准置信度序列从所述发射概率矩阵中获取第一类可信结果;使用所述第一类可信结果的置信度优化所述发射概率矩阵;使用优化的所述发射概率矩阵和所述转移概率矩阵产生命名实体识别模型的最优解;其中,所述基准置信度序列包括所述发射概率矩阵中每个发射概率的基准置信度。第二方面,本申请实施例提供了一种命名实体识别装置,包括:预测模型模块,用于获取预测文本序列的发射概率矩阵和转移概率矩阵;第一获取模块,用于获取所述发射概率矩阵的基准置信度序列;第二获取模块,用于根据所述基准置信度序列从所述发射概率矩阵中获取第一类可信结果;第一优化模块,用于使用所述第一类可信结果的置信度优化所述发射概率矩阵;求解模块,用于使用优化的所述发射概率矩阵和所述转移概率矩阵产生命名实体识别模型的最优解;其中,所述基准置信度序列包括所述发射概率矩阵中每个发射概率的基准置信度。由以上技术方案可知,本申请实施例提供了一种命名实体识别方法及装置,其中,该方法包括:获取预测文本序列的发射概率矩阵和转移概率矩阵;获取发射概率矩阵的基准置信度序列;根据基准置信度序列从发射概率矩阵中获取第一类可信结果;使用第一类可信结果的置信度优化发射概率矩阵;使用优化的发射概率矩阵和转移概率矩阵产生命名实体识别的最优解;其中,基准置信度序列包括所述发射概率矩阵中每个发射概率的基准置信度。本申请实施例提供的技术方案,能够从预测文本序列的发射概率矩阵获取高置信度的发射概率作为第一类可信结果,并使用第一类可信结果的置信度对第一类可信结果进行自加权,生成优化的发射概率矩阵,以提高第一类可信结果对求解最大概率路径的贡献度,通过优化的发射概率矩阵引导最大概率路径朝着更贴近命名实体的真实结果的方向去产生,从而,提高了基于隐马尔可夫模型进行命名实体识别的准确性。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请一示例性实施例示出的一种命名实体识别方法的流程图;图2是隐马尔可夫链的示意图;图3是本申请一示例性实施例示出的一种命名实体识别方法步骤S120的流程图;图4是本申请一示例性实施例示出的一种命名实体识别方法步骤S130的流程图;图5为本申请一示例性实施例示出的另一种命名实体识别方法的流程图;图6是本申请一示例性实施例示出的优化最优解的产生过程的示意图;图7是本申请一示例性实施例示出的一种命名实体识别装置的示意图;图8是本申请一示例性实施例示出的另一种命名实体识别装置的示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。为了提高自然语言处理
中使用隐马尔可夫模型进行命名实体识别的准确性,本申请提供了一种命名实体识别方法及装置。下面是本申请的方法实施例。图1是本申请一示例性实施例示出的一种命名实体识别方法的流程图。该方法可以应用于服务器、PC(个人电脑)、平板电脑和手机等多种设备中。参见图1所示,该方法可以包括以下步骤:步骤S110,获取预测文本序列的发射概率矩阵和转移概率矩阵。隐马尔可夫模型(HMM)是一种典型的基于统计的机器学习模型,主要由初始概率、转移概率分布和发射概率分布(也称观测概率分布)组成。图2是隐马尔可夫链的示意图,如图2所示,在隐马尔可夫链中,上面一行节点表示机器学习模型的预测序列在隐含层之间传递的概率(即:转移概率),从上面一行节点到下面一行节点表示机器学习模型的预测序列在隐含层至可见状态之间传递的概率(即:发射概率)。现有技术通过维特比算法从隐马尔可夫模型的中确定出一条最优路径,作为命名实体识别的最优解。但是,现有技术的维特比算法在计算最优路径时,仅仅是横向比较路径上某个节点前后的转移概率,是一种局部最优解的求解算法,对全局最优解的求解计算缺失;并且,现有技术的维特比算法在求解最优路径时,对发射概率矩阵的置信度不做处理,导致发射概率矩阵中的所有节点无论其预测结果是否准确都在计算时的权重一致,从而影响求解的准确性。本申请中,通过使用基于字序标注的BI-LSTM模型获取预测文本序列的发射概率矩阵和转移概率矩阵。其中,BI-LSTM模型可以通过将基于字的BIE标注的样本语料的词向量序列输入到LSTM(长短期记忆网络)模型中训练获得。BIE标注是一种序列标注方法,对于字的BIE标注来说,一个句子、一个文本段落等可以视为一个序列,序列中的每个字可以看作一个元素,序列标注就是要把序列中的每个元素都添加上对应的标签。本申请基于命名实体识别的需求,使用BIE标注的方法对样本语料进行序列标注,根据元素是否属于命名实体,可将元素标注为:B、I、E、O,以及S等。其中,B用于标注命名实体的起始字符、I用于标注命名实体的中间字符、E用于标注命名实体的结尾字符、O用于标注非命名实体字符、S用于标注单独成词的字符。一组被标注的样本语料例如可以是以下形式:工-B商-I银-I行-E的-S行-O情-O本申请在训练获得BI-LSTM模型时,使用词向量训练模型训练获得样本语料中字符的词向量,然后将已标注的样本语料的词向量序列输入到BI-LSTM模型中以训练获得可用于产生预测文本序列的发射本文档来自技高网
...

【技术保护点】
1.一种命名实体识别方法,其特征在于,包括:获取预测文本序列的发射概率矩阵和转移概率矩阵;获取所述发射概率矩阵的基准置信度序列;根据所述基准置信度序列从所述发射概率矩阵中获取第一类可信结果;使用所述第一类可信结果的置信度优化所述发射概率矩阵;使用优化的所述发射概率矩阵和所述转移概率矩阵产生命名实体识别的最优解;其中,所述基准置信度序列包括所述发射概率矩阵中每个发射概率的基准置信度。

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,包括:获取预测文本序列的发射概率矩阵和转移概率矩阵;获取所述发射概率矩阵的基准置信度序列;根据所述基准置信度序列从所述发射概率矩阵中获取第一类可信结果;使用所述第一类可信结果的置信度优化所述发射概率矩阵;使用优化的所述发射概率矩阵和所述转移概率矩阵产生命名实体识别的最优解;其中,所述基准置信度序列包括所述发射概率矩阵中每个发射概率的基准置信度。2.根据权利要求1所述的方法,其特征在于,还包括:获取所述转移概率矩阵的梯度值序列;根据所述梯度值序列从所述转移概率矩阵中获取第二类可信结果;使用所述第二类可信结果的梯度值优化所述转移概率矩阵;使用优化的所述发射概率矩阵和优化的所述转移概率矩阵产生命名实体识别的最优解;其中,所述梯度值序列包括所述转移概率矩阵中每个转移概率的梯度值。3.根据权利要求1所述的方法,其特征在于,所述获取发射概率矩阵的基准置信度序列,包括:所述发射概率矩阵中获取连续N个预测节点的发射概率;根据N个预测节点的发射概率分别计算每个预测节点的置信度;对计算得到的N个置信度取均值作为第N+1个预测节点的基准置信度;依次获取所述发射概率矩阵中每个预测节点的基准置信度,以得到所述基准置信度序列。4.根据权利要求3所述的方法,其特征在于,所述根据基准置信度序列从所述发射概率矩阵中获取第一类可信结果,包括:将所述发射概率矩阵中每个预测节点的置信度与所述基准置信度序列中对应的基准置信度进行数值比较;如果预测节点的置信度大于对应的基准置信度,则所述预测节点的发射概率为第一类可信结果。5.根据权利要求4所述的方法,其特征在于,所述使用第一类可信结果的置信度优化所述发射概率矩阵,包括:使用所...

【专利技术属性】
技术研发人员:秦海宁单培李士勇张瑞飞李广刚
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1