基于人工智能的命名实体识别方法及装置制造方法及图纸

技术编号:14836632 阅读:59 留言:0更新日期:2017-03-17 04:05
本申请公开了一种基于人工智能的命名实体识别方法及装置,其中,该方法包括:根据条件随机场模型,对待识别文本进行命名实体识别,确定第一识别结果;根据预设的实体词汇功能模型,对待识别文本进行命名实体识别,确定第二识别结果,其中预设的实体词汇功能模型为基于预设时间段内的检索日志生成的功能模型;判断第一识别结果和第二识别结果是否一致;若否,则选择置信度高的识别结果作为待识别文本的命名实体识别结果。由此,通过利用条件随机场模型和根据预设时间段内的检索日志生成的功能模型,同时对待识别文本进行识别,能够保证对时效性较高的待识别文本进行准确识别,提高了命名实体识别的时效性、准确性和准确率。

【技术实现步骤摘要】

本申请涉及自然语言
,尤其涉及一种基于人工智能的命名实体识别方法及装置
技术介绍
人工智能(ArtificialIntelligence,简称AI)。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。自然语言处理是人工智能的一个重要方向,而命名实体识别(NameEntityRecognition,NER)是其研究中重要且不可缺少的一步。随着互联网信息量的迅速增长和网络文化的发展,网络用语中新词层出不穷,旧词语义日新月异,例如“小苹果”、“亲爱的”、“饿了么”等。其中,绝大部份新词、新意都是实体词汇、词义,即描述现实世界中存在的人、事物以及概念的词。大量的新词和不断变化的语义使得自然语言处理中命名实体的识别十分困难。相关技术中,提出监督的机器学习模型或者是简单词典、规则匹配的命名实体识别方法。然而,有监督的机器学习模型虽然准确率高,但是需要大量人工标注的训练语料,使得模型的更新成本高,更新频率低,从而模型的时效性差,简单词典、规则匹配的命名实体识别方法准确率较低。
技术实现思路
本申请的目的旨在至少在一定程度上解决上述的技术问题之一。为此,本申请的第一个目的在于提出一种基于人工智能的命名实体识别方法,该方法通过利用条件随机场模型和根据预设时间段内的检索日志生成的功能模型,同时对待识别文本进行识别,能够保证对时效性较高的待识别文本进行准确识别,提高了命名实体识别的时效性、准确性和准确率。本申请的第二个目的在于提出了一种基于人工智能的命名实体识别装置。本申请的第三个目的在于提出了另一种基于人工智能的命名实体识别装置。本申请的第四个目的在于提出了一种非临时性计算机可读存储介质。本申请的第五个目的在于提出了一种计算机程序产品。为达上述目的,根据本申请第一方面实施例提出的一种基于人工智能的命名实体识别方法,包括以下步骤:根据条件随机场模型(ConditionalRandomField,简称CRF),对待识别文本进行命名实体识别,确定第一识别结果;根据预设的实体词汇功能模型,对待识别文本进行命名实体识别,确定第二识别结果,其中所述预设的实体词汇功能模型为基于预设时间段内的检索日志生成的功能模型;判断所述第一识别结果和第二识别结果是否一致;若否,则选择置信度高的识别结果作为所述待识别文本的命名实体识别结果。本申请实施例的基于人工智能的命名实体识别方法,首先根据条件随机场模型,对待识别文本进行命名实体识别,确定第一识别结果,然后根据预设的实体词汇功能模型,对待识别文本进行命名实体识别,确定第二识别结果,并判断第一识别结果和第二识别结果是否一致,最后在第一识别结果和第二识别结果一致时选择置信度高的识别结果作为待识别文本的命名实体识别结果。由此,通过利用条件随机场模型和根据预设时间段内的检索日志生成的功能模型,同时对待识别文本进行识别,能够保证对时效性较高的待识别文本进行准确识别,提高了命名实体识别的时效性、准确性和准确率。为达上述目的,根据本申请的第二方面实施例提出的一种基于人工智能的命名实体识别装置,包括:第一确定模块,用于根据条件随机场模型,对待识别文本进行命名实体识别,确定第一识别结果;第二确定模块,用于根据预设的实体词汇功能模型,对待识别文本进行命名实体识别,确定第二识别结果,其中所述预设的实体词汇功能模型为基于预设时间段内的检索日志生成的功能模型;判断模块,用于判断所述第一识别结果和第二识别结果是否一致;选择模块,用于在所述第一识别结果和第二识别结果不一致时,选择置信度高的识别结果作为所述待识别文本的命名实体识别结果。本申请实施例的基于人工智能的命名实体识别装置,首先根据条件随机场模型,对待识别文本进行命名实体识别,确定第一识别结果,然后根据预设的实体词汇功能模型,对待识别文本进行命名实体识别,确定第二识别结果,并判断第一识别结果和第二识别结果是否一致,最后在第一识别结果和第二识别结果一致时选择置信度高的识别结果作为待识别文本的命名实体识别结果。由此,通过利用条件随机场模型和根据预设时间段内的检索日志生成的功能模型,同时对待识别文本进行识别,能够保证对时效性较高的待识别文本进行准确识别,提高了命名实体识别的时效性、准确性和准确率。为达上述目的,根据本申请的第三方面实施例提出的一种基于人工智能的命名实体识别装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:根据条件随机场模型(ConditionalRandomField,简称CRF),对待识别文本进行命名实体识别,确定第一识别结果;根据预设的实体词汇功能模型,对待识别文本进行命名实体识别,确定第二识别结果,其中所述预设的实体词汇功能模型为基于预设时间段内的检索日志生成的功能模型;判断所述第一识别结果和第二识别结果是否一致;若否,则选择置信度高的识别结果作为所述待识别文本的命名实体识别结果。为达上述目的,根据本申请的第四方面实施例提出的一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器被执行时,使得移动终端能够执行一种基于人工智能的命名实体识别方法,所述方法包括:根据条件随机场模型(ConditionalRandomField,简称CRF),对待识别文本进行命名实体识别,确定第一识别结果;根据预设的实体词汇功能模型,对待识别文本进行命名实体识别,确定第二识别结果,其中所述预设的实体词汇功能模型为基于预设时间段内的检索日志生成的功能模型;判断所述第一识别结果和第二识别结果是否一致;若否,则选择置信度高的识别结果作为所述待识别文本的命名实体识别结果。为达上述目的,根据本申请的第五方面实施例提出的一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种基于人工智能的命名实体识别方法,所述方法包括:根据条件随机场模型(ConditionalRandomField,简称CRF),对待识别文本进行命名实体识别,确定第一识别结果;根据预设的实体词汇功能模型,对待识别文本进行命名实体识别,确定第二识别结果,其中所述预设的实体词汇功能模型为基于预设时间段内的检索日志生成的功能模型;判断所述第一识别结果和第二识别结果是否一致;若否,则选择置信度高的识别结果作为所述待识别文本的命名实体识别结果。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1是根据本申请一个实施例的基于人工智能的命名实体识别方法的流程图;图2是根据本申请一个实施例的确定普通语义先验的示意图;图3是根据本申请另一个实施例的基于人工智能的命名实体识别方法的流程图;图4是根据本申请一个实施例的确定实体类别先验的示意图;图5是根据本申请一个实施例的基于人工智能的命名实体识别装置的结构示意图;以及图6是根据本申请另一个实施例的基于人工智能的命名实体识别装置的结构示意图。本文档来自技高网...
基于人工智能的命名实体识别方法及装置

【技术保护点】
一种基于人工智能的命名实体识别方法,其特征在于,包括以下步骤:根据条件随机场模型,对待识别文本进行命名实体识别,确定第一识别结果;根据预设的实体词汇功能模型,对待识别文本进行命名实体识别,确定第二识别结果,其中所述预设的实体词汇功能模型为基于预设时间段内的检索日志生成的功能模型;判断所述第一识别结果和第二识别结果是否一致;若否,则选择置信度高的识别结果作为所述待识别文本的命名实体识别结果。

【技术特征摘要】
1.一种基于人工智能的命名实体识别方法,其特征在于,包括以下步骤:根据条件随机场模型,对待识别文本进行命名实体识别,确定第一识别结果;根据预设的实体词汇功能模型,对待识别文本进行命名实体识别,确定第二识别结果,其中所述预设的实体词汇功能模型为基于预设时间段内的检索日志生成的功能模型;判断所述第一识别结果和第二识别结果是否一致;若否,则选择置信度高的识别结果作为所述待识别文本的命名实体识别结果。2.如权利要求1所述的方法,其特征在于,所述预设的实体词汇功能模型中包括实体词汇的切分歧义先验、普通语义先验和实体特征库;所述根据预设的实体词汇功能模型,对待识别文本进行命名实体识别,确定第二识别结果,包括:确定所述待识别文本中包括的候选命名实体词汇;确定所述候选命名实体词汇分别对应的切分歧义先验、普通语义先验和实体特征匹配结果;根据所述候选命名实体词汇分别对应的切分歧义先验、普通语义先验和实体特征匹配结果,确定所述候选命名实体词汇分别对应的置信度;从所述候选命名实体词汇中,将置信度最高的第一命名实体词汇确定为第二识别结果。3.如权利要求2所述的方法,其特征在于,所述将置信度最高的第一命名实体词汇确定为第二识别结果之前,还包括:判断所述第一命名实体词汇,是否对应至少两个实体类别或者实体;若是,则根据所述待识别文本上下文特征,确定与所述第一命名实体词汇对应的至少两个实体类别或者实体,分别对应的置信度。4.如权利要求3所述的方法,其特征在于,还包括:判断所述待识别文本的上下文特征是否完整;若否,则根据所述预设的实体词汇功能模型中的实体类别先验和实体需求度,确定与所述第一命名实体词汇对应的至少两个实体类别或者实体,分别对应的置信度。5.如权利要求1所述的方法,其特征在于,所述根据预设的实体词汇功能模型,对待识别文本进行命名实体识别,确定第二识别结果之前,还包括:获取预设时间段内的检索日志;确定检索日志中包括的第一实体词汇的切分歧义先验、普通语义先验、实体特征库、实体类别先验和实体用户需求度。6.如权利要求5所述的方法,其特征在于,确定所述检索日志中包括的第一实体词汇的切分歧义先验,包括:统计所述检索日志中,第一实体词汇的边界与分词边界发生冲突的概率、及所述第一实体词汇的边界被其他实体词汇覆盖的概率;根据所述第一实体词汇的边界与分词边界发生冲突的概率、和/或所述第一实体词汇的边界被其他实体词汇覆盖的概率,确定所述第一实体词汇的切分歧义。7.如权利要求5所述的方法,其特征在于,所述确定所述检索日志中包括的第一实体词汇的普通语义先验,包括:根据所述第一实体词汇,在检索日志中的位置分布概率、时间分布概率、类别分布概率及在词典中的词性,确定所述第一实体词汇的普通语义先验。8.如权利要求5所述的方法,其特征在于,所述确定所述检索日志中包括的第一实体词汇的实体特征库,包括:根据所述第一实体词汇,在所述检索日志中的所有关联特征,确定所述第一实体词汇的实体特征库。9.如权利要求5所述的方法,其特征在于,所述确定所述检索日志中包括的第一实体词汇的实体类别先验,包括:根据所述第一实体词汇的构词成分分类,及在所述检索日志中的所有关联特征的分类比例、对应的检索结果的分类比例,确定所述第一实体词汇的实体类别先验。10.如权利要求5所述的方法,其特征在于,所述确定所述检索日志中包括的第一实体词汇的实体用户需求度,包括:根据所述第一实体词汇的不同实体义项,在所述检索日志中所占的比例,确定所述第一实体词汇的实体用户需求度。11.一种基于人工智能的命名实体识别装置,其特征在于,包括:第一确定模块,用于根据条件随机场模型,对待识别文本进行命名实体识别,确定第一识别...

【专利技术属性】
技术研发人员:胡腾孙叔琦郭伟东刘兵孙珂
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1