一种命名实体提取方法及装置制造方法及图纸

技术编号:19479956 阅读:21 留言:0更新日期:2018-11-17 10:31
本申请实施例提供了一种命名实体提取方法及装置。其中,方法包括:对样本语料进行预处理,生成预设长度且带有标注的标准语料;构造标准语料中每个字符的特征向量;根据特征向量训练预设的长短期记忆网络,以获取每个字符的预测标签值;根据预测标签值和和字符的真实标签值优化预设的条件随机场模型;使用由长短期记忆网络和条件随机场模型组成的神经网络模型进行命名实体提取。本申请实施例提供的技术方案,通过控制标准语料的长度,构造能够表征更多语料特征的特征向量,以及,使用条件随机场模型优化神经网络模型的输出序列的方法,实现了在保证命名实体提取效率的同时,提高命名实体提取的准确性。

【技术实现步骤摘要】
一种命名实体提取方法及装置
本申请涉及自然语言处理
,尤其涉及一种命名实体提取方法及装置。
技术介绍
命名实体是指人名、机构名、地名以及其他所有以名称为标识的实体,更广泛地说,命名实体还包括数字、日期、货币、地址、数量短语等。命名实体识别(NamedEntityRecognitionNER)的主要任务就是从文本中提取出命名实体并加以归类。命名实体识别是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。命名实体识别常用的方法主要有:基于规则的方法、基于统计的方法以及规则和统计相结合的混合方法。其中,基于规则的实体识别方法需要人工制定进行识别规则,这种方法在构建规则的过程中需要大量的语言学知识,费时费力,规则构建成本高,容易出现规则之间的冲突问题。基于统计的方法,主要通过训练一些机器学习模型,并根据训练后的机器学习模型去进行命名实体的识别和提取。常用的机器学习算法有隐马尔可夫模型(HiddenMarkovModels)、最大熵模型(MaximumEntropyModels)、条件随机场(ConditionalRandomFields)等;但是,这些机器学习模型的识别命名实体准确性依赖于训练语料的规模及其约束条件,因此,为了提高准确性,构建机器学习模型时需要耗费大量的人工特征工程,而特征工程是比较耗费人力和时间资源的,从而导致机器学习模型构架的效率低下,无法满足信息快速更迭的需求。可见,如何能够同时提高命名实体提取的准确性和效率,成为本领域技术人员亟待解决的技术问题。
技术实现思路
本申请实施例提供了一种命名实体提取方法及装置,以解决现有技术中的命名实体提取方法准确率低和效率低的问题。第一方面,申请实施例提供了一种命名实体提取方法,包括:对样本语料进行预处理,生成预设长度且带有标注的标准语料,所述标注包括对标准语料中每个字符添加的标签和真实标签值;构造所述标准语料中每个字符的特征向量,所述特征向量由字符的词向量、位置特征向量和上下文特征向量拼接构成;根据所述特征向量训练预设的长短期记忆网络,以获取每个字符的预测标签值;根据所述预测标签值和所述真实标签值优化预设的条件随机场模型;使用由所述长短期记忆网络和所述条件随机场模型组成的神经网络模型进行命名实体提取。第二方面,申请实施例提供了一种命名实体提取装置,包括:预处理模块,用于对样本语料进行预处理,生成预设长度且带有标注的标准语料,所述标注包括对标准语料中每个字符添加的标签和真实标签值;特征向量构造模块,用于构造所述标准语料中每个字符的特征向量,所述特征向量由字符的词向量、位置特征向量和上下文特征向量拼接构成;长短期记忆网络训练模块,用于根据所述特征向量训练预设的长短期记忆网络,以获取每个字符的预测标签值;条件随机场模型优化模块,用于根据所述预测标签值和所述真实标签值优化预设的条件随机场模型;命名实体提取和评测模块,用于使用由所述长短期记忆网络和所述条件随机场模型组成的神经网络模型进行命名实体提取。由以上技术方案可知,本申请实施例提供了一种命名实体提取方法及装置。其中,该方法包括:首先,对样本语料进行预处理,生成预设长度且带有标注的标准语料,从而,避免了过长的样本语料直接输入到长短期记忆网络中导致长短期记忆网络的隐含层出现梯度消失现象;然后,构造由字符的词向量、位置特征向量和上下文特征向量拼接构成的特征向量,使本申请中的特征向量不仅能够表征字符的词嵌入特征,还能够表征在分词中的距离特征和分词的语义特征,以及,表征字符的上下文特征,从而,能够提高长短期记忆网络的预测精度;然后,根据特征向量训练预设的长短期记忆网络,以获取每个字符的预测标签值,以及,根据预测标签值和真实标签值优化预设的条件随机场模型,以优化神经网络模型的输出序列,从而,获得了可用于进行命名实体提取的精度更高的神经网络模型;最后,使用该神经网络模型进行命名实体提取。本申请实施例提供的技术方案,通过控制标准语料的长度,构造能够表征更多语料特征的特征向量,以及,使用条件随机场模型优化神经网络模型的输出序列的方法,实现了在保证命名实体提取效率的同时,提高命名实体提取的准确性。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请一示例性实施例示出的一种命名实体提取方法的流程图;图2是本申请一示例性实施例示出的一种命名实体提取方法步骤S110的流程图;图3是本申请一示例性实施例示出的位置特征向量生成方法的示意图;图4是本申请一示例性实施例示出的上下文特征向量生成方法的示意图;图5为本申请一示例性实施例示出的上下文特征取样的示意图;图6为本申请一示例性实施例示出的卷积运算过程的示意图;图7是本申请一示例性实施例示出的一种命名实体提取方法步骤S140的流程图;图8是本申请一示例性实施例示出的对神经网络模型进行准确性评测的流程图;图9是本申请一示例性实施例示出的一种命名实体提取装置的示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。为了解决现有技术中的命名实体提取方法准确率低和效率低的问题,本申请实施例提供了一种命名实体提取方法及装置。下面是本申请的方法实施例。图1是本申请一示例性实施例示出的一种命名实体提取方法的流程图。该方法可以应用于PC(个人电脑)、平板电脑、手机和服务器等多种设备。参见图1所示,该方法可以包括以下步骤:步骤S110,对样本语料进行预处理,生成预设长度且带有标注的标准语料,所述标注包括对标准语料中每个字符添加的标签和真实标签值。本申请中的样本语料可以是包含特定类型命名实体的文本片段,这个文本片段可以是一个或多个句子,也可以一个或多个段落。样本语料在本申请中的作用是用来训练神经网络模型,使神经网络模型具备命名实体提取的能力。但是样本语料不能被直接用于训练神经网络模型,这是由于:样本语料的原始的文本格式无法被神经网络模型接受的格式;并且,样本语料中没有对已知的命名实体进行标注,从而神经网络模型无法根据标注值去训练神经网络模型内部的各个神经网络层的权重;此外,专利技术人发现,样本语料由于来源不同,格式不统一,其长度也不确定,当使用长度过长的样本语料训练神经网络模型时,会影响到神经网络模型中隐含层的权重变化,从而导致神经网络的梯度消失现象的发生。本申请中,样本语料可以根据应用本申请的实际需求有针对性地采集。示例地,如果应用本申请提取金融行业的机构类命名实体,那么,样本语料可以从各大金融网站所发布的金融类报道中提取,也可以从金融行业内各个机构所发布的公告中提取。本申请对样本语料的来源不做具体限制,本领域普通技术人员可根据自身需求去有针对性地采集样本语料。为了帮助本领域技术人员充分理解本申请的技术方案和思想,下面结合具体示例,对步骤S本文档来自技高网
...

【技术保护点】
1.一种命名实体提取方法,其特征在于,包括:对样本语料进行预处理,生成预设长度且带有标注的标准语料,所述标注包括对标准语料中每个字符添加的标签和真实标签值;构造所述标准语料中每个字符的特征向量,所述特征向量由字符的词向量、位置特征向量和上下文特征向量拼接构成;根据所述特征向量训练预设的长短期记忆网络,以获取每个字符的预测标签值;根据所述预测标签值和所述真实标签值优化预设的条件随机场模型;使用由所述长短期记忆网络和所述条件随机场模型组成的神经网络模型进行命名实体提取。

【技术特征摘要】
1.一种命名实体提取方法,其特征在于,包括:对样本语料进行预处理,生成预设长度且带有标注的标准语料,所述标注包括对标准语料中每个字符添加的标签和真实标签值;构造所述标准语料中每个字符的特征向量,所述特征向量由字符的词向量、位置特征向量和上下文特征向量拼接构成;根据所述特征向量训练预设的长短期记忆网络,以获取每个字符的预测标签值;根据所述预测标签值和所述真实标签值优化预设的条件随机场模型;使用由所述长短期记忆网络和所述条件随机场模型组成的神经网络模型进行命名实体提取。2.根据权利要求1所述的方法,其特征在于,所述对样本语料进行预处理,生成预设长度且带有标注的标准语料,所述标注包括对标准语料中每个字符添加的标签和真实标签值,包括:将所述样本语料切分成多个预设长度区间的语料片段;将切分得到的所述语料片段转换成每行仅包含一个字符的列数据;对所述列数据中的每个字符添加标签,并对每个标签设置所述真实标签值。3.根据权利要求1所述的方法,其特征在于,所述标签包括:第一类标签,用于标记命名实体的首个字符;第二类标签,用于标记命名实体的除首个字符以外的其他字符;第三类标签,用于标记非命名实体字符。4.根据权利要求3所述的方法,其特征在于,所述命名标签还包括:类别标签,位于所述第一类标签和所述第二类标签之后,用于标注所述命名实体的类型。5.根据权利要求1所述的方法,其特征在于,所述词向量通过以下步骤生成:将每个字符的初始词向量作为词向量训练模型输入端的输入,将每个字符上下词的初始词向量作为词向量训练模型输出端的输入,以训练获得每个字符的所述词向量;或者,将每个字符上下文的初始词向量作为词向量训练模型输入端的输入,将每个字符的初始词向量作为词向量训练模型输出端的输入,以训练获得每个字符的所述词向量。6.根据权利要求1所述的方法,其特征在于,所述位置特征向量通过以下步骤生成:对所述标准语料进行分词,并获取分词得到的每个分词的词长;将分词的词长转换成分词的位置信息;利用词嵌入将分词的所述位置...

【专利技术属性】
技术研发人员:熊文灿廖翔周继烈张昊刘铭李俊
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1