一种命名实体提取方法及装置制造方法及图纸

技术编号：19479956 阅读：21 留言：0更新日期：2018-11-17 10:31

本申请实施例提供了一种命名实体提取方法及装置。其中，方法包括：对样本语料进行预处理，生成预设长度且带有标注的标准语料；构造标准语料中每个字符的特征向量；根据特征向量训练预设的长短期记忆网络，以获取每个字符的预测标签值；根据预测标签值和和字符的真实标签值优化预设的条件随机场模型；使用由长短期记忆网络和条件随机场模型组成的神经网络模型进行命名实体提取。本申请实施例提供的技术方案，通过控制标准语料的长度，构造能够表征更多语料特征的特征向量，以及，使用条件随机场模型优化神经网络模型的输出序列的方法，实现了在保证命名实体提取效率的同时，提高命名实体提取的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种命名实体提取方法及装置
本申请涉及自然语言处理
，尤其涉及一种命名实体提取方法及装置。
技术介绍
命名实体是指人名、机构名、地名以及其他所有以名称为标识的实体，更广泛地说，命名实体还包括数字、日期、货币、地址、数量短语等。命名实体识别(NamedEntityRecognitionNER)的主要任务就是从文本中提取出命名实体并加以归类。命名实体识别是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。命名实体识别常用的方法主要有：基于规则的方法、基于统计的方法以及规则和统计相结合的混合方法。其中，基于规则的实体识别方法需要人工制定进行识别规则，这种方法在构建规则的过程中需要大量的语言学知识，费时费力，规则构建成本高，容易出现规则之间的冲突问题。基于统计的方法，主要通过训练一些机器学习模型，并根据训练后的机器学习模型去进行命名实体的识别和提取。常用的机器学习算法有隐马尔可夫模型(HiddenMarkovModels)、最大熵模型(MaximumEntropyModels)、条件随机场(ConditionalRandomFields)等；但是，这些机器学习模型的识别命名实体准确性依赖于训练语料的规模及其约束条件，因此，为了提高准确性，构建机器学习模型时需要耗费大量的人工特征工程，而特征工程是比较耗费人力和时间资源的，从而导致机器学习模型构架的效率低下，无法满足信息快速更迭的需求。可见，如何能够同时提高命名实体提取的准确性和效率，成为本领域技术人员亟待解决的技术问题。
技术实现思路
本申请实施例提供了一种命名实体提取方法及装置，以...

【技术保护点】
1.一种命名实体提取方法，其特征在于，包括：对样本语料进行预处理，生成预设长度且带有标注的标准语料，所述标注包括对标准语料中每个字符添加的标签和真实标签值；构造所述标准语料中每个字符的特征向量，所述特征向量由字符的词向量、位置特征向量和上下文特征向量拼接构成；根据所述特征向量训练预设的长短期记忆网络，以获取每个字符的预测标签值；根据所述预测标签值和所述真实标签值优化预设的条件随机场模型；使用由所述长短期记忆网络和所述条件随机场模型组成的神经网络模型进行命名实体提取。

【技术特征摘要】
1.一种命名实体提取方法，其特征在于，包括：对样本语料进行预处理，生成预设长度且带有标注的标准语料，所述标注包括对标准语料中每个字符添加的标签和真实标签值；构造所述标准语料中每个字符的特征向量，所述特征向量由字符的词向量、位置特征向量和上下文特征向量拼接构成；根据所述特征向量训练预设的长短期记忆网络，以获取每个字符的预测标签值；根据所述预测标签值和所述真实标签值优化预设的条件随机场模型；使用由所述长短期记忆网络和所述条件随机场模型组成的神经网络模型进行命名实体提取。2.根据权利要求1所述的方法，其特征在于，所述对样本语料进行预处理，生成预设长度且带有标注的标准语料，所述标注包括对标准语料中每个字符添加的标签和真实标签值，包括：将所述样本语料切分成多个预设长度区间的语料片段；将切分得到的所述语料片段转换成每行仅包含一个字符的列数据；对所述列数据中的每个字符添加标签，并对每个标签设置所述真实标签值。3.根据权利要求1所述的方法，其特征在于，所述标签包括：第一类标签，用于标记命名实体的首个字符；第二类标签，用于标记命名实体的除首个字符以外的其他字符；第三类标签，用于标记非命名实体字符。4.根据权利要求3所述的方法，其特征在于，所述命名标签还包括：类别标签，位于所述第一类标签和所述第二类标签之后，用于标注所述命名实体的类型。5.根据权利要求1所述的方法，其特征在于，所述词向量通过以下步骤生成：将每个字符的初始词向量作为词向量训练模型输入端的输入，将每个字符上下词的初始词向量作为词向量训练模型输出端的输入，以训练获得每个字符的所述词向量；或者，将每个字符上下文的初始词向量作为词向量训练模型输入端的输入，将每个字符的初始词向量作为词向量训练模型输出端的输入，以训练获得每个字符的所述词向量。6.根据权利要求1所述的方法，其特征在于，所述位置特征向量通过以下步骤生成：对所述标准语料进行分词，并获取分词得到的每个分词的词长；将分词的词长转换成分词的位置信息；利用词嵌入将分词的所述位置...

【专利技术属性】
技术研发人员：熊文灿，廖翔，周继烈，张昊，刘铭，李俊，
申请(专利权)人：北京神州泰岳软件股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人