一种中文实体属性抽取方法技术

技术编号：18083881 阅读：43 留言：0更新日期：2018-05-31 12:24

本发明专利技术公开了一种中文实体属性抽取方法，该方法包括提取百度百科词条页面的文本、使用词条标签对页面过滤、使用剩余页面中信息框的数据进行远程标注获得训练数据、对训练数据进行分词和泛化、将泛化后的训练数据转化为词向量，然后经过分类器后得到分类结果，并填充到对应类别的属性槽中；本中文实体属性抽取方法，不需要人工定义特征以及其他的额外资源，得益于双向LSTM模型能从句子正反两个方向利用以前信息和未来信息进行特征学习的特性，在实体属性抽取任务中具有更高的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种中文实体属性抽取方法
本专利技术涉及信息抽取
，具体为一种中文实体属性抽取方法。
技术介绍
随着互联网的飞速发展，通过网络获取的数据也呈指数级增长，如何从这些海量数据中快速、准确地分析出真正有用的信息，显得尤为关键和紧迫。而这正是信息抽取这一研究领域力图解决的问题。实体属性、关系抽取是信息抽取任务之一，目的是从非结构化文本中抽取实体属性以及实体之间的关系。该任务是基于命名实体识别的一种更深层次的研究，能够为事件抽取，自动问答，机器翻译以及自然语言处理相关领域的研究提供前提保障。目前，中文实体属性抽取算法主要有两种，第一种是基于规则匹配的方法，对于开放网页文本结构不固定、数据源格式众多的特点，该方法不仅要定义大量的规则，而且匹配效率很低，不利于工程推广。第二种是一个是基于传统机器学习算法实现，最常用的是SVM模型以及最大熵模型，SVM是一种可用于分类和回归问题的、较为复杂的机器学习算法模型，主要是一个线性分类的过程。通过在特征空间中找到一个分离超平面，从而将各样本的特征划分到不同的类别中。最大熵原理认为，学习概率模型时,在所有可能的概率模型中,熵值最大的模型是最好的模型。也就是说，当我们需要对一个随机事件的概率分布进行预测时，我们的预测应当满足全部已知的条件，而对未知的情况不要做任何主观假设。然而对于自然语言的语义分析任务，传统的机器学习算法，对训练数据有极强的依赖性，需要人工标注大量数据，而且只能使用浅层的特征对数据分类，致使抽取性能较差。机器对中文句子进行语义理解一直以来是NLP中的一个难题，但随着人工神经网络（ANN）对数据的理解逐渐加深，人...
一种中文实体属性抽取方法

【技术保护点】
一种中文实体属性抽取方法，其特征在于，包括以下抽取步骤：S1：提取百度百科词条页面的文本，从中获得百科信息框、词条标签等信息；S2：使用词条标签对页面过滤，保留与目标类标签相关的词条页面；S3：将过滤后的词条页面中信息框的数据作为输入，使用远距离监督方式抽取出自动标注的训练数据；S4：对训练数据进行分词和泛化；S5：使用Word2Vec工具，将泛化后的训练数据转化为词向量；S6：将处理后的词向量作为抽取分类器的训练集，迭代训练双向LSTM深度学习网络分类器；S7：对自由文本重复步骤S4的方法进行分词和泛化，然后经过分类器得到分类结果，并填充到类别对应的属性槽中。

【技术特征摘要】
1.一种中文实体属性抽取方法，其特征在于，包括以下抽取步骤：S1：提取百度百科词条页面的文本，从中获得百科信息框、词条标签等信息；S2：使用词条标签对页面过滤，保留与目标类标签相关的词条页面；S3：将过滤后的词条页面中信息框的数据作为输入，使用远距离监督方式抽取出自动标注的训练数据；S4：对训练数据进行分词和泛化；S5：使用Word2Vec工具，将泛化后的训练数据转化为词向量；S6：将处理后的词向量作为抽取分类器的训练集，迭代训练双向LSTM深度学习网络分类器；S7：对自由文本重复步骤S4的方法进行分词和泛化，然后经过分类器得到分类结果，并填充到类别对应的属性槽中。2.根据权利要求1所述的一种中文实体属性抽取方法，其特征在于，所述步骤S1包括以下提取过程：S1-1：假设待爬取URL集合W=ø，已爬URL集合A=ø，选择种子页面集合P，则W=P；S1-2：从W中选择一个URL，p，爬取页面提取出其中的标签、信息框数据，以及网页中所有的百科和百度域名下的锚文本集合L，则A=A∪，W=W-{p}+；S1-3：循环上述S1-2过程，直至W=ø；S1-4：若数据集不够，则选择新的种子，重复S1-2过程到S1-3过程；S1-5：否则，停...

【专利技术属性】
技术研发人员：赫中翮，王志超，周忠诚，
申请(专利权)人：北京高地信息技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人