一种基于卷积神经网络的属性抽取方法技术

技术编号：15188380 阅读：1470 留言：1更新日期：2017-04-19 13:40

本发明专利技术公开了一种基于卷积神经网络的属性抽取方法。包括如下步骤：(1)构建外部知识库；(2)获取文本数据；(3)使用远程监督方法获取包含属性的句子；(4)利用词向量方法获取句子进行向量化；(5)将句子输入卷积神经网络，进行训练和分类。本发明专利技术结合远程监督和卷积神经网络模型，利用外部知识库，基于人工定义的映射，在非结构化的文本数据集上提取包含属性候选句，结合卷积神经网络模型，对句子关系进行分类，完成属性抽取任务。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本特征提取和属性抽取，尤其涉及一种基于卷积神经网络的属性抽取方法。
技术介绍
当今世界正处在一个信息大爆炸的时代，互联网的流行和高速发展产生了海量的信息资源。这些资源对于科技发展的意义是重大的，科学界需要从中提取出科学研究的基本素材，工业界需要从中挖掘出潜在的商机，因此如何利用这些互联网的信息资源是近些年来科技研究的主流方向之一。虽然互联网中的信息资源数量是巨大的，但是这些资源往往缺少结构化的特性。结构化数据指的是行数据，可以用二维表结构来表达的数据，而非结构化数据[2]的字段长度是可变的，不方便使用二维逻辑表来表达。由于这些资源很多是非结构化或者半结构化的数据，因而快速并有效地查找和理解这些数据受到了很大的限制。文本数据是互联网信息资源中的重要部分，互联网上的大部分文本数据也是非结构化的数据，例如新闻、博客、电子邮件、政府文档、聊天记录、系统日志等。为了能够高效地利用这些非结构化文本数据，信息抽取(InformationExtraction)技术应运而生-自动将输入页面中的非结构化或者半结构化的文本转化成结构化的数据。信息抽取任务通过输入和抽取的目标来定义，输入可以是使用自然语言编写的非结构化的文档，或者网页上的半结构化的文档；而抽取目标是k-元组(k是一条记录的属性数量)的关系或者一个复杂的层次化的数据对象。传统的属性抽取技术有着不少弊端，首先不论是基于规则还是基于分类算法，都需要较多的人工介入，比如基于规则的规则设计和基于分类的数据标注以及特征设计，而人工介入的成本是昂贵的，而且需要专业人员的标注才会得到较权威的人工数据，同时人工也...

【技术保护点】
一种基于卷积神经网络的属性抽取方法，其特征在于包括如下步骤1)获取Wikipedia的信息框数据，获取外部知识库；2)获取论坛和新闻数据，得到文本语料库；3)使用远程监督方法，对文本语料库进行搜索，获取包含属性的句子；4)基于词向量，先对每个词进行向量化描述，再把句子中的词向量聚集在一起，得到句子的向量化描述；5)将句子输入卷积神经网络，先对句子进行卷积计算，再针对卷积结果的最大值进行池化，最后输入softmax函数，得到分类结果；6)根据分类结果对应至属性值。

【技术特征摘要】
1.一种基于卷积神经网络的属性抽取方法，其特征在于包括如下步骤1)获取Wikipedia的信息框数据，获取外部知识库；2)获取论坛和新闻数据，得到文本语料库；3)使用远程监督方法，对文本语料库进行搜索，获取包含属性的句子；4)基于词向量，先对每个词进行向量化描述，再把句子中的词向量聚集在一起，得到句子的向量化描述；5)将句子输入卷积神经网络，先对句子进行卷积计算，再针对卷积结果的最大值进行池化，最后输入softmax函数，得到分类结果；6)根据分类结果对应至属性值。...

【专利技术属性】
技术研发人员：汤斯亮，吴飞，张金剑，蒋焕剑，庄越挺，鲁伟明，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人