当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于卷积神经网络的属性抽取方法技术

技术编号:15188380 阅读:1470 留言:1更新日期:2017-04-19 13:40
本发明专利技术公开了一种基于卷积神经网络的属性抽取方法。包括如下步骤:(1)构建外部知识库;(2)获取文本数据;(3)使用远程监督方法获取包含属性的句子;(4)利用词向量方法获取句子进行向量化;(5)将句子输入卷积神经网络,进行训练和分类。本发明专利技术结合远程监督和卷积神经网络模型,利用外部知识库,基于人工定义的映射,在非结构化的文本数据集上提取包含属性候选句,结合卷积神经网络模型,对句子关系进行分类,完成属性抽取任务。

【技术实现步骤摘要】

本专利技术涉及文本特征提取和属性抽取,尤其涉及一种基于卷积神经网络的属性抽取方法
技术介绍
当今世界正处在一个信息大爆炸的时代,互联网的流行和高速发展产生了海量的信息资源。这些资源对于科技发展的意义是重大的,科学界需要从中提取出科学研究的基本素材,工业界需要从中挖掘出潜在的商机,因此如何利用这些互联网的信息资源是近些年来科技研究的主流方向之一。虽然互联网中的信息资源数量是巨大的,但是这些资源往往缺少结构化的特性。结构化数据指的是行数据,可以用二维表结构来表达的数据,而非结构化数据[2]的字段长度是可变的,不方便使用二维逻辑表来表达。由于这些资源很多是非结构化或者半结构化的数据,因而快速并有效地查找和理解这些数据受到了很大的限制。文本数据是互联网信息资源中的重要部分,互联网上的大部分文本数据也是非结构化的数据,例如新闻、博客、电子邮件、政府文档、聊天记录、系统日志等。为了能够高效地利用这些非结构化文本数据,信息抽取(InformationExtraction)技术应运而生-自动将输入页面中的非结构化或者半结构化的文本转化成结构化的数据。信息抽取任务通过输入和抽取的目标来定义,输入可以是使用自然语言编写的非结构化的文档,或者网页上的半结构化的文档;而抽取目标是k-元组(k是一条记录的属性数量)的关系或者一个复杂的层次化的数据对象。传统的属性抽取技术有着不少弊端,首先不论是基于规则还是基于分类算法,都需要较多的人工介入,比如基于规则的规则设计和基于分类的数据标注以及特征设计,而人工介入的成本是昂贵的,而且需要专业人员的标注才会得到较权威的人工数据,同时人工也会带来一定的误差,在后续的算法中误差也会不断地积累,最终导致结果的偏差过大;其次,这一类算法的训练数据集是受限在某个领域的,即不具有通用性,比如训练的关于体育新闻方面的属性抽取分类器无法很好地使用在其他新闻中;通常上述算法得到的效果一般也不够理想,因为基于规则的方法中人工设计的规则是有限的,而基于分类的方法的标注数据也是受限的而且该方法比较依赖人工设计的特征的好坏。
技术实现思路
本专利技术的目的是克服现有技术的不足,提供一种基于卷积神经网络的特征提取方法。基于卷积神经网络的属性抽取方法,包括如下步骤1)获取Wikipedia的信息框数据,获取外部知识库;2)获取论坛和新闻数据,得到文本语料库;3)使用远程监督方法,对文本语料库进行搜索,获取包含属性的句子;4)基于词向量,先对每个词进行向量化描述,再把句子中的词向量聚集在一起,得到句子的向量化描述;5)将句子输入卷积神经网络,先对句子进行卷积计算,再针对卷积结果的最大值进行池化,最后输入softmax函数,得到分类结果;6)根据分类结果对应至属性值。本专利技术中各步骤可采用如下优选的实现方式:所述的步骤4)具体如下:4.1)获取在新闻数据上训练的词向量模型G,由序列形式保存:[word1vector1word2vector2...wordNvectorN]其中N为词向量模型中的词数,wordN为第N个单词,vectorN为第N个词向量;4.2)读取文件,把序列转为映射格式,由单词映射到其对应的向量:{word1:vector1,word2:vector2...wordN:vectorN本文档来自技高网
...

【技术保护点】
一种基于卷积神经网络的属性抽取方法,其特征在于包括如下步骤1)获取Wikipedia的信息框数据,获取外部知识库;2)获取论坛和新闻数据,得到文本语料库;3)使用远程监督方法,对文本语料库进行搜索,获取包含属性的句子;4)基于词向量,先对每个词进行向量化描述,再把句子中的词向量聚集在一起,得到句子的向量化描述;5)将句子输入卷积神经网络,先对句子进行卷积计算,再针对卷积结果的最大值进行池化,最后输入softmax函数,得到分类结果;6)根据分类结果对应至属性值。

【技术特征摘要】
1.一种基于卷积神经网络的属性抽取方法,其特征在于包括如下步骤1)获取Wikipedia的信息框数据,获取外部知识库;2)获取论坛和新闻数据,得到文本语料库;3)使用远程监督方法,对文本语料库进行搜索,获取包含属性的句子;4)基于词向量,先对每个词进行向量化描述,再把句子中的词向量聚集在一起,得到句子的向量化描述;5)将句子输入卷积神经网络,先对句子进行卷积计算,再针对卷积结果的最大值进行池化,最后输入softmax函数,得到分类结果;6)根据分类结果对应至属性值。...

【专利技术属性】
技术研发人员:汤斯亮吴飞张金剑蒋焕剑庄越挺鲁伟明
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有1条评论
  • 来自[未知地区] 2018年08月31日 10:54
    您好,请问您的这篇关于“一种基于卷积神经网络的属性抽取方法技术” 有实现代码吗?
    0
1