当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于句法语义的农业领域关系抽取方法技术

技术编号:19634985 阅读:22 留言:0更新日期:2018-12-01 15:43
本发明专利技术涉及一种基于句法语义的农业领域关系抽取方法,首先从农业专业网站爬取农业知识相关的文本。将收集得到的文本进行整理,去除掉无关文本,得到就是与农业领域相关的文本。结合事先确定的关系种类,对农业领域文本进行人工标注,构建农业领域的语料库。根据确定好的特征种类对文本进行特征抽取,构建特征向量。最后使用SVM对分类器进行建模,得到面向农业领域的关系分类模型。本发明专利技术有较好的抽取效果。

A Method of Extracting Relations in Agricultural Domain Based on Syntax and Semantics

The invention relates to a method for extracting relations in the agricultural field based on syntax and semantics. Firstly, relevant texts of agricultural knowledge are crawled from agricultural professional websites. The collected texts are sorted out, irrelevant texts are removed, and texts related to agriculture are obtained. Combining with the relationship types determined in advance, the text in the field of agriculture is labeled manually, and the corpus in the field of agriculture is constructed. According to the identified feature types, the text features are extracted and the feature vectors are constructed. Finally, SVM is used to model the classifier, and a relational classification model for agriculture is obtained. The invention has better extraction effect.

【技术实现步骤摘要】
一种基于句法语义的农业领域关系抽取方法
本专利技术涉及自然语言处理领域,特别是一种基于句法语义的农业领域关系抽取方法。
技术介绍
“大数据”和“互联网+”正在高速发展,农业信息数据呈几何式增长,中国农业网站的数量异常庞大,发展的速度是非常迅猛的。如此大量的数字化农业知识让人们应接不暇,依靠搜索引擎得到的结果大多以非结构化的形式存在,用户还需要进一步理解和筛选。在这种背景下,自然语言处理领域的信息抽取作为一种帮助人们精简信息的技术正在被广泛应用。信息抽取的目的是从非结构化文本抽取结构化或者半结构化信息,并存储在在数据库中方便用户查询,以期进一步分析和利用。关系抽取作为信息抽取领域的重要研究课题,其主要的目的是抽取句子中已标记的实体对之间的语义关系,即在实体识别的基础上确定物结构文本中实体对间的关系类别,并形成结构化的数据以便于存储和取用,例如,“<e1>鳄梨</e1>原产于<e2>中美洲</e2>,为人所知已有好几个世纪了。”,面向农业领域的关系抽取系统能自动识别实体“鳄梨”和“中美洲”的关系是原产地关系。关系抽取的技术突破了传统的必须经过人工阅读、理解的方式来获得语义关系的限制,取而代之的是语义关系的自动查找。从用户的需求层面看,关系抽取是以小粒度的文本句子中挖掘出用户所需要的语义关系信息,给用户提供更精细的服务。关系提取在许多自然语言处理任务中起着重要的作用,如知识图谱,问答系统等。到目前为止,之前的许多关系抽取方法直接作用于原始的词序列或者独热码,所以它经常受到缺乏语义信息的限制,这使得在进行分类时容易出现错误的判断。
技术实现思路
有鉴于此,本专利技术的目的是提出一种基于句法语义的农业领域关系抽取方法,对农业领域的文本有较好的抽取效果。本专利技术采用以下方案实现:一种基于句法语义的农业领域关系抽取方法,具体包括以下步骤:步骤S1:从农业专业网站爬取农业知识相关文本,并构建农业领域的语料库;步骤S2:抽取有效表达实体关系的特征,所述特征包括实体内容特征、词性特征、实体上下文内容特征,上文词内容特征、上文词性特征、下文词内容特征、下文词性特征、命名实体特征和父节点内容特征;步骤S3:将步骤S2抽取得到的特征数字化,构造特征向量;步骤S4:采用支持向量机SVM算法进行模型的训练;步骤S5:利用训练后的模型进行关系抽取测试。进一步地,步骤S1具体包括以下步骤:步骤S11:对农业文本的关系定义为7类:别名、原产地、成分、子类、荣誉称号、价值和其他;步骤S12:爬取农业类专业网站的词条,并对爬取到的词条做交集处理,根据词条爬取互动百科上相应的农业数据;步骤S13:对原始文本进行统一编码处理并分句,对其中的标点符号统一处理为中文格式,最后对文本进行分词处理;步骤S14:对分词处理后的文本标注出实体,对句子中出现的所有实体进行两两组合,构造得到实体对;步骤S15:对步骤S14得到的实体对,判断其在文本中体现出来的关系并进行关系的标注,构造出三元组(Entity1,Entity2,Relation);步骤S16:重复步骤S13至步骤S15,得到所有句子及句子中所有的三元组,即构造完农业领域的语料库。进一步地,步骤S2中,各个特征的抽取方法为:实体内容特征抽取:选取一个已经训练好的词向量,通过查找词嵌入将每个输入的词映射到稠密向量中;一个由n个词组成的实体表示为Entity={W1,W2,....,Wn};对于n大于1的实体,表示该实体不止由一个词组成;词性特征抽取:一个由n个词组成的实体表示为Entity={W1,W2,....,Wn},一个实体为单个或多个词组成,选择最后一个词词性代表这个实体的词性;具体操作如下:调用jieba对句子做词性标注;对实体Entity进行分词,分词结果记为{W1,W2,....,Wn};选取实体分析后的最后一个词Wn,在词性标注的结果中查找Wn的词性作为词性特征;上文词内容特征抽取:首先,对于句子S表示为S={w1,w2,...,wpre,entity,wpost,...,wm},抽取实体entity左边的词wpre,查找词wpre对应的词嵌入作为上文内容;上文词性特征抽取:查找所述词性特征抽取中词性标注的结果中上文的词性;下文词内容特征抽取:首先,对于句子S表示为S={w1,w2,...,wpre,entity,wpost,...,wm},抽取实体entity右边的词wpost,查找词wpost对应的词嵌入作为下文内容;下文词性特征:查找所述词性特征抽取中词性标注的结果中下文的词性;命名实体特征抽取:对句子使用命名实体进行标注,查找实体对应的命名实体类型,由于实体是由多个词组成{W1,W2,....,Wn},取最后一个词Wn的实体类型代表整个实体的类型;父节点内容特征:对句子进行依存句法分析,在分析结果中查找实体{W1,W2,....,Wn}中Wn对应的父节点wsup,查找词wsup对应的词嵌入作为父节点内容。进一步地,步骤S3具体包括以下步骤:步骤S31:构造一个Python上的list用来存储步骤S2抽取出来的特征;步骤S32:按顺序存储实体内容特征对应的60维词向量,词性特征用一维来表示,上文词内容特征同样为对应的60维向量,上文词性特征一维,下文词内容特征同样为60维的词嵌入,下文词性特征一维,命名实体特征一维,父节点内容特征60维词嵌入;以上为一个实体的全部特征向量;步骤S33:对三元组(Entity1,Entity2,Relation)中的Entity1、Entity2都进行步骤S32,并构成(Entity1Vec,Entity2Vec,Relation)形式的Vec_list;步骤S34:将步骤S33得到的Vec_list使用Python中的标准模块pickle实现数据的序列化,并将序列化后的对象obj以二进制的形式写入文件Vec。进一步地,步骤S4具体包括以下步骤:步骤S41:读取步骤S34中存储的文件Vec,利用pickle.load()函数加载文件内容,将序列化的对象obj从文件中读取出来;步骤S42:利用Python的标准包numpy对向量进行矩阵操作;步骤S43:对语料库进行随机划分,令训练集和测试集的比例为8:2;步骤S44:选择linear作为核函数,将惩罚因子设置为0.05;步骤S45:对模型进行训练和测试;步骤S46:保存训练后的模型。与现有技术相比,本专利技术有以下有益效果:采用本专利技术方法训练出来的分类器,在测试集上的F1值达到了百分之99,对农业领域上的文本能够准确地进行关系抽取。附图说明图1为本专利技术实施例的方法流程示意图。图2为本专利技术实施例的语料库构建流程示意图。具体实施方式下面结合附图及实施例对本专利技术做进一步说明。应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复本文档来自技高网
...

【技术保护点】
1.一种基于句法语义的农业领域关系抽取方法,其特征在于:包括以下步骤:步骤S1:从农业专业网站爬取农业知识相关文本,并构建农业领域的语料库;步骤S2:抽取有效表达实体关系的特征,所述特征包括实体内容特征、词性特征、实体上下文内容特征,上文词内容特征、上文词性特征、下文词内容特征、下文词性特征、命名实体特征和父节点内容特征;步骤S3:将步骤S2抽取得到的特征数字化,构造特征向量;步骤S4:采用支持向量机SVM算法进行模型的训练;步骤S5:利用训练后的模型进行关系抽取测试。

【技术特征摘要】
1.一种基于句法语义的农业领域关系抽取方法,其特征在于:包括以下步骤:步骤S1:从农业专业网站爬取农业知识相关文本,并构建农业领域的语料库;步骤S2:抽取有效表达实体关系的特征,所述特征包括实体内容特征、词性特征、实体上下文内容特征,上文词内容特征、上文词性特征、下文词内容特征、下文词性特征、命名实体特征和父节点内容特征;步骤S3:将步骤S2抽取得到的特征数字化,构造特征向量;步骤S4:采用支持向量机SVM算法进行模型的训练;步骤S5:利用训练后的模型进行关系抽取测试。2.根据权利要求1所述的一种基于句法语义的农业领域关系抽取方法,其特征在于:步骤S1具体包括以下步骤:步骤S11:对农业文本的关系定义为7类:别名、原产地、成分、子类、荣誉称号、价值和其他;步骤S12:爬取农业类专业网站的词条,并对爬取到的词条做交集处理,根据词条爬取互动百科上相应的农业数据;步骤S13:对原始文本进行统一编码处理并分句,对其中的标点符号统一处理为中文格式,最后对文本进行分词处理;步骤S14:对分词处理后的文本标注出实体,对句子中出现的所有实体进行两两组合,构造得到实体对;步骤S15:对步骤S14得到的实体对,判断其在文本中体现出来的关系并进行关系的标注,构造出三元组(Entity1,Entity2,Relation);步骤S16:重复步骤S13至步骤S15,得到所有句子及句子中所有的三元组,即构造完农业领域的语料库。3.根据权利要求1所述的一种基于句法语义的农业领域关系抽取方法,其特征在于:步骤S2中,各个特征的抽取方法为:实体内容特征抽取:选取一个已经训练好的词向量,通过查找词嵌入将每个输入的词映射到稠密向量中;一个由n个词组成的实体表示为Entity={W1,W2,....,Wn};对于n大于1的实体,表示该实体不止由一个词组成;词性特征抽取:一个由n个词组成的实体表示为Entity={W1,W2,....,Wn},一个实体为单个或多个词组成,选择最后一个词词性代表这个实体的词性;具体操作如下:调用jieba对句子做词性标注;对实体Entity进行分词,分词结果记为{W1,W2,....,Wn};选取实体分析后的最后一个词Wn,在词性标注的结果中查找Wn的词性作为词性特征;上文词内容特征抽取:首先,对于句子S表示为S={w1,w2,...,wpre,entity,wpost,...,wm},抽取实体entity左...

【专利技术属性】
技术研发人员:陈星陈艺燕戴远飞郭晨皓张祖文
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1