一种基于句法语义的农业领域关系抽取方法技术

技术编号：19634985 阅读：22 留言：0更新日期：2018-12-01 15:43

本发明专利技术涉及一种基于句法语义的农业领域关系抽取方法，首先从农业专业网站爬取农业知识相关的文本。将收集得到的文本进行整理，去除掉无关文本，得到就是与农业领域相关的文本。结合事先确定的关系种类，对农业领域文本进行人工标注，构建农业领域的语料库。根据确定好的特征种类对文本进行特征抽取，构建特征向量。最后使用SVM对分类器进行建模，得到面向农业领域的关系分类模型。本发明专利技术有较好的抽取效果。

A Method of Extracting Relations in Agricultural Domain Based on Syntax and Semantics

The invention relates to a method for extracting relations in the agricultural field based on syntax and semantics. Firstly, relevant texts of agricultural knowledge are crawled from agricultural professional websites. The collected texts are sorted out, irrelevant texts are removed, and texts related to agriculture are obtained. Combining with the relationship types determined in advance, the text in the field of agriculture is labeled manually, and the corpus in the field of agriculture is constructed. According to the identified feature types, the text features are extracted and the feature vectors are constructed. Finally, SVM is used to model the classifier, and a relational classification model for agriculture is obtained. The invention has better extraction effect.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于句法语义的农业领域关系抽取方法
本专利技术涉及自然语言处理领域，特别是一种基于句法语义的农业领域关系抽取方法。
技术介绍
“大数据”和“互联网+”正在高速发展，农业信息数据呈几何式增长，中国农业网站的数量异常庞大，发展的速度是非常迅猛的。如此大量的数字化农业知识让人们应接不暇，依靠搜索引擎得到的结果大多以非结构化的形式存在，用户还需要进一步理解和筛选。在这种背景下，自然语言处理领域的信息抽取作为一种帮助人们精简信息的技术正在被广泛应用。信息抽取的目的是从非结构化文本抽取结构化或者半结构化信息，并存储在在数据库中方便用户查询，以期进一步分析和利用。关系抽取作为信息抽取领域的重要研究课题，其主要的目的是抽取句子中已标记的实体对之间的语义关系，即在实体识别的基础上确定物结构文本中实体对间的关系类别，并形成结构化的数据以便于存储和取用，例如，“<e1>鳄梨</e1>原产于<e2>中美洲</e2>，为人所知已有好几个世纪了。”，面向农业领域的关系抽取系统能自动识别实体“鳄梨”和“中美洲”的关系是原产地关系。关系抽取的技术突破了传统的必须经过人工阅读、理解的方式来获得语义关系的限制，取而代之的是语义关系的自动查找。从用户的需求层面看，关系抽取是以小粒度的文本句子中挖掘出用户所需要的语义关系信息，给用户提供更精细的服务。关系提取在许多自然语言处理任务中起着重要的作用，如知识图谱，问答系统等。到目前为止，之前的许多关系抽取方法直接作用于原始的词序列或者独...

【技术保护点】
1.一种基于句法语义的农业领域关系抽取方法，其特征在于：包括以下步骤：步骤S1：从农业专业网站爬取农业知识相关文本，并构建农业领域的语料库；步骤S2：抽取有效表达实体关系的特征，所述特征包括实体内容特征、词性特征、实体上下文内容特征，上文词内容特征、上文词性特征、下文词内容特征、下文词性特征、命名实体特征和父节点内容特征；步骤S3：将步骤S2抽取得到的特征数字化，构造特征向量；步骤S4：采用支持向量机SVM算法进行模型的训练；步骤S5：利用训练后的模型进行关系抽取测试。

【技术特征摘要】
1.一种基于句法语义的农业领域关系抽取方法，其特征在于：包括以下步骤：步骤S1：从农业专业网站爬取农业知识相关文本，并构建农业领域的语料库；步骤S2：抽取有效表达实体关系的特征，所述特征包括实体内容特征、词性特征、实体上下文内容特征，上文词内容特征、上文词性特征、下文词内容特征、下文词性特征、命名实体特征和父节点内容特征；步骤S3：将步骤S2抽取得到的特征数字化，构造特征向量；步骤S4：采用支持向量机SVM算法进行模型的训练；步骤S5：利用训练后的模型进行关系抽取测试。2.根据权利要求1所述的一种基于句法语义的农业领域关系抽取方法，其特征在于：步骤S1具体包括以下步骤：步骤S11：对农业文本的关系定义为7类：别名、原产地、成分、子类、荣誉称号、价值和其他；步骤S12：爬取农业类专业网站的词条，并对爬取到的词条做交集处理，根据词条爬取互动百科上相应的农业数据；步骤S13：对原始文本进行统一编码处理并分句，对其中的标点符号统一处理为中文格式，最后对文本进行分词处理；步骤S14：对分词处理后的文本标注出实体，对句子中出现的所有实体进行两两组合，构造得到实体对；步骤S15：对步骤S14得到的实体对，判断其在文本中体现出来的关系并进行关系的标注，构造出三元组(Entity1,Entity2,Relation)；步骤S16：重复步骤S13至步骤S15，得到所有句子及句子中所有的三元组，即构造完农业领域的语料库。3.根据权利要求1所述的一种基于句法语义的农业领域关系抽取方法，其特征在于：步骤S2中，各个特征的抽取方法为：实体内容特征抽取：选取一个已经训练好的词向量，通过查找词嵌入将每个输入的词映射到稠密向量中；一个由n个词组成的实体表示为Entity＝{W1，W2，....，Wn}；对于n大于1的实体，表示该实体不止由一个词组成；词性特征抽取：一个由n个词组成的实体表示为Entity＝{W1，W2，....，Wn}，一个实体为单个或多个词组成，选择最后一个词词性代表这个实体的词性；具体操作如下：调用jieba对句子做词性标注；对实体Entity进行分词，分词结果记为{W1，W2，....，Wn}；选取实体分析后的最后一个词Wn，在词性标注的结果中查找Wn的词性作为词性特征；上文词内容特征抽取：首先，对于句子S表示为S＝{w1,w2,...,wpre,entity,wpost,...,wm}，抽取实体entity左...

【专利技术属性】
技术研发人员：陈星，陈艺燕，戴远飞，郭晨皓，张祖文，
申请(专利权)人：福州大学，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人