一种基于非平衡数据的知识结构化方法技术

技术编号:15840850 阅读:111 留言:0更新日期:2017-07-18 16:52
本发明专利技术公开了一种基于非平衡数据的知识结构化方法,将文献中描述方法的知识用结构化的方式呈现给用户。本文采用多种加权方式融合的思想,设计了基于信息增益(IG)和TF‑IDF的加权贝叶斯分类算法,该算法同时考虑了类别信息、特征值和特征携带的信息量,较好地表达了特征之间的依赖关系。该项改进显著提升了贝叶斯算法的识别性能,并使得贝叶斯算法在非平衡数据领域得到了成功的应用。

A method of knowledge structuring based on unbalanced data

The invention discloses a knowledge structuring method based on unbalanced data, and presents the knowledge of the method described in the document in a structured manner to the user. This paper adopts the integration of a variety of weighting ideas, designed based on information gain (IG) and TF weighted Bias classification algorithm IDF, the algorithm also considers the category information, feature information and feature value to carry, can describe the relationship between the. The improvement significantly improves the recognition performance of the Bayesian algorithm, and makes the Bayesian algorithm successfully applied in the field of unbalanced data.

【技术实现步骤摘要】
一种基于非平衡数据的知识结构化方法
本专利技术属于信息
,涉及一种知识结构化方法,尤其涉及一种基于非平衡数据的知识结构化方法。
技术介绍
知识结构化是指将文献这种非结构化的数据中蕴含的知识,以结构化的方式表示出来。目前,知识元的研究多集中在理论层面,通常知识元示例都难以描述或者描述的较为复杂、模糊,不便于读者理解。本文提出了一种基于术语词、属性句、属性类型的三元组方法知识元(即描述方法的知识元)表示形式。其中,术语词是属性句的描述对象;属性句从某个方面或某几方面对术语词进行了较为完整的表述,传达出一个完整的概念或知识;属性类型是属性句对术语词描述的方面。这种结构化的表示形式简单、清晰地呈现了知识内容。知识结构化的研究重点是利用知识获取技术从各类文献资源中高效地获取结构化的知识并呈现给用户。经调研发现,国外学者针对中文的知识结构化研究较少,且其在技术方面主要围绕基础理论以及知识间的关联关系等方面进行研究。国内学者对知识结构化的研究尚浅,且提出的方法偏向规则方法或面向文献结构特征的研究,缺少面向文献内容进行知识结构化的关键技术。
技术实现思路
本专利技术在文献结构特征研究的基础上,深入文献内容进行了基于统计的知识结构化研究,并结合数据的非平衡性特点——“文献中的方法知识元(正例)占少数,非方法知识元(负例)占多数”,将朴素贝叶斯分类算法改进为加权贝叶斯分类算法,提高了算法分类精度和知识结构化性能。所述技术方案包括:1.总体设计基于以上分析,本方法采用多种加权方式融合的思想,设计了基于信息增益(IG)和TF-IDF的特征加权方法,同时考虑了类别信息、特征值和特征携带的信息量,较好地表达了特征之间的依赖关系,并将其应用于非平衡数据的知识结构化中。本文设计的知识结构化方法包含三个不同的子任务:术语词识别、属性句识别、属性类型识别。三个子任务均采用了加权贝叶斯分类算法。术语词识别:采用基于类别节点的特征值加权方法,通过计算训练语料中非术语词和是术语词的候选术语词数量比值设置权重参数。属性句识别:采用基于类别节点的特征值加权方法和基于信息增益的特征加权方法。基于类别节点的特征值加权方法,权重参数来源于训练语料中非属性句与属性句数量比值,基于IG的特征加权方法,依据每个特征携带信息量的多少,对不同特征设置了不同的权重。属性类型识别:采用TF-IDF的加权方法,直接作用于特征值,并结合特征的重要程度计算对应的特征权重值。总体算法流程图见图1所示。2.知识结构化本文研究的知识结构化方法,以贝叶斯算法为理论依据,以文献为研究对象,实现了文献知识的结构化表示。根据给定样本属于某一个具体类的概率来对其进行分类,其分类的基本思想是:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。即:P(ck|s)=max{P(c1|s),P(c2|s),...,P(ci|s),...,P(cn|s)}(公式1)其中,s={t1,t2,...,tj,...,tm}为一个待分类项,tj为s的一个特征。类别集合C={c1,c2,...,ci,...,cn},ci为C中的一个类别,ck∈C。则问题的关键是计算P(ci|s)。假设s的每个特征tj相互独立,则根据贝叶斯定理有:因为分母对于所有类别为常数,所以只要将分子最大化即可。假设各特征属性是条件独立的,有:即:为了便于计算机存储和计算,将上式两边取log运算,则所求概率公式可演化为:其中,Count(tj,ci)表示在类别ci中出现特征项tj的样本数,Count(ci)表示该类别的样本总数,N表示训练集中样本总数,nj是训练集中出现特征项tj的样本个数。对贝叶斯公式进行加权改进,即其中,wji为权重。基于加权贝叶斯的知识元识别计算公式为:针对不同的子任务,分别设计不同的加权方式,即设计不同的wji。(1)术语词识别术语词识别,对于给定文献中的一个句子,以方法术语词词典中的词语为候选术语词,判断每个候选术语词是否是句子的描述对象,选择概率值最大的候选术语词,作为最终术语词。术语词识别任务中,把对每个候选词是否是术语词的判断抽象为一个二分类任务。针对术语词数据的非平衡性特点,采用直接作用于类别的特征值加权方法,对特征项不是术语词的特征权重进行削弱,使得候选术语词是术语词的概率和非术语词的概率达到一定的平衡,其特征值权重计算公式为:wji={1,1/λ},λ>1。wji=1表示特征项tj是术语词权重为1,wji=1/λ表示特征项tj不是术语词的权重为1/λ。其中,λ是训练语料中非术语词和是术语词的候选术语词数量比值。(2)属性句识别对有术语词的句子,根据句子对术语词提供的信息量的多少及描述程度,判断该句子是否是属性句,把属性句识别任务也抽象为一个二分类任务。在真实数据集中,非属性句的样本量远大于属性句的样本量,即一个句子是否属性句的数据集是非平衡的。此外,属性句识别问题除包含数据本身非平衡外,其特征选择需考虑句子整体特征而不是术语词识别的局部特征,各特征对句子的重要程度并不相同,因此,在术语词识别特征值加权方式的基础上增加了依据特征重要程度进行特征加权的方法,其特征权重计算公式为:wji=θ1*θ2,其中:θ1是作用于类别的特征权重,用于平衡非属性句和属性句的特征概率值。θ1={1,1/ν}ν,>,1θ1=1表示特征项tj是属性句权重为1,θ1=1/ν表示特征项tj不是属性句的权重为1/ν,ν是训练语料中非属性句和属性句数量比值。θ2是作用于特征的特征权重,考虑的是不同特征的重要程度,更好地表达了特征与属性句之间的关系。采用IG法依据特征项tj对分类提供信息量的多少来衡量该特征项的重要程度,其计算公式为:其中,P(ci)表示ci类样本在语料中出现的概率,P(tj)表示语料中包含特征项tj的样本的概率,P(ci|tj)表示样本包含特征项tj时属于ci类的条件概率,表示语料中不含特征项tj的样本的概率,表示样本不包含特征项tj时属于ci类的条件概率。(3)属性类型识别属性类型识别,对有术语词的属性句,判断属性句对术语词描述的方面,涉及方法含义、方法特点、方法作用、方法原理等12方面,其被抽象为多分类任务。其中,数据集中的属性类型也是非平衡的,表现为有的属性类型的样本量较多,有的属性类型的样本量较少。属性类型识别,考虑各属性类型之间的不平衡性,采用TF-IDF的特征加权方法作用于特征值。TF-IDF是用来计算特征权重的常用方法,以表示特征的类别区分度。特征项tj在句子类别ci中的权重wji定义如下:其中,tfji表示特征项tj在某个类别下的出现比例,表示特征的区分度的一个度量值。3.知识结构化系统设计图2描述了基于加权贝叶斯的知识结构化系统设计。知识结构化建立在对加权贝叶斯算法模型训练的基础之上,即在进行方法知识元识别之前,先要进行贝叶斯算法模型的训练。训练出三类特征词典:术语词识别特征词典、属性句识别特征词典、属性类型识别特征词典,分别用于术语词识别模块、属性句识别模块、属性类型识别模块。图2中的资源筛选指的是通过资源外部特征对无方法知识元的文献进行过滤,仅处理有方法知识的文献,提高知识结构化的效率;资源内容句子化指的是将文献内容切分为单个句子;句子本文档来自技高网...
一种基于非平衡数据的知识结构化方法

【技术保护点】
一种基于非平衡数据的知识结构化方法,其特征在于,所述方法包括:根据术语词识别特征词典和术语词类别参数进行术语词识别;根据属性句识别特征词典、属性句识别类别参数、IG权重参数列表进行属性句识别;根据属性类型识别特征词典进行属性类型识别。

【技术特征摘要】
1.一种基于非平衡数据的知识结构化方法,其特征在于,所述方法包括:根据术语词识别特征词典和术语词类别参数进行术语词识别;根据属性句识别特征词典、属性句识别类别参数、IG权重参数列表进行属性句识别;根据属性类型识别特征词典进行属性类型识别。2.如权利要求1所述的基于非平衡数据的知识结构化方法,其特征在于,所述知识结构化是指基于术语词、属性句、属性类型的三元组知识表示形式。3.如权利要求1所述的基于非平衡数据的知识结构化方法,其特征在于,所述知识结构化方法,以贝叶斯算法为理论依据,针对数据的非平衡性特点,将朴素贝叶斯算法改进为加权贝叶斯算法,知识结构化方法的计算公式为:其中,s={t1,t2,...,tj,...,tm}为一个待分类项,tj为s的一个特征;类别集合C={c1,c2,...,ci,...,cn},ci为C中的一个类别,ck∈C;P(ci|s)是待分类项s属于类别ci的概率。Count(tj,ci)表示在类别ci中出现特征项tj的样本数,Count(ci)表示该类别的样本总数,N表示训练集中样本总数,nj是训练集中出现特征项tj的样本个数。针对知识结构化中不同的子任务,分别设计了不同的特征加权方法,wji是为各子任务设计的特征权重。4.如权利要求1所述的基于非平衡数据的知识结构化方法,其特征在于,所述术语词识别采用直接作用于类别的特征值加权方法,对特征项不是术语词的特征权重进行削弱,使得候选术语词是术语词...

【专利技术属性】
技术研发人员:王风娥刘宝萍罗霄朱骞
申请(专利权)人:山西同方知网数字出版技术有限公司
类型:发明
国别省市:山西,14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1