一种基于非平衡数据的知识结构化方法技术

技术编号：15840850 阅读：113 留言：0更新日期：2017-07-18 16:52

本发明专利技术公开了一种基于非平衡数据的知识结构化方法，将文献中描述方法的知识用结构化的方式呈现给用户。本文采用多种加权方式融合的思想，设计了基于信息增益(IG)和TF‑IDF的加权贝叶斯分类算法，该算法同时考虑了类别信息、特征值和特征携带的信息量，较好地表达了特征之间的依赖关系。该项改进显著提升了贝叶斯算法的识别性能，并使得贝叶斯算法在非平衡数据领域得到了成功的应用。

A method of knowledge structuring based on unbalanced data

The invention discloses a knowledge structuring method based on unbalanced data, and presents the knowledge of the method described in the document in a structured manner to the user. This paper adopts the integration of a variety of weighting ideas, designed based on information gain (IG) and TF weighted Bias classification algorithm IDF, the algorithm also considers the category information, feature information and feature value to carry, can describe the relationship between the. The improvement significantly improves the recognition performance of the Bayesian algorithm, and makes the Bayesian algorithm successfully applied in the field of unbalanced data.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于非平衡数据的知识结构化方法
本专利技术属于信息
，涉及一种知识结构化方法，尤其涉及一种基于非平衡数据的知识结构化方法。
技术介绍
知识结构化是指将文献这种非结构化的数据中蕴含的知识，以结构化的方式表示出来。目前，知识元的研究多集中在理论层面，通常知识元示例都难以描述或者描述的较为复杂、模糊，不便于读者理解。本文提出了一种基于术语词、属性句、属性类型的三元组方法知识元(即描述方法的知识元)表示形式。其中，术语词是属性句的描述对象；属性句从某个方面或某几方面对术语词进行了较为完整的表述，传达出一个完整的概念或知识；属性类型是属性句对术语词描述的方面。这种结构化的表示形式简单、清晰地呈现了知识内容。知识结构化的研究重点是利用知识获取技术从各类文献资源中高效地获取结构化的知识并呈现给用户。经调研发现，国外学者针对中文的知识结构化研究较少，且其在技术方面主要围绕基础理论以及知识间的关联关系等方面进行研究。国内学者对知识结构化的研究尚浅，且提出的方法偏向规则方法或面向文献结构特征的研究，缺少面向文献内容进行知识结构化的关键技术。
技术实现思路
本专利技术在文献结构特...
一种基于非平衡数据的知识结构化方法

【技术保护点】
一种基于非平衡数据的知识结构化方法，其特征在于，所述方法包括：根据术语词识别特征词典和术语词类别参数进行术语词识别；根据属性句识别特征词典、属性句识别类别参数、IG权重参数列表进行属性句识别；根据属性类型识别特征词典进行属性类型识别。

【技术特征摘要】
1.一种基于非平衡数据的知识结构化方法，其特征在于，所述方法包括：根据术语词识别特征词典和术语词类别参数进行术语词识别；根据属性句识别特征词典、属性句识别类别参数、IG权重参数列表进行属性句识别；根据属性类型识别特征词典进行属性类型识别。2.如权利要求1所述的基于非平衡数据的知识结构化方法，其特征在于，所述知识结构化是指基于术语词、属性句、属性类型的三元组知识表示形式。3.如权利要求1所述的基于非平衡数据的知识结构化方法，其特征在于，所述知识结构化方法，以贝叶斯算法为理论依据，针对数据的非平衡性特点，将朴素贝叶斯算法改进为加权贝叶斯算法，知识结构化方法的计算公式为：其中，s＝{t1,t2,...,tj,...,tm}为一个待分类项，tj为s的一个特征；类别集合C＝{c1,c2,...,ci,...,cn}，ci为C中的一个类别,ck∈C；P(ci|s)是待分类项s属于类别ci的概率。Count(tj,ci)表示在类别ci中出现特征项tj的样本数，Count(ci)表示该类别的样本总数，N表示训练集中样本总数，nj是训练集中出现特征项tj的样本个数。针对知识结构化中不同的子任务，分别设计了不同的特征加权方法，wji是为各子任务设计的特征权重。4.如权利要求1所述的基于非平衡数据的知识结构化方法，其特征在于，所述术语词识别采用直接作用于类别的特征值加权方法，对特征项不是术语词的特征权重进行削弱，使得候选术语词是术语词...

【专利技术属性】
技术研发人员：王风娥，刘宝萍，罗霄，朱骞，
申请(专利权)人：山西同方知网数字出版技术有限公司，
类型：发明
国别省市：山西,14

全部详细技术资料下载我是这个专利的主人