学术文献自动分类的方法技术

技术编号：3990435 阅读：326 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种学术文献自动分类的方法，包括输入训练文献于数据库中，所述训练文献包含文献分类号；对训练文献进行一元特征词、二元特征词的选择及二元词对的生成；读取数据库中的训练文献，并分别计算一元特征词、二元特征词与文献分类号的概率关系，形成一元分类词典与二元分类词典；读取待标注文献，根据一元二元分类词典及一元特征词与二元特征词在待标注文献中的权重，计算文献对应的中图分类号，并自动标注；将一元二元分类结果根据置信度大小分为高准确率结果集和低准确率结果集，并输出分类结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种学术文献分类方法，尤其涉及一种。
技术介绍
随着信息技术的发展，互联网数据及资源呈现海量特征.为了有效地管理和利用这些分布的海量信息，基于内容的信息检索和数据挖掘逐渐成为备受关注的领域.其中，文本分类(text categorization，简称TC)技术是信息检索和文本挖掘的重要基础，其主要任务是在预先给定的类别标记(label)集合下，根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。20世纪90年代逐渐成熟的基于机器学习的文本分类方法，更注重分类器的模型自动挖掘和生成及动态优化能力，在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破，成为相关领域研究和应用的经典范例。基于机器学习文本分类的基础技术由文本的表示(!^presentation)、分类方法及效果(effectiveness)评估3部分组成。在分类中，文本的表示一般被抽象化为一组特征词，并根据特征词的属性去计算文本的类别。1、常用的特征选择算法文档频度(df)；信息增益(Information Gain, IG)；交叉熵(Cross Entropy)；互信息(Mutual Information) ； χ 2 统计量(CHI)；期望交叉熵，文本证据权优势率，基于词频覆盖度的方法，主分量分析方法等。2、常用的分类算法有朴素贝叶斯分类；K近邻(KNN)；决策树；支持向量机 (SVM)。3、分类效果评估指标正确率(precision)、召回率(recall)、均衡点(BEP)、 ...

【技术保护点】
学术文献自动分类的方法，包括：输入文献；对文献的自动分类；判断自动分类结果是否为高准确率；如果不是高准确率结果，则进行人工分类；否则，直接进入网络检查，如果检查分类号正确，则提交为日更新数据，加入到数据库中；否则将检查后修改的数据和一定比例的未修改数据提出，进行复查；编辑抽样审错；达到合格比例后，按月更新到数据库；其特征在于，文献的自动分类包括：Ａ、输入训练文献于数据库中，所述训练文献包含文献分类号；Ｂ、对训练文献进行一元特征词、二元特征词的选择及二元词对的生成；Ｃ、读取数据库中的训练文献，并分别计算一元特征词、二元特征词与文献分类号的概率关系，形成一元分类词典与二元分类词典；Ｄ、读取待标注文献，根据一元二元分类词典及一元特征词与二元特征词在待标注文献中的权重，计算文献对应的中图分类号，并自动标注；Ｅ、将一元二元分类结果根据置信度大小分为高准确率结果集和低准确率结果集，并输出分类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：张振海，罗霄，
申请(专利权)人：同方知网北京技术有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人