学术文献自动分类的方法技术

技术编号:3990435 阅读:326 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种学术文献自动分类的方法,包括输入训练文献于数据库中,所述训练文献包含文献分类号;对训练文献进行一元特征词、二元特征词的选择及二元词对的生成;读取数据库中的训练文献,并分别计算一元特征词、二元特征词与文献分类号的概率关系,形成一元分类词典与二元分类词典;读取待标注文献,根据一元二元分类词典及一元特征词与二元特征词在待标注文献中的权重,计算文献对应的中图分类号,并自动标注;将一元二元分类结果根据置信度大小分为高准确率结果集和低准确率结果集,并输出分类结果。

【技术实现步骤摘要】

本专利技术涉及一种学术文献分类方法,尤其涉及一种。
技术介绍
随着信息技术的发展,互联网数据及资源呈现海量特征.为了有效地管理和利用这些分布的海量信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域.其中, 文本分类(text categorization,简称TC)技术是信息检索和文本挖掘的重要基础,其主 要任务是在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着 广泛的应用。20世纪90年代逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模 型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家 系统的文本分类模式有所突破,成为相关领域研究和应用的经典范例。基于机器学习文本分类的基础技术由文本的表示(!^presentation)、分类方法及 效果(effectiveness)评估3部分组成。在分类中,文本的表示一般被抽象化为一组特征 词,并根据特征词的属性去计算文本的类别。1、常用的特征选择算法文档频度(df);信息增益(Information Gain, IG);交叉 熵(Cross Entropy);互信息(Mutual Information) ; χ 2 统计量(CHI);期望交叉熵,文本 证据权优势率,基于词频覆盖度的方法,主分量分析方法等。2、常用的分类算法有朴素贝叶斯分类;K近邻(KNN);决策树;支持向量机 (SVM)。3、分类效果评估指标正确率(precision)、召回率(recall)、均衡点(BEP)、 Fi3 (常用Fl)和精度(accuracy)等。现有技术文本分类的通用流程包括将文本的训练语料进行特征选择,特征选择 是对文本的特征词进行选择,其特征词选择只是选择有代表性的词,作为分类器的输入,为 分类器提供必要的信息;训练器通过学习训练语料,得到特征词和类别的对应关系,并以一 定的数学模型表示;输入测试文本到分类器,利用训练器得到的数学模型,为测试文本计算 并标注分类号(如图1所示)。现有专利文献如专利号为03121034. 1名称为《一种文本自动分类方法》公开是 一种基于非二元平滑的二元特征权重计算的文本自动分类方法,它将二元权重计算方法引 入到基于向量空间模型的线性分类器,并结合复杂的非二元权重对二元权重进行平滑。还 有专利申请号为=200410062789. X名称为《一种新的面向文本分类的特征向量权重的方 法》公开的技术方案为按领域训练语料和测试语料,去除网页文本中的一些垃圾、分词、 词形标注;从训练语料中提取出每个领域的词表,同时提取出总词表,然后根据总词表和领 域词表建立用于分类的具有不同关键词数目的信息词表,对测试文本进行分类,优化得到 最优阈值,并根据分类结果确定最优的关键词数目。专利申请号为200510086462. 0名称 为《基于类别概念空间的自动文本分类方法》包括训练阶段和分类阶段,其步骤主要包括构造类别词语矩阵数据,建立每个词语的倒排类别频率数据表,构造有效词语集;构造类别词 语矩阵数据;建立每个类别的倒排词语频率数据表;建立基于类别概念空间的词语向量表 示;构造类别概念向量空间中的待分类文档向量数据;获得待分类文档的所述类别。上述 现有专利技术技术实施起来比较烦琐,而且分类的准确率不高。现有技术的技术方案还有以下 面向中国法的分类,主要应用在文献的数据加工过程。每一批新的文献都要经过 分类,然后再存入系统数据库。其实施学术文献的分类主要依靠编辑的人工分类,并经检 查后入库,具体流程为输入新的论文资源;利用该论文的原始专题代码,将其分配给不同 专业的编辑;进行人工分类,给出文献的中图分类号;进行网络检查,如果经检查分类号正 确,则提交为日更新数据,加入到数据库中;否则将检查后修改的数据和一定比例的未修改 数据提出,进行复查;编辑抽样审查;达到合格比例后,按月更新到数据库。现有技术的缺点1、分类号的获取主要依靠编辑的人工审核,不但耗费了大量的人力物力,而且效 率较低;大量的人员常年从事着重复性的劳动,造成比较严重的资源浪费。2、人工分类标准不统一,跨学科文章在分类时容易产生歧义。
技术实现思路
为解决上述中存在的问题与缺陷,本专利技术提供了一种。 所述技术方案如下一种,包括输入文献;对文献的自动分类;判断自动分类结果是否为高准确率;如果不是高 准确率结果,则进行人工分类;否则,直接进入网络检查,如果检查分类号正确,则提交为日 更新数据,加入到数据库中;否则将检查后修改的数据和一定比例的未修改数据提出,进行 复查;编辑抽样审错;达到合格比例后,按月更新到数据库;文献的自动分类包括A、输入训练文献于数据库中,所述训练文献包含文献分类号;B、对训练文献进行一元特征词、二元特征词的选择及二元词对的生成;C、读取数据库中的训练文献,并分别计算一元特征词、二元特征词与文献分类号 的概率关系,形成一元分类词典与二元分类词典;D、读取待标注文献,根据一元二元分类词典及一元特征词与二元特征词在待标注 文献中的权重,计算文献对应的图分类号,并自动标注;E、将一元二元分类结果根据置信度大小分为高准确率结果集和低准确率结果集, 并输出分类结果。本专利技术提供的技术方案的有益效果是实现对大规模学术文献,面向中图法37个大类5万余子类的自动分类。通过训练分类器,形成统一的分类标准,有良好的学科识别能力;分类准确率高, 要求达到80%以上。提出了二元分类的思想,以此修正一元分类的结果,进一步提升系统的自动标注 比例。自动标注文献分类号,并根据置信度将结果分为高准确率的结果集和低准确率结果集,其中高准确率的结果直接利用自动分类的结果替代以往人工分类,大大节省了人工 成本,提高了数据处理效率。附图说明图1是现有技术流程;图2是现有技术方案流程图;图3是本专利技术含学术文献自动分类的整体流程图;图4是流程图;图5是一元特征选择方法具体流程图;图6是二元特征选择方法具体流程图;图7是一元文献训练方法流程图;图8是二元文献训练方法流程图;图9是一元与二元分类阶段的方法流程图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方 式作进一步地详细描述本实施例提供了一种,具体实施过程如图3所示,所述 方法包括以下步骤步骤10输入新的论文资源。步骤20通过自动分类器对全部文献进行自动分类。步骤30判断自动分类结果是否为高准确率。如果不是高准确率结果,则执行步骤40,否则,则执行步骤50。步骤40则人工分类。步骤50直接进入网络检查;如果经检查分类号正确,则执行步骤60 ;否则执行步骤70。步骤60提交为日更新数据,加入到数据库中。步骤70将检查后修改的数据和一定比例的未修改数据提出,进行网络复查。步骤80编辑抽样审错。步骤90达到合格比例后,按月更新到数据库。参见图4,其上述自动分类器进行分类包括以下步骤步骤20a输入训练文献于数据库中,所述训练文献包含文献分类号。步骤20b特征选择;对训练文献进行一元特征词、二元特征词的选择及二元词对 的生成。步骤20c训练阶段读取数据库中的训练文献,并分别计算一元特征词、二元特征 词与文献分类号的概率关系,本文档来自技高网
...

【技术保护点】
学术文献自动分类的方法,包括:输入文献;对文献的自动分类;判断自动分类结果是否为高准确率;如果不是高准确率结果,则进行人工分类;否则,直接进入网络检查,如果检查分类号正确,则提交为日更新数据,加入到数据库中;否则将检查后修改的数据和一定比例的未修改数据提出,进行复查;编辑抽样审错;达到合格比例后,按月更新到数据库;其特征在于,文献的自动分类包括:A、输入训练文献于数据库中,所述训练文献包含文献分类号;B、对训练文献进行一元特征词、二元特征词的选择及二元词对的生成;C、读取数据库中的训练文献,并分别计算一元特征词、二元特征词与文献分类号的概率关系,形成一元分类词典与二元分类词典;D、读取待标注文献,根据一元二元分类词典及一元特征词与二元特征词在待标注文献中的权重,计算文献对应的中图分类号,并自动标注;E、将一元二元分类结果根据置信度大小分为高准确率结果集和低准确率结果集,并输出分类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:张振海罗霄
申请(专利权)人:同方知网北京技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1