学术文献自动分类系统技术方案

技术编号:5066241 阅读:229 留言:0更新日期:2012-04-11 18:40
本实用新型专利技术提供了一种面向中图法的学术文献自动分类系统,包括基础数据服务器、特征选择器、训练器和分类器,其中,基础数据服务器分别与特征选择器、训练器和分类器相连,用于存储学术文献文本;特征选择器与训练器相连,用于从基础数据服务器读取训练文本,并选择分类所需的特征词,得到特征词词典;训练器与分类器相连,用于从基础数据服务器读取训练文本,并计算特征选择器得到的特征词与分类号的概率关系,从而得到词语-分类号映射词典;并且分类器从基础数据服务器读取待分类文本,利用特征词词典以及词语-分类号映射词典计算待测试文本对应的中图分类号。通过该系统,能够对学术文献实现准确、精细的智能分类,大大提升了效率。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本技术涉及一种计算机和图书情报领域,更具体地说,涉及一种面向中图法 的学术文献自动分类系统
技术介绍
文本分类技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类 别标记集合下,根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与 管理、内容信息过滤等领域都有着广泛的应用。《中国图书馆分类法》简称《中图法》,英文译名为Chinese LibraryClassification,英文缩写为CLC,已普遍应用于全国各类型的图书馆,国内主要大 型书目、检索刊物、机读数据库,以及《中国国家标准书号》等都著录《中图法》分类号。目前,各图书馆及数字图书馆对于中文学术期刊的分类均按《中图法》实行。分类 号的获取主要依靠编辑的人工审核,不但耗费了大量的人力物力,而且效率较低。大量的人 员常年从事着重复性的劳动,造成比较严重的资源浪费。而且新进人员的培训也耗时耗力。
技术实现思路
为了解决上述问题,根据本技术的一方面,提供了一种面向中图法的学术文 献自动分类系统,包括基础数据服务器、特征选择器、训练器和分类器,其中,基础数据服务 器分别与连接特征选择器、训练器和分类器,用于以数据库的形式存储学术文献文本,其中 包括训练文本和待分类文本;特征选择器进一步连接所述训练器,用于从所述基础数据服 务器读取所述训练文本,并选择分类所需的特征词,得到特征词词典;训练器进一步连接所 述分类器,用于从所述基础数据服务器读取所述训练文本,并计算所述特征选择器得到的 所述特征词与分类号的概率关系,从而得到词语_分类号映射词典;并且,分类器进一步连 接所述基础数据服务器,用于从所述基础数据服务器读取所述待分类文本,利用所述特征 词词典以及所述词语_分类号映射词典计算所述待测试文本对应的中图分类号。其中,优选地,所述基础数据服务器中的所述训练文本和所述待分类文本以统一 的表的结构存储,包括文本篇名、中文摘要、全文、刊名、引文和分类号,其中,所述训练文本 的分类号是已知的,所述待分类文本的分类号初始为空。优选地,所述特征选择器进一步包括读取单元,连接计算单元,用于从所述基础数据服务器中读取所述训练文本;计算单元,进一步连接选择单元,用于计算所述训练文本中的所有词语在所述各 个分类号下的权重;选择单元,进一步连接所述训练器,用于对所述权重进行排序和筛选,得到特征词 词典。其中,优选地,所述特征选择器进一步包括统计单元,分别连接所述读取单元与所述计算单元,用于统计所述训练文本中词语与分类号的对应关系及数量关系,并将统计值发送到所述计算单元;判断单元,分别连接所述计算单元和所述选择单元,用于判断所述训练文本中的 词语是否都已计算完毕,如果“是”,则将所述计算单元得到的所述权重发送到选择单元,如 果“否”,则将未进行计算的词语发送到所述计算单元进行计算。所述学术文献自动分类系统中,优选地,所述训练器进一步包括读取单元,连接查找单元,用于从所述基础数据服务器中读取所述训练文本;查找单元,进一步连接统计单元,用于利用所述特征词词典查找所述训练文本中 的特征词;统计单元,进一步连接计算单元,用于统计所述特征词的对应分类号并统计所述 训练文本中出现所述特征词的文档数量,即文档频度,以及在所述训练文本的篇名、中文关 键字、全文、中文摘要字段统计所述特征词对应分类号的出现数量;计算单元,进一步连接生成单元,用于根据所述特征词在不同字段位置的出现数 量进行加权,计算其在所述分类号下的权重,并按照权重对所述分类号由高到低排序。生成单元,进一步连接所述分类器,用于将所述词形、所述分类号、所述文档频度、 所述权重存入所述词语_分类号映射词典。优选地,所述分类器进一步包括读取单元,连接分词单元,用于从所述基础数据服务器中读取所述待分类文本;分词单元,进一步连接计算单元,用于根据所述特征词词典对所述待分类文本进 行分词,获得所述待分类文本中的特征词;计算单元,进一步连接分类单元,用于计算所述特征词的权重并根据所述词 语-分类号映射词典计算所述特征词在所有分类号下相应的权重,从而计算出所述待分类 文本中的所有特征词对应的每个分类号的总权重;分类单元,进一步连接所述基础数据服务器单元,用于对所述计算单元得到的所 述分类号总权重进行排序,将排序前几位的分类号作为所述待分类文本的分类号,并输出 所述分类号。其中,优选地,所述分类器进一步包括统计单元,分别连接所述分词单元与所述计算单元,用于统计所述特征词在所述 待分类文本中的出现频度,以及统计所述特征词的文本频度,并发送到所述计算单元。技术效果采用本技术所述的面向中图法的学术文献自动分类系统,具有以下优点1)分类体系广、层次细本分类器能够对中图分类法的37个大类,5万余子类进行 自动训练和标注,并取得了较高的准确率,覆盖范围之广、分类层次之细是开创性的,填补 了以往分类器只能对少数类别分类的空白。2)专业文献的智能分类以往多数分类器只能对篇幅较短、内容简单的文本进行 分类,例如网页等。但本分类器能够对学术期刊、博硕士论文、报纸等形式的专业文献进行 准确的分类,其中一篇期刊的数据量最多可达几十k,有5000-10000字左右,博硕士论文可 以过M,字数在3万字以上。不但如此,专业文献的词汇和类别要求比较严格,因此对其分类 需要严格的语义支持,并体现智能化。3)大大提高数据加工效率本分类器将自动分类应用于了文献加工的工作流水5线,辅助并替换了以往的人工分类,大大提升了工作效率,降低的生产成本。附图说明下面将参照附图详细地描述实施方式。图1是表示根据本技术的面向中图法的学术文献自动分类系统的总体结构 的框图。图2是表示根据本技术的面向中图法的学术文献自动分类系统的一个实施 方式的具体结构的框图。图3是表示根据本技术的面向中图法的学术文献自动分类系统的一个实施 方式的基础数据服务器中数据存储形式的示意图。图4是表示根据本技术的面向中图法的学术文献自动分类系统的一个实施 方式的工作流程图。具体实施方式下面将参照附图描述根据本技术一个实施方式的学术文献自动分类系统的 结构和工作原理。图1是表示根据本技术的面向中图法的学术文献自动分类系统的总体结构 的框图。参照图1,本实施方式的学术文献自动分类系统包括基础数据服务器、特征选择 器、训练器和分类器。其中,基础数据服务器,连接特征选择器、训练器和分类器,以数据库 的形式存储学术文献文本,其中包括训练文本和待分类文本。特征选择器,连接所述训练 器,用于从所述基础数据服务器读取所述训练文本,并选择分类所需的特征词,得到特征词 词典。训练器,连接所述分类器,用于从所述基础数据服务器读取所述训练文本,并计算所 述特征选择器得到的所述特征词与分类号的概率关系,从而得到词语-分类号映射词典。 分类器,连接所述基础数据服务器,从所述基础数据服务器读取所述待分类文本,利用所述 特征词词典以及所述词语_分类号映射词典计算所述待测试文本对应的中图分类号。图2是表示根据本技术的面向中图法的学术文献自动分类系统200的具体结 构的框图。参照图2,面向中图法的学术文献自动分类系统200包括基础数据服务器210、 特征选择器220、训练器230本文档来自技高网...

【技术保护点】
一种面向中图法的学术文献自动分类系统,其特征在于,该学术文献自动分类系统包括基础数据服务器、特征选择器、训练器和分类器,其中,基础数据服务器分别与特征选择器、训练器和分类器相连接,用于以数据库的形式存储学术文献文本,所述学术文献文本包括训练文本和待分类文本;特征选择器进一步与训练器相连接,用于从基础数据服务器读取所述训练文本,并选择分类所需的特征词,得到特征词词典;训练器进一步与分类器相连接,用于从基础数据服务器读取所述训练文本,并计算所述特征选择器得到的所述特征词与分类号的概率关系,从而得到词语-分类号映射词典;并且分类器分别与基础数据服务器和训练器相连接,用于从基础数据服务器读取待分类文本,利用所述特征词词典以及所述词语-分类号映射词典计算所述待测试文本对应的中图分类号。

【技术特征摘要】

【专利技术属性】
技术研发人员:张振海罗霄
申请(专利权)人:同方知网北京技术有限公司
类型:实用新型
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1