当前位置: 首页 > 专利查询>吉林大学专利>正文

一种文献自动分类方法技术

技术编号:20242396 阅读:19 留言:0更新日期:2019-01-29 23:21
本发明专利技术公开一种文献自动分类方法,所述方法包括:构建词典数据库;获取待分类文献的关键词;根据所述待分类文献的关键词在所述词典数据库中进行查找,得到待分类文献关键词的分类号信息;根据所述待分类文献的关键词的分类号信息确定待分类文献的分类号,实现文献的自动分类。本发明专利技术中的该方法,能够实现对文献的快速自动分类。

【技术实现步骤摘要】
一种文献自动分类方法
本专利技术涉及文献分类领域,特别是涉及一种文献自动分类方法。
技术介绍
随着期刊电子化的发展,针对数字文献的分类标引工作长期以来都是由编目人员手工去完成,既费时又费力。且由于信息的模糊性以及数字文献种类、数量的剧增,仅靠提高编目人员的业务素质来保证文献分类标引的准确性是不现实的。而通过计算机直接对文献信息进行过滤、分类,把用户真正需要的部分提交给用户,就能把用户从烦琐的文献处理工作中解放出来,更加快捷地区分不同类型文献,使大量的无序的文献系统化,极大地提高信息的利用率。通过文献自动分类系统,能够很好地帮助用户整理、获取信息,在提高信息检索速度和准确率方面意义重大,且具有很重要的研究价值。目前,中图法框架下的文献自动分类方法主要分为两种,一种是基于知识库的分类方法,一种是基于机器学习的分类方法。其中,基于知识库的分类方法,王爽以已有的标引经验数据为基础,从构建知识库,自动分词,特征项选取,特征项权重计算,分类算法几个方面进行论述,最后设计并实现了一个基于知识库的文档自动分类系统。张玉芳以数据库中标引经验数据为基础,结合《中图法》的类目层次结构,构建了一个多层次知识库,并基于该知识库实现了自顶向下的多层次文档自动分类。何琳等人,在知识库方法的基础之上,通过引进机器学习的方法测定关键词和类目概念之间的关联度,构建关键词、分类号、归属度三元组矩阵的方法进行分类匹配。这项研究也标示着单靠知识库的方法已经不能完全解决《中图法》分类体系下的自动分类问题。基于机器学习的分类方法,中国知网的孙雄勇等,利用CNKI海量的己经经过人工标注的期刊语料,对近20万的短语词汇进行训练,为每一个短语赋予相应的一个或多个中图分类号,并训练获得每一个短语的相应权重。然后在此基础上,计算新文献的中图分类号,并引入了置信度概念,实现了分离出高准确率结果集。赵纪元等人研究了基于中图法的学术文献自动分类方法,该方法结合了CHI特征选择、后验概率训练以及TF-IDF概率加权等方法,实现了对50余万篇学术期刊的自动分类。同时研究了以二元词汇作为特征进一步修正上述结果,在保证正确率基本不变的情况下,使分类的输出比例大大提升。在《中图法》分类体系下应用机器学习方法进行自动分类的研究,较早的有文献,但试验材料中使用的文本分别是新闻稿、网页和期刊论文。直到2010年以后才有文献针对图书进行自动分类研究。王昊等人尝试将BP神经网络和支持向量机等机器学习算法引入到书目分类中,建立了面向中图法的基于机器学习的书目层次分类系统模型,提出了采用特征加权方式描述书目和浅层次分类体系构建的设计思路,并通过大规模实验验证了该模型的可行性和合理性,基本上解决了没有主题标注情况下书目的自动分类问题。但是机器学习方法存在词-文本矩阵维度较高、不易计算等缺陷。
技术实现思路
本专利技术的目的是提供一种文献自动分类方法,实现对文献的自动快速分类。为实现上述目的,本专利技术提供了如下方案:一种文献自动分类方法,所述方法包括:构建词典数据库;获取待分类文献的关键词;根据所述待分类文献的关键词在所述词典数据库中进行查找,得到待分类文献关键词的分类号信息;根据所述待分类文献的关键词的分类号信息确定待分类文献的分类号,实现文献的自动分类。可选的,所述构建词典数据库具体包括:获取文献,提取文献中的关键词以及分类号;对所述文献中的关键词进行数据清洗;将所述文献中的关键词以及分类号一一对应;对所述数据清洗后的文献中的关键词进行位置标记;对所述分类后的文献中的关键词进行关键词位置权重赋值,得到文献中的关键词位置权重;根据所述文献中的关键词、所述文献中的关键词对应的分类号以及所述文献中的关键词的位置权重构建词典数据库。可选的,所述数据清洗具体包括:剔除与文献类别无关的所述文献中的关键词;根据所述文献类别相关性对剔除后的所述文献中的关键词进行排序,并采用符号分隔相邻两所述关键词;剔除经排序后的前5个以外的所述文献中的关键词;将前5个所述文献中的关键词中的繁体字转换为简体字。可选的,采用数字序号方式对所述数据清洗后的文献中的关键词进行位置标记。可选的,将所述所述数据清洗后的文献中的关键词位置标记为①、②、③、④、⑤。可选的,所述对所述分类后的文献中的关键词进行关键词位置权重赋值,得到文献中的关键词位置权重具体包括:对处于位置①至⑤的关键词,分别赋予不同的位置权重,得到多组位置权重值;任取其中5组位置权重值;采用样本量实验法对多组权重值的分类准确率进行检验,得到检验结果;根据所述检验结果,选取准确率最高的一组关键词位置权重。可选的,所述根据所述待分类文献的关键词的分类号信息确定待分类文献的分类号,实现文献的自动分类具体采用以下公式:对于关键词w,在m篇文献中出现,所对应的分类号有n种,分别为C1,C2,…Cn,关键词w对应分类号C1的权重计算公式为:其中weight(w,C1)表示待分类文献中关键词w对于分类号C1的权重,posweight(w)表示关键词w的位置权重,m表示待分类文献的数量,k表示文献,j表示关键词;分类号C1的权重为:weight(C1)表示待分类文献对于分类号C1的权重,weight(wi,C1)表示待分类文献中第i个关键词wi对于分类号Ci的权重,posweight(wi)表示关键词wi的位置权重;分别计算其余分类号的权重,选取权重最大的作为待分类文献的分类号。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术中的文献自动分类方法,首先获取文献关键词,并对所述关键词进行数据清洗,数据清洗后的关键词能够剔除与关键词无关的词句,大大加快了了后续对关键词的分类速度和准确度;然后再对所述清洗后的关键词进行分类;对所述分类后的关键词进行位置标记;对所述分类后的关键词进行位置权重赋值以及分类号权重赋值,最终得到词典数据库,将待分类的文献以及关键词在词典数据库中进行查找,进而实现了文献的自动分类。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例文献自动分类方法流程图;图2为本专利技术实施例关键词位置权重比较结果图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的目的是提供一种文献自动分类方法,实现对文献的自动快速分类。为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。图1为本专利技术实施例文献自动分类方法流程图,如图1所示,所述方法包括:步骤101:构建词典数据库;步骤102:获取待分类文献的关键词;步骤103:根据所述待分类文献的关键词在所述词典数据库中进行查找,得到待分类文献关键词的分类号信息;步骤104:根据所述待分类文献的关键词的分类号信息确定待分类文献的分类号,实现文本文档来自技高网
...

【技术保护点】
1.一种文献自动分类方法,其特征在于,所述方法包括:构建词典数据库;获取待分类文献的关键词;根据所述待分类文献的关键词在所述词典数据库中进行查找,得到待分类文献关键词的分类号信息;根据所述待分类文献的关键词的分类号信息确定待分类文献的分类号,实现文献的自动分类。

【技术特征摘要】
1.一种文献自动分类方法,其特征在于,所述方法包括:构建词典数据库;获取待分类文献的关键词;根据所述待分类文献的关键词在所述词典数据库中进行查找,得到待分类文献关键词的分类号信息;根据所述待分类文献的关键词的分类号信息确定待分类文献的分类号,实现文献的自动分类。2.根据权利要求1所述的文献自动分类方法,其特征在于,所述构建词典数据库具体包括:获取文献,提取文献中的关键词以及分类号;对所述文献中的关键词进行数据清洗;将所述文献中的关键词以及分类号一一对应;对所述数据清洗后的文献中的关键词进行位置标记;对所述分类后的文献中的关键词进行关键词位置权重赋值,得到文献中的关键词位置权重;根据所述文献中的关键词、所述文献中的关键词对应的分类号以及所述文献中的关键词的位置权重构建词典数据库。3.根据权利要求2所述的文献自动分类方法,其特征在于,所述数据清洗具体包括:剔除与文献类别无关的所述文献中的关键词;根据所述文献类别相关性对剔除后的所述文献中的关键词进行排序,并采用符号分隔相邻两所述关键词;剔除经排序后的前5个以外的所述文献中的关键词;将前5个所述文献中的关键词中的繁体字转换为简体字。4.根据权利要求2所述的文献自动分类方法,其特征在于,采用数字序号方式对所述数据清洗后的文献中的关键词进行位置标记。5.根据权利要求4所述的文献自动分类方法,其特...

【专利技术属性】
技术研发人员:张云秋朱祥李博诚
申请(专利权)人:吉林大学
类型:发明
国别省市:吉林,22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1