当前位置: 首页 > 专利查询>中山大学专利>正文

一种科技论文语料库的构建方法技术

技术编号:20075103 阅读:23 留言:0更新日期:2019-01-15 00:38
本发明专利技术涉及语言数据处理领域,提出一种科技论文语料库的构建方法,包括以下步骤:通过人工下载和爬虫抓取科技论文文档,构建论文集;导入论文集,转换论文格式,清洗冗余和错误信息,提取结构信息;对论文文本进行分词、去除停用词和过滤无语义段落;对所选领域的论文语料数据进行聚类,将研究主题相似的论文放进相同的簇中,构建分类类目主题;对聚类后的语料数据进行自分类测试,验证分类体系的准确性,确定最终该分类系统的类目数目;验证语料库的稳定性、扩展性和内容质量。本发明专利技术从语义的角度提出了较为完整的语料库验证体系,验证语料库的准确性、稳定性、扩展性和文本内容质量。

A Method of Constructing Corpus of Scientific and Technological Papers

The invention relates to the field of language data processing, and proposes a method for constructing a corpus of scientific papers, which includes the following steps: constructing a corpus of scientific papers by downloading and crawling documents manually; importing a corpus of scientific papers, transforming the format of papers, cleaning redundant and error information, extracting structural information; segmenting text of papers, removing stop words and filtering non-semantic paragraphs; Clustering the corpus data of the selected fields, putting the papers with similar research topics into the same cluster to construct the topic of classification category; self-categorizing the clustered corpus data to verify the accuracy of the classification system, determine the number of categories of the final classification system; verifying the stability, expansibility and content quality of the corpus. The present invention proposes a relatively complete corpus verification system from the perspective of semantics to verify the accuracy, stability, expansibility and text content quality of the corpus.

【技术实现步骤摘要】
一种科技论文语料库的构建方法
本专利技术涉及语言数据处理领域,更具体地,涉及一种科技论文语料库的构建方法。
技术介绍
语料库是一种以一定的方式获取与清洗、以特定的规则分类与存储的大量文本数据的集合。在科技论文语料库的构建中,存在如何在保持原有组织体系的基础上扩充科技论文、如何构建语料库的分类特征、如何依据科技论文的结构特征构建合理的主题框架并抽取相应的内容特征、如何构建评判语料库的标准等问题。目前已有的科技论文语料库,多是以关键词、摘要、引用等为语料,缺乏对科技论文正文内容的提取利用,对语料库的评判没有统一的标准,且不能考虑内容间的语义关系。
技术实现思路
本专利技术为克服上述现有技术所述的不能考虑文本内容语义关系等至少一种缺陷,提供一种科技论文语料库的构建方法,能够从语义角度构建完整的语料库验证体系,能够验证语料库的稳定性、扩展性以及文本质量。为解决上述技术问题,本专利技术的技术方案如下:一种科技论文语料库的构建方法,包括以下步骤:S1:通过人工下载和爬虫的方法抓取论文文档,构建科技论文集;S2:导入所述科技论文集,对科技论文的格式进行转换,清洗冗余信息和错误信息,并提取相应的结构信息;S3:对科技论文文本进行分词、去除停用词和过滤无语义段落,构建可供分析的基础文本;S4:通过LDA主题建模聚类方法对所述基础文本进行聚类,将研究主题相似的科技论文放进相同的簇中,构建分类类目主题;S5:对聚类后的基础文本进行自分类测试,验证分类体系的准确性,确定最终该分类系统的类目数目;S6:通过十折交叉验证法验证语料库的稳定性S7:通过分类器和分类模型验证语料库的扩展性;S8:通过分类器获得科技论文不同部分的语义贡献度,验证语料库的内容质量。本技术方案通过对科技论文抓取与清洗、文本预处理、构建分类体系等完整的构建流程,并使用文本分析的方法,构建多个分类器和多个文本分类模型,从语义的角度提出了较为完整的语料库验证体系,验证语料库的准确性、稳定性、扩展性以及文本内容质量等。优选地,步骤S4中,LDA主题建模聚类方法的计算公式为:其中,N为单篇科技论文的总词数,n为单篇科技论文中单词的序号数;θ为文档主题的分布,其先验分布为含超参数α的狄利克雷分布;为单个主题中词语的分布,其先验分布为含超参数β的狄利克雷分布;c为依据θ生成的主题,w为主题c中依据词语分布生成的单词;cn为生成的第n个主题;为词语分布组成的主题c,p()为用于计算概率的贝叶斯公式。从整个主题模型中可以看到,当n小于N时,LDA会重复单词w的生成步骤,直至n达到文档的总词数N时,才结束文档的建模。通过对文档的词语进行遍历,可以得到各个主题的主题词集合以及语料集中文档属于不同主题的概率分布,从而最终生成文档的主题概率模型。因此,在采用LDA作为文本聚类的手段时,常常利用对每一篇文档选择其概率最大的主题作为其类别的方法从而完成无给定标签的文本语料集的聚类过程。优选地,LDA主题建模过程中,采用吉布斯采样估计主题c和单词w的后验分布。优选地,步骤S5的具体步骤包括:S5.1:将科技论文全文作为语料,采用不同的随机数种子将论文语料分割为测试集、训练集两部分;S5.2:采用chi2的特征选择方法,根据给定的特征数量从训练集、测试集中选定文本标识的特征词用于表示文本;S5.3:采用NB分类器和SVM分类器进行分类试验,验证LDA聚类结果的准确性;S5.4:将NB分类器和SVM分类器在不同聚类数目下分类结果进行平均计算,根据平均准确率确定最终的分类数目。优选地,步骤S7的具体步骤包括:S7.1:将语料库语料划分为训练集和测试集两部分;S7.2:采用多个分类器和多种变体型式的CNN分类模型分别对训练集进行训练,对测试集进行分类测试,观察分类效果,验证语料库的扩展性。优选地,多个分类器包括KNN、NB、SVM和MLP分类器。优选地,MLP分类器的计算方法为:y=f(∑iwixi+b)其中,xi为感知机模型的第i个输入,wi为模型中第i个输入所对应的权值,b为模型的偏置值,f为激活函数。优选地,多种变体型式的CNN分类模型包括CNN分类模型、Embedding-CNN分类模型、CNN-LSTM分类模型、CNN-BiLSTM分类模型和CNN+MLP分类模型。优选地,步骤S8的具体步骤如下:S8.1:选取所有科技论文的全文内容为训练集,随机抽样选取部分科技论文,将抽取的科技论文的全文内容分割成两部分,其中论文的标题、摘要和关键词为TAK部分,论文的正文内容为MT部分,构建TAK和MT两组测试集;S8.2:使用SVM和MLP分类器对TAK测试集和MT测试集进行分类,验证TAK测试集和MT测试集的分类准确率,获得科技论文不同部分的语义贡献度,根据得到的语义贡献度验证语料库的文本质量;S8.3:统计两组测试集预测的主题不相符的情况并进行语义分析,验证语料库的主题质量。与现有技术相比,本专利技术技术方案的有益效果是:能从关键词、摘要、引用以及正文内容中提取语料,能够考虑论文内容间的语义关系,能够从语义角度构建完整的语料库验证体系,有效保证语料库的准确性、稳定性、扩展性以及文本质量。附图说明图1为本实施例的科技论文语料库的构建流程图。图2为本实施例的语料自分类实验NB分类器的准确率折线图。图3为本实施例的语料自分类实验SVM分类器的准确率折线图。图4为本实施例的语料自分类实验平均准确率示意图。图5为本实施例的聚类数目为20时不同特征维数下语料自分类的平均准确率。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本专利技术的技术方案做进一步的说明。本实施例从CSSCI中选择情报学的10个核心来源期刊,分别为:《情报科学》、《情报理论与实践》、《情报学报》、《情报杂志》、《情报资料工作》、《图书情报工作》、《图书情报知识》、《图书与情报》、《现代情报》、《现代图书情报技术》,所有期刊按照时间范围2011年-2016年,从中构建科技论文语料库。如图1所示,为本实施例的科技论文语料库的构建流程图。科技论文语料库的构建具体步骤如下:步骤一:通过人工下载和网络爬虫结合的形式获取目标论文,其中网络爬虫的方法是采用python下的selenium网络测试包作为爬虫库的基础,首先通过百度学术等第三方网站爬取科技论文pdf的下载页的外部链接,而后再统一进入这些外部链接,通过模拟点击页面元素的方式,下载论文pdf文件。步骤二:采用pdf2text软件将科技论文从pdf转换为txt格式。论文经过转换后,得到的内容可能包含冗余信息、错别字以及乱码等情况,需要将这些冗余、错误信息清洗。对于清洗完后的数据,则根据文本内容的字号数据,筛选科技论文的不同结构部分,提取相应的结构信息。步骤三:对论文的文本信息进行分词和去停用词操作。在分词步骤中,采用结巴分词工具,并结合提取出的关键词与搜狗输入法的社会学研究、自然语言处理等领域的词库作为词典进行分词,该词典包含30611个词汇。完成分词后,介入停用词表,过滤出一些不必要的词语、无语义段落以及转换过程中出现本文档来自技高网...

【技术保护点】
1.一种科技论文语料库的构建方法,其特征在于:包括以下步骤:S1:通过人工下载和爬虫的方法抓取论文文档,构建科技论文集;S2:导入所述科技论文集,对科技论文的格式进行转换,清洗冗余信息和错误信息,并提取相应的结构信息;S3:对科技论文文本进行分词、去除停用词和过滤无语义段落,构建可供分析的基础文本;S4:通过LDA主题建模聚类方法对所述基础文本进行聚类,将研究主题相似的科技论文放进相同的簇中,构建分类类目主题;S5:对聚类后的基础文本进行自分类测试,验证分类体系的准确性,确定最终该分类系统的类目数目;S6:通过十折交叉验证法验证语料库的稳定性;S7:通过分类器和分类模型验证语料库的扩展性;S8:通过分类器获得科技论文不同部分的语义贡献度,验证语料库的内容质量。

【技术特征摘要】
1.一种科技论文语料库的构建方法,其特征在于:包括以下步骤:S1:通过人工下载和爬虫的方法抓取论文文档,构建科技论文集;S2:导入所述科技论文集,对科技论文的格式进行转换,清洗冗余信息和错误信息,并提取相应的结构信息;S3:对科技论文文本进行分词、去除停用词和过滤无语义段落,构建可供分析的基础文本;S4:通过LDA主题建模聚类方法对所述基础文本进行聚类,将研究主题相似的科技论文放进相同的簇中,构建分类类目主题;S5:对聚类后的基础文本进行自分类测试,验证分类体系的准确性,确定最终该分类系统的类目数目;S6:通过十折交叉验证法验证语料库的稳定性;S7:通过分类器和分类模型验证语料库的扩展性;S8:通过分类器获得科技论文不同部分的语义贡献度,验证语料库的内容质量。2.根据权利要求1所述的一种科技论文语料库的构建方法,其特征在于:所述步骤S4中,LDA主题建模聚类方法的计算公式为:其中,N为单篇科技论文的总词数,n为单篇科技论文中单词的序号数;θ为文档主题的分布,其先验分布为含超参数α的狄利克雷分布;为单个主题中词语的分布,其先验分布为含超参数β的狄利克雷分布;c为依据θ生成的主题,w为主题c中依据词语分布生成的单词;cn为生成的第n个主题;为词语分布组成的主题c,p()为用于计算概率的贝叶斯公式。3.根据权利要求2所述的一种科技论文语料库的构建方法,其特征在于:所述LDA主题建模过程中,采用吉布斯采样估计主题c和单词w的后验分布。4.根据权利要求1所述的一种科技论文语料库的构建方法,其特征在于:所述步骤S5的具体步骤包括:S5.1:将科技论文全文作为语料,采用不同的随机数种子将论文语料分割为测试集、训练集两部分;S5.2:采用chi2的特征选择方法,根据给定的特征数量从训练集、测试集中选定文本标识的特征词用于表示文本;S5.3:采用NB分类器和SVM分类器...

【专利技术属性】
技术研发人员:路永和郑梦慧
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1