The invention relates to the field of language data processing, and proposes a method for constructing a corpus of scientific papers, which includes the following steps: constructing a corpus of scientific papers by downloading and crawling documents manually; importing a corpus of scientific papers, transforming the format of papers, cleaning redundant and error information, extracting structural information; segmenting text of papers, removing stop words and filtering non-semantic paragraphs; Clustering the corpus data of the selected fields, putting the papers with similar research topics into the same cluster to construct the topic of classification category; self-categorizing the clustered corpus data to verify the accuracy of the classification system, determine the number of categories of the final classification system; verifying the stability, expansibility and content quality of the corpus. The present invention proposes a relatively complete corpus verification system from the perspective of semantics to verify the accuracy, stability, expansibility and text content quality of the corpus.
【技术实现步骤摘要】
一种科技论文语料库的构建方法
本专利技术涉及语言数据处理领域,更具体地,涉及一种科技论文语料库的构建方法。
技术介绍
语料库是一种以一定的方式获取与清洗、以特定的规则分类与存储的大量文本数据的集合。在科技论文语料库的构建中,存在如何在保持原有组织体系的基础上扩充科技论文、如何构建语料库的分类特征、如何依据科技论文的结构特征构建合理的主题框架并抽取相应的内容特征、如何构建评判语料库的标准等问题。目前已有的科技论文语料库,多是以关键词、摘要、引用等为语料,缺乏对科技论文正文内容的提取利用,对语料库的评判没有统一的标准,且不能考虑内容间的语义关系。
技术实现思路
本专利技术为克服上述现有技术所述的不能考虑文本内容语义关系等至少一种缺陷,提供一种科技论文语料库的构建方法,能够从语义角度构建完整的语料库验证体系,能够验证语料库的稳定性、扩展性以及文本质量。为解决上述技术问题,本专利技术的技术方案如下:一种科技论文语料库的构建方法,包括以下步骤:S1:通过人工下载和爬虫的方法抓取论文文档,构建科技论文集;S2:导入所述科技论文集,对科技论文的格式进行转换,清洗冗余信息和错误信息,并提取相应的结构信息;S3:对科技论文文本进行分词、去除停用词和过滤无语义段落,构建可供分析的基础文本;S4:通过LDA主题建模聚类方法对所述基础文本进行聚类,将研究主题相似的科技论文放进相同的簇中,构建分类类目主题;S5:对聚类后的基础文本进行自分类测试,验证分类体系的准确性,确定最终该分类系统的类目数目;S6:通过十折交叉验证法验证语料库的稳定性S7:通过分类器和分类模型验证语料库的扩展性;S ...
【技术保护点】
1.一种科技论文语料库的构建方法,其特征在于:包括以下步骤:S1:通过人工下载和爬虫的方法抓取论文文档,构建科技论文集;S2:导入所述科技论文集,对科技论文的格式进行转换,清洗冗余信息和错误信息,并提取相应的结构信息;S3:对科技论文文本进行分词、去除停用词和过滤无语义段落,构建可供分析的基础文本;S4:通过LDA主题建模聚类方法对所述基础文本进行聚类,将研究主题相似的科技论文放进相同的簇中,构建分类类目主题;S5:对聚类后的基础文本进行自分类测试,验证分类体系的准确性,确定最终该分类系统的类目数目;S6:通过十折交叉验证法验证语料库的稳定性;S7:通过分类器和分类模型验证语料库的扩展性;S8:通过分类器获得科技论文不同部分的语义贡献度,验证语料库的内容质量。
【技术特征摘要】
1.一种科技论文语料库的构建方法,其特征在于:包括以下步骤:S1:通过人工下载和爬虫的方法抓取论文文档,构建科技论文集;S2:导入所述科技论文集,对科技论文的格式进行转换,清洗冗余信息和错误信息,并提取相应的结构信息;S3:对科技论文文本进行分词、去除停用词和过滤无语义段落,构建可供分析的基础文本;S4:通过LDA主题建模聚类方法对所述基础文本进行聚类,将研究主题相似的科技论文放进相同的簇中,构建分类类目主题;S5:对聚类后的基础文本进行自分类测试,验证分类体系的准确性,确定最终该分类系统的类目数目;S6:通过十折交叉验证法验证语料库的稳定性;S7:通过分类器和分类模型验证语料库的扩展性;S8:通过分类器获得科技论文不同部分的语义贡献度,验证语料库的内容质量。2.根据权利要求1所述的一种科技论文语料库的构建方法,其特征在于:所述步骤S4中,LDA主题建模聚类方法的计算公式为:其中,N为单篇科技论文的总词数,n为单篇科技论文中单词的序号数;θ为文档主题的分布,其先验分布为含超参数α的狄利克雷分布;为单个主题中词语的分布,其先验分布为含超参数β的狄利克雷分布;c为依据θ生成的主题,w为主题c中依据词语分布生成的单词;cn为生成的第n个主题;为词语分布组成的主题c,p()为用于计算概率的贝叶斯公式。3.根据权利要求2所述的一种科技论文语料库的构建方法,其特征在于:所述LDA主题建模过程中,采用吉布斯采样估计主题c和单词w的后验分布。4.根据权利要求1所述的一种科技论文语料库的构建方法,其特征在于:所述步骤S5的具体步骤包括:S5.1:将科技论文全文作为语料,采用不同的随机数种子将论文语料分割为测试集、训练集两部分;S5.2:采用chi2的特征选择方法,根据给定的特征数量从训练集、测试集中选定文本标识的特征词用于表示文本;S5.3:采用NB分类器和SVM分类器...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。