一种论文分类时的缓冲方法、装置、设备及存储介质制造方法及图纸

技术编号:24121645 阅读:30 留言:0更新日期:2020-05-13 03:15
本申请实施例公开了一种论文分类时的缓冲方法、装置、设备及存储介质,属于文本信息处理技术领域,该方法包括:获取待分类文本集和分类目标集;获取分类目标集的分类标签树和每个待分类文本的分类标签集;将所述分类标签集中的标签元素作为查询条件,从所述分类标签树中获取辅助标签集;基于所述辅助标签集中标签元素和预设的筛选条件,从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型;从初测分类模型集中选择最终分类模型或者新建最终分类模型,并基于最终分类模型,对分类文本集中待分类文本进行分类。本申请有助于提高用户的文本分类效率和维护历史分类模型的可用性,给用户提供更加良好的分类服务。

A buffer method, device, device and storage medium for paper classification

【技术实现步骤摘要】
一种论文分类时的缓冲方法、装置、设备及存储介质
本申请涉及文本处理
,尤其涉及一种论文分类时的缓冲方法、装置、设备及存储介质。
技术介绍
论文文本分类是科技文章研究中一个重要的课题,当有新的论文发表或者被声明时,最重要的一个功能就是做好对该文本的分类。科技论文是对某个科学领域中的学术问题进行研究后表述科学研究成果的理论文章,具有科学性、创造性、理论性、平易性、专业性、实践性等特点。为了有效组织和管理互联网上的海量学术资源,通常按照一个主题类别层次或大规模的概念或对学术资源进行分类,以更好地访问和搜索这些学术资源。目前,在大多数科技论文分类方法中,论文的分类是一个瓶颈问题,很多采用人工标注,这样不仅费时费力、维护困难,而且还要求构建者具有深入的专业知识。分类树具有多层次特性,标签数量较多,当前采用的特征和方法简单低效,而且分类类别较为粗糙,当前急需研究如何自动对学术资源进行分类。
技术实现思路
本申请实施例的目的在于提出一种论文分类时的缓冲方法、装置、设备及存储介质,以解决现有技术中用户在进行论文分类时,分类时间消耗过多和历史分类模型更新不及时模型适用性低的问题。为了解决上述技术问题,本申请实施例提供一种论文分类时的缓冲方法,采用了如下所述的技术方案:一种论文分类时的缓冲方法,包括:获取待分类文本集和分类目标集,其中,所述待分类文本集中包含n个待分类文本和与所述待分类文本一一对应的n个分类标签集,所述分类目标集中包含分类标签树、若干历史分类模型和m个已分类完成的归档文本(n、m为正整数);获取分类目标集的分类标签树和每个待分类文本的分类标签集,其中,所述分类标签树中包含分类目标集中所有归档文本的标签,所述分类标签集中包含若干分类标签;将所述分类标签集中的标签元素作为查询条件,从所述分类标签树中获取所述分类标签集中标签元素的父级标签、子级标签和邻居标签,并将获取的父级标签、子级标签和邻居标签生成辅助标签集;基于所述辅助标签集中标签元素和预设的筛选条件,从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型,并生成初测分类模型集;若初测分类模型集中存在元素,则基于预设的阈值条件,从初测分类模型集中选择最终分类模型,基于最终分类模型,对分类文本集中待分类文本进行分类;若初测分类模型集中不存在元素,基于辅助标签集中元素,从分类目标集中获取辅助文本集,基于TrAdaBoost算法模型,将分类目标集、辅助文本集和分类文本集作为训练文本进行模型预训练,基于辅助文本集和分类目标集构建分类文本集的分类器模型作为最终分类模型,基于所述最终分类模型,对分类文本集中待分类文本进行分类。进一步的,所述论文分类时的缓冲方法,所述分类标签树中包含分类目标集中所有归档文本的标签,还包括:所述分类标签树,基于预先设定的层级关系表对所有归档文本的标签进行层级排列,将预设的标签作为根部标签,依次排列所述根部标签的子级标签,所述子级标签下的子级标签,直到依据层级关系表完成排列,形成树形结构。进一步的,所述论文分类时的缓冲方法,所述将所述分类标签集中的标签元素作为查询条件,从所述分类标签树中获取所述分类标签集中标签元素的父级标签、子级标签和邻居标签包括:基于所述分类标签树和预先设定的获取层数,从分类标签树中获取所述分类标签集中标签元素特定层数的的父级标签、子级标签和邻居标签。进一步的,所述论文分类时的缓冲方法,所述基于所述辅助标签集中标签元素和预设的筛选条件,从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型包括:基于预设的第一筛选条件从历史分类模型中找出满足第一筛选条件的分类模型,其中,所述第一筛选条件如下:|I|≥ακ,在第一筛选条件中,I=SYC∩SYj,表示历史分类模型中每个模型对应的标签集合SYC和辅助标签集中标签元素对应的标签集合SYj的交集,即共有的类别集合,|I|表示共有的类别集合个数,α为预设的常数值,κ为辅助标签集中标签元素的个数,若|I|大于等于α与κ的乘积,则当前历史分类模型满足第一筛选条件。进一步的,所述论文分类时的缓冲方法,所述基于所述辅助标签集中标签元素和预设的筛选条件,从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型还包括:基于预设的第二筛选条件从历史分类模型中找出满足第二筛选条件的分类模型,其中,所述第二筛选条件如下:yi∈subj,在第二筛选条件中,表示历史分类模型中每个模型对应的标签和辅助标签集中标签元素在分类标签树中的最短距离;基于所述第二筛选条件筛选出在所述第一筛选条件下历史分类模型中每个模型对应的标签集合SYC和辅助标签集中标签元素对应的标签集合SYj的交集共有的类别集合个数|I|相同的条件下,选择f(SYC,SYj)为最小值时对应的历史分类模型,组成初测分类模型集。进一步的,所述论文分类时的缓冲方法,所述若初测分类模型集中存在元素,则基于预设的阈值条件,从初测分类模型集中选择最终分类模型包括:获取所述初测分类模型集中每一个元素的f(SYC,SYj)值,并进行遍历,选择f(SYC,SYj)为最大值时对应的历史分类模型作为最终分类模型。进一步的,所述论文分类时的缓冲方法,所述基于最终分类模型,对分类文本集中待分类文本进行分类包括:在使用最终分类模型,对分类文本集中待分类文本进行分类时,获取当前时间为最终分类模型的时间戳;判断被调用的最终分类模型是否为基于TrAdaBoost算法模型新构建的分类器模型,若被调用的最终分类模型为新构建的分类器模型,获取所述分类目标集中每一个历史分类模型的时间戳,并基于所述时间戳排除上次被调用时间最久的历史分类模型,将新构建的分类器模型作为历史分类模型加入到分类目标集中。为了解决上述技术问题,本申请实施例还提供了一种论文分类时的缓冲装置,采用了如下所述的技术方案:一种论文分类时的缓冲装置,包括:第一数据获取模块,用于获取待分类文本集和分类目标集,其中,所述待分类文本集中包含n个待分类文本和与所述待分类文本一一对应的n个分类标签集,所述分类目标集中包含分类标签树、若干历史分类模型和m个已分类完成的归档文本(n、m为正整数);第二数据获取模块,用于获取分类目标集的分类标签树和每个待分类文本的分类标签集,其中,所述分类标签树中包含分类目标集中所有归档文本的标签,所述分类标签集中包含若干分类标签;辅助标签集生成模块,用于将所述分类标签集中的标签元素作为查询条件,从所述分类标签树中获取所述分类标签集中标签元素的父级标签、子级标签和邻居标签,并将获取的父级标签、子级标签和邻居标签生成辅助标签集;初测模型集筛选模块,用于基于所述辅助标签集中标签元素和预设的筛选条件,从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型,并生成初测分类模型集;第一文本分类模块,用于若初测分类模型集中存在元素,则基于预设的阈值条件,从初测分类模型本文档来自技高网...

【技术保护点】
1.一种论文分类时的缓冲方法,其特征在于,包括下述步骤:/n获取待分类文本集和分类目标集,其中,所述待分类文本集中包含n个待分类文本和与所述待分类文本一一对应的n个分类标签集,所述分类目标集中包含分类标签树、若干历史分类模型和m个已分类完成的归档文本(n、m为正整数);/n获取分类目标集的分类标签树和每个待分类文本的分类标签集,其中,所述分类标签树中包含分类目标集中所有归档文本的标签,所述分类标签集中包含若干分类标签;/n将所述分类标签集中的标签元素作为查询条件,从所述分类标签树中获取所述分类标签集中标签元素的父级标签、子级标签和邻居标签,并将获取的父级标签、子级标签和邻居标签生成辅助标签集;/n基于所述辅助标签集中标签元素和预设的筛选条件,从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型,并生成初测分类模型集;/n若初测分类模型集中存在元素,则基于预设的阈值条件,从初测分类模型集中选择最终分类模型,基于最终分类模型,对分类文本集中待分类文本进行分类;/n若初测分类模型集中不存在元素,基于辅助标签集中元素,从分类目标集中获取辅助文本集,基于TrAdaBoost算法模型,将分类目标集、辅助文本集和分类文本集作为训练文本进行模型预训练,基于辅助文本集和分类目标集构建分类文本集的分类器模型作为最终分类模型,基于所述最终分类模型,对分类文本集中待分类文本进行分类。/n...

【技术特征摘要】
1.一种论文分类时的缓冲方法,其特征在于,包括下述步骤:
获取待分类文本集和分类目标集,其中,所述待分类文本集中包含n个待分类文本和与所述待分类文本一一对应的n个分类标签集,所述分类目标集中包含分类标签树、若干历史分类模型和m个已分类完成的归档文本(n、m为正整数);
获取分类目标集的分类标签树和每个待分类文本的分类标签集,其中,所述分类标签树中包含分类目标集中所有归档文本的标签,所述分类标签集中包含若干分类标签;
将所述分类标签集中的标签元素作为查询条件,从所述分类标签树中获取所述分类标签集中标签元素的父级标签、子级标签和邻居标签,并将获取的父级标签、子级标签和邻居标签生成辅助标签集;
基于所述辅助标签集中标签元素和预设的筛选条件,从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型,并生成初测分类模型集;
若初测分类模型集中存在元素,则基于预设的阈值条件,从初测分类模型集中选择最终分类模型,基于最终分类模型,对分类文本集中待分类文本进行分类;
若初测分类模型集中不存在元素,基于辅助标签集中元素,从分类目标集中获取辅助文本集,基于TrAdaBoost算法模型,将分类目标集、辅助文本集和分类文本集作为训练文本进行模型预训练,基于辅助文本集和分类目标集构建分类文本集的分类器模型作为最终分类模型,基于所述最终分类模型,对分类文本集中待分类文本进行分类。


2.根据权利要求1所述的论文分类时的缓冲方法,其特征在于,所述分类标签树中包含分类目标集中所有归档文本的标签,还包括:
所述分类标签树,基于预先设定的层级关系表对所有归档文本的标签进行层级排列,将预设的标签作为根部标签,依次排列所述根部标签的子级标签,所述子级标签下的子级标签,直到依据层级关系表完成排列,形成树形结构。


3.根据权利要求2所述的论文分类时的缓冲方法,其特征在于,所述将所述分类标签集中的标签元素作为查询条件,从所述分类标签树中获取所述分类标签集中标签元素的父级标签、子级标签和邻居标签包括:
基于所述分类标签树和预先设定的获取层数,从分类标签树中获取所述分类标签集中标签元素特定层数的的父级标签、子级标签和邻居标签。


4.根据权利要求3所述的论文分类时的缓冲方法,其特征在于,所述基于所述辅助标签集中标签元素和预设的筛选条件,从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型包括:
基于预设的第一筛选条件从历史分类模型中找出满足第一筛选条件的分类模型,
其中,所述第一筛选条件如下:|I|≥ακ,在第一筛选条件中,I=SYC∩SYj,表示历史分类模型中每个模型对应的标签集合SYC和辅助标签集中标签元素对应的标签集合SYj的交集,即共有的类别集合,|I|表示共有的类别集合个数,α为预设的常数值,κ为辅助标签集中标签元素的个数,若|I|大于等于α与κ的乘积,则当前历史分类模型满足第一筛选条件。


5.根据权利要求4所述的论文分类时的缓冲方法,其特征在于,所述基于所述辅助标签集中标签元素和预设的筛选条件,从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型还包括:
基于预设的第二筛选条件从历史分类模型中找出满足第二筛选条件的分类模型,
其中,所述第二筛选条件如下:yi∈subj,在第二筛选条件中,表示历史分类模型中每个模型对应的标签和辅助标签...

【专利技术属性】
技术研发人员:许爽甘勇崔勇苏玉张杰吴青娥
申请(专利权)人:郑州工程技术学院
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1