文献资料文本分类方法、分类模型构建方法和分类装置制造方法及图纸

技术编号:32860779 阅读:18 留言:0更新日期:2022-03-30 19:39
本说明书实施方式提供了一种文献资料文本分类方法、分类模型构建方法和分类装置。包括:基于类别标签树给文献资料文本添加类别标签,所述类别标签树被划分为包括多个基础类别标签的基础层级,和从属于所述基础层级并包括多个扩展类别标签的扩展层级;所述方法包括:确定文献资料文本在所述基础层级中对应的基础类别标签,所述基础类别标签作为目标基础类别标签;将所述文献资料文本与所述扩展层级中的扩展类别标签执行相似度运算得到与所述文献资料文本对应的目标扩展类别标签。通过基于类别标签树给文献资料文本添加具有层次关系的类别标签,以实现对文献资料文本在不同研究领域的分类、统计和查询。统计和查询。统计和查询。

【技术实现步骤摘要】
文献资料文本分类方法、分类模型构建方法和分类装置


[0001]本说明书实施方式涉及自然语言处理领域,具体涉及一种文献资料文本分类方法、分类模型构建方法和分类装置。

技术介绍

[0002]随着科学技术水平的不断发展,文献资料文本数据也随之增多,对于文献资料文本分类的工作量也随之增大。现有的文献资料文本分类方法是人工标注或者基于机器学习的方法给文献资料文本打上标签。然而,随着文献资料文本数量的增多,与之对应的类别标签数量也逐渐增多,会导致较多的无效标签产生。

技术实现思路

[0003]有鉴于此,本说明书多个实施方式致力于提供一种文献资料文本分类方法、模型构建方法、分类装置、计算机设备和计算机存储介质,以提供一种能对不同文献资料文本打上层次标签的方法。
[0004]本说明书实施方式提出了一种文献资料文本分类方法,包括:基于类别标签树为文献资料文本添加类别标签,所述类别标签树被划分为包括多个基础类别标签的基础层级,和从属于所述基础层级并包括多个扩展类别标签的扩展层级;其中,所述基础层级至少包括基础根层级和基础末端层级,所述基础根本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文献资料文本分类方法,其特征在于,基于类别标签树为文献资料文本添加类别标签,所述类别标签树被划分为包括多个基础类别标签的基础层级,和从属于所述基础层级并包括多个扩展类别标签的扩展层级;其中,所述基础层级至少包括基础根层级和基础末端层级,所述基础根层级包括所述类别标签树的根节点,所述基础末端层级包括所述基础层级中远离所述根节点的基础类别标签;所述方法包括:确定文献资料文本在所述基础层级中对应的基础类别标签,所述基础类别标签作为目标基础类别标签;其中,处于所述根节点的基础类别标签至所述基础末端层级的目标基础类别标签按照层级间从属关系形成第一基础标签路径;将所述文献资料文本与所述扩展层级中的扩展类别标签执行相似度运算得到与所述文献资料文本对应的目标扩展类别标签;其中,所述目标基础类别标签和所述目标扩展类别标签作为所述文献资料文本的类别标签。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:抽取所述文献资料文本的关键词,所述关键词用于作为新增的类别标签;确定所述关键词处于所述类别标签树的父节点;将所述关键词添加至所述类别标签树,并作为所述父节点的子节点。3.根据权利要求1所述的方法,其特征在于,确定文献资料文本在所述基础层级中对应的目标基础类别标签的步骤,包括:生成文献资料文本的第一多维特征向量;其中,所述第一多维特征向量用于表征对应的文献资料文本;基于所述文献资料文本的第一多维特征向量与处于所述基础层级的类别标签构成的向量进行匹配运算,得到所述文献资料文本处于所述基础层级的目标基础类别标签。4.根据权利要求3所述的方法,所述文献资料文本包括专利文本,其特征在于,生成文献资料文本的第一多维特征向量的步骤,包括:使用所述文献资料文本的至少第一部分文本数据构建第一词向量;其中,所述第一部分文本数据至少包括以下之一:所述专利文本中的实施方式、所述专利文本中的发明内容、所述专利文本中的权利要求书;使用所述第一词向量和所述文献资料文本的第二部分文本数据生成所述第一多维特征向量;其中,所述第二部分文本数据至少包括以下之一:所述专利文本中的分类号、标题、摘要、独立权利要求。5.根据权利要求3所述的方法,其特征在于,基于所述文献资料文本的第一多维特征向量与处于所述基础层级的类别标签构成的向量进行匹配运算,得到所述文献资料文本处于所述基础层级的目标基础类别标签的步骤,包括:计算所述基础末端层级包括的基础类别标签构成的向量与所述第一多维特征向量的匹配度;基于所述匹配度在基础类别标签中确定目标基础类别标签。6.根据权利要求5所述的方法,其特征在于,所述类别标签树的数量为多棵;基于所述匹配度在所述基础类别标签中确定目标基础类别标签的步骤,还包括:提取所述基础类别标签中,所述匹配度大于预设阈值的基础类别标签作为初选基础类别标签;
分别求取所述初选基础类别标签从属于每棵类别标签树的规则融合权重;其中,所述规则融合权重表示所述初选基础类别标签属于类别标签树的子节点的概率;根据所述匹配度和所述规则融合权重,选定所述初选基础类别标签中的目标基础类别标签,以及所述目标基础类别标签处于所述类别标签树的基础标签路径。7.根据权利要求1所述的方法,所述文献资料文本包括专利文本,其特征在于,将所述文献资料文本与所述扩展层级中的扩展类别标签执行相似度运算得到与所述文献资料文本对应的目标扩展类别标签的步骤,包括:至少使用所述文献资料文本的第三部分文本数据在所述扩展层级包括的扩展类别标签中进行文本匹配得到候选扩展类别标签;其中,所述第三部分文本数据至少包括以下之一:所述文献资料文本的摘要、标题、技术领域、背景技术、发明内容、实施方式、权利要求;生成表征所述文献资料文本和所述候选扩展类别标签的第二多维特征向量;计算所述候选扩展类别标签与所述第二多维特征向量的相似度;基于所述相似度和从属于所述标签树根节点的规则权重在所述候选扩展类别标签中确定目标扩展类别标签。8.根据权利要求7所述的方法,其特征在于,至少使用所述文献资料文本的第三部分文本数据在所述扩展层级包括的扩展类别标签中进行文本匹配得到候选扩展类别标签,包括:至少使用所述文献资料文本的第三部分文本数据在从属于所述目标基础类别标签的扩展类别标签中进行文本匹配得到候选扩展类别标签;相应的,基于所述相似度在所述候选扩展类别标签中确定目标扩展类别标签。9.根据权利要求7所述的方法,所述文献资料文本包括专利文本,其特征在于,生成表征所述文献资料文本和所述候选扩展类别标签的第二多维特征向量的步骤,包括:使用所述文献资料文本的至少第四部分文本数据构建第二词向量;其中,所述第四部分文本数据至少包括以下之一:所述文献资料文本中的实施方式、所述文献资料文本中的发明内容、所述文献资料文本中的权利要求书;利用所述文献资料文本的第五部分...

【专利技术属性】
技术研发人员:肖燕思孙敏任泽陈林卿陆剑平王为磊屠昶旸张济徽
申请(专利权)人:智慧芽信息科技苏州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1