【技术实现步骤摘要】
多标签分类方法、装置及计算机可读介质
[0001]本申请属于自然语言处理与人工智能
,尤其涉及一种多标签分类方法、装置及计算机可读介质。
技术介绍
[0002]目前,期刊文献主要根据出版物级别进行分类,期刊所包含的所有文献都被归为该期刊所属的类别,即某一领域的期刊上刊载的文献均划分到该领域范围内,或进行多层级分类,即先将文献归入某一学科大类再根据其特征细分入所在学科大类下的子类。
[0003]然而,上述分类方式存在分类准确度低、精细粒度低等一系列问题,随着信息技术的发展与科研领域的不断细化,数据规模的不断扩大,上述基于期刊一级的文献分类方式已无法满足科研等各方面应用需求。
技术实现思路
[0004]有鉴于此,本申请提供一种多标签分类方法、装置及计算机可读介质,用于通过基于深度学习从篇级粒度对文献等文本对象进行学科多标签分类,来解决已知技术的文献分类方式所存在的至少部分技术问题。
[0005]具体技术方案如下:一种多标签分类方法,包括:获取待处理的目标文本对象,所述目标文本对象为篇级的文本 ...
【技术保护点】
【技术特征摘要】
1.一种多标签分类方法,其特征在于,包括:获取待处理的目标文本对象,所述目标文本对象为篇级的文本对象;获取所述目标文本对象的预设类型对象信息;将所述预设类型对象信息输入预先构建的多标签分类模型,得到所述多标签分类模型输出的所述目标文本对象的多标签分类结果,所述多标签分类结果中的不同标签分别表征所述目标文本对象所属的不同学科类目;其中,所述多标签分类模型包括第一模型和第二模型,所述第一模型用于对篇级文本对象的预设类型对象信息进行文本内容理解,得到对应的文本语义表示,所述第二模型用于基于所述第一模型输出的文本语义表示,预测所述篇级文本对象所属的多个学科类目,以得到所述篇级文本对象的多标签分类结果。2.根据权利要求1所述的方法,其特征在于,所述获取所述目标文本对象的预设类型对象信息,包括:提取所述目标文本对象的摘要数据和标题数据。3.根据权利要求2所述的方法,其特征在于,在提取所述目标文本对象的摘要数据之后,还包括:提取所述摘要数据中能用于表征摘要特征的数据,得到满足数据量条件的摘要特征数据。4.根据权利要求3所述的方法,其特征在于,所述将所述预设类型对象信息输入预先构建的多标签分类模型,得到所述多标签分类模型输出的所述目标文本对象的多标签分类结果,包括:将目标数据输入所述第一模型进行文本内容理解,得到所述第一模型输出的语义向量;所述目标数据包括所述标题数据,所述目标数据还包括所述摘要数据或所述摘要特征数据,所述语义向量包括所述标题数据的第一语义向量,所述语义向量还包括所述摘要数据或所述摘要特征数据的第二语义向量;所述目标文本对象的文本语义表示包括所述第一语义向量和所述第二语义向量;将所述第一语义向量和所述第二语义向量输入所述第二模型进行多标签分类处理,得到所述第二模型输出的所述目标文本对象的多标签分类结果。5.根据权利要求4所述的方法,其特征在于,所述第一语义向量包括所述标题数据所包含的各词语的词向量,所述第二语义向量包括所述摘要数据或所述摘要特征数据所包含的各词语的词向量;所述第二模型基于所述第一语义向量和所述第二语义向量的多标签分类处理过程,包括:将所述第一语义向量,按所对应标题数据中词语的时序特征拆分为多个第一语义分量,得到第一语义分量序列,每个第一语义分量包括所述第一语义向量中的至少一个词向量;将所述第二语义向量,按所对应摘要数据或摘要特征数据中词语的时序特征拆分为多个第二语义分量,得到第二语义分量序列,每个第二语义分量包括所述第二语义向量中的至少一个词向量;将所述第一语义分量序列中的各个第一语义分量按时序依次输入所述第二模型,以由所述第二模型在对应时间步对所输入的第一语义分量进行特征化处理,得到对应时间步输入的第一语义分量的特征表示;
将...
【专利技术属性】
技术研发人员:唐小利,张颖,李晓瑛,刘懿,李爱花,杨雪梅,
申请(专利权)人:中国医学科学院医学信息研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。