文献分类方法、装置、设备及存储介质制造方法及图纸

技术编号:21605657 阅读:28 留言:0更新日期:2019-07-13 18:16
本发明专利技术实施例公开了一种文献分类方法、装置、设备及存储介质。包括:获取待分类文献的文本信息以及类别标签信息;其中,类别标签信息为设定分类体系中描述文献类别的信息;对所述文本信息和所述类别标签信息进行设定神经网络处理,并根据所述设定神经网络的处理结果确定所述文献的分类。本发明专利技术实施例提供的文献分类方法,采用设定神经网对文本信息和类别标签信息同时进行处理,获得文献的分类,相对于现有技术,不只是基于文本信息对文献进行分类,实现对文献的自动分类,提高对文献分类的准确性。

Document classification methods, devices, equipment and storage media

【技术实现步骤摘要】
文献分类方法、装置、设备及存储介质
本专利技术实施例涉及文献分类
,尤其涉及一种文献分类方法、装置、设备及存储介质。
技术介绍
随着专利及非专利文本等数字文献数量的不断增加,对数字文献按照一定分类体系进行分类,显得越来越重要。其中,常用的分类体系包括联合专利分类体系(CooperativePatentClassification,CPC)和国际专利分类体系(InternationalPatentClassification,IPC)等。目前,对文献分类工作的大部分仍由专业人士手动完成,费时又费力。因此,急需要一种能够自动完成对文献分类的方法。相关技术中,采用如下两种方式实现对文献的自动分类:一种是采用传统的机器学习模型,如支持向量机(SupportVectorMachine,SVM))实现文献的分类。另一种是采用深度学习模型,如卷积神经网络(convolutionalneuralnetwork,CNN)、递归神经网络(recurrentneuralnetwork,RNN)对文献分类。但是,这两种方法都只是基于文献的文本信息进行分类,准确度不高。
技术实现思路
本专利技术实施例提供一种文献分类方法、装置、设备及存储介质,以实现对文献的自动分类,可以提高对文献分类的准确性。第一方面,本专利技术实施例提供了一种文献分类方法,该方法包括:获取待分类文献的文本信息以及类别标签信息;其中,类别标签信息为设定分类体系中描述文献类别的信息;对所述文本信息和所述类别标签信息进行设定神经网络处理,并根据所述设定神经网络的处理结果确定所述文献的分类。进一步地,所述设定神经网络包括深度子网络、宽度子网络和全连接子网络;所述全连接子网络分别与所述深度子网络和所述宽度子网络连接;对所述文本信息和所述类别标签信息进行设定神经网络处理,包括:将所述文本信息输入所述深度子网络获得文本向量;将所述文本信息和所述类别标签信息输入所述宽度子网络,获得所述文本信息和所述类别标签信息间的文本相关度向量;所述文本相关度向量是由文本信息和各类别标签信息的文本相关度组成的向量;将所述文本向量和所述文本相关度向量输入所述全连接子网络,获得处理结果。进一步地,所述深度子网络包括嵌入层和至少一个非线性层;将所述文本信息输入所述深度子网络获得文本向量,包括:所述嵌入层对所述文本信息进行分析,获得多个词向量;所述至少一个非线性层对所述多个词向量进行非线性变换,获得文本向量。进一步地,将所述文本信息和所述类别标签信息输入所述宽度子网络,获得所述文本信息和所述类别标签信息间的文本相关度向量,包括:所述宽度子网络按照设定方式对所述文本信息和所述类别标签信息处理,获得文本相关度向量;所述设定方式包括:bm25算法或者向量空间模型。进一步地,按照所述向量空间模型对所述文本信息和所述类别标签信息处理,获得文本相关度,包括:获取所述文本信息和所述类别标签信息分别对应的词向量;计算所述词向量间的距离获得文本相关度。进一步地,所述全连接子网络包括拼接层和激活层;将所述文本向量和所述文本相关度向量输入所述全连接子网络,获得处理结果,包括:所述拼接层将所述文本向量和文本相关度向量拼接,并将拼接后的向量与权重矩阵相乘,获得权重向量;所述激活层采用激活函数对所述权重向量处理,获得所述文献对应的类别概率向量;其中,所述类别概率向量中的概率与类别标签具有一一对应关系。进一步地,在获取待分类文献的文本信息以及类别标签信息之前,还包括:获取文献样本集及类别标签信息;所述文献样本集包括多个文献和各文献分别对应的真实类别概率向量;所述文献包括专利文献或者非专利文献;基于所述文献样本集及类别标签信息对设定神经网络进行训练。进一步地,当文献为非专利文献时,获取文献样本集及类别标签信息,包括:根据所述非专利文献与专利文献的引用关系,确定所述非专利文献的真实类别概率向量;按照关键词计算算法提取非专利文献对应各类别的优选关键词;并根据所述优选关键词对类别标签信息进行更新。进一步地,基于所述文献样本集及类别标签信息对设定神经网络进行训练,包括:将所述文献样本集和类别标签信息输入设定神经网络,获得初始类别概率向量;根据所述初始类别概率向量和所述真实类别概率向量计算损失函数;根据所述损失函数按照适应性估计矩阵算法对设定神经网络中的参数进行修正,直到损失函数的值满足设定条件,所述设定神经网络进行训练完成。第二方面,本专利技术实施例还提供了一种文献分类装置,该装置包括:类别标签信息获取模块,用于获取待分类文献的文本信息以及类别标签信息;其中,类别标签信息为设定分类体系中描述文献类别的信息;文献分类确定模块,用于对所述文本信息和所述类别标签信息进行设定神经网络处理,并根据所述设定神经网络的处理结果确定所述文献的分类。进一步地,设定神经网络包括深度子网络、宽度子网络和全连接子网络;全连接子网络分别与深度子网络和宽度子网络连接;文献分类确定模块,还用于:将文本信息输入深度子网络获得文本向量;将文本信息和类别标签信息输入宽度子网络,获得文本信息和类别标签信息间的文本相关度向量;文本相关度向量是由文本信息和各类别标签信息的文本相关度组成的向量;将文本向量和文本相关度向量输入全连接子网络,获得处理结果。进一步地,深度子网络包括嵌入层和至少一个非线性层;将文本信息输入深度子网络获得文本向量,包括:嵌入层对文本信息进行分析,获得多个词向量;至少一个非线性层对多个词向量进行非线性变换,获得文本向量。进一步地,将文本信息和类别标签信息输入宽度子网络,获得文本信息和类别标签信息间的文本相关度向量,包括:宽度子网络按照设定方式对文本信息和类别标签信息处理,获得文本相关度向量;设定方式包括:bm25算法或者向量空间模型。进一步地,按照向量空间模型对文本信息和类别标签信息处理,获得文本相关度,包括:获取文本信息和类别标签信息分别对应的词向量;计算词向量间的距离获得文本相关度。进一步地,全连接子网络包括拼接层和激活层;将文本向量和文本相关度向量输入全连接子网络,获得处理结果,包括:拼接层将文本向量和文本相关度向量拼接,并将拼接后的向量与权重矩阵相乘,获得权重向量;激活层采用激活函数对权重向量处理,获得文献对应的类别概率向量;其中,类别概率向量中的概率与类别标签具有一一对应关系。进一步地,还包括文献样本集获取模块,用于获取文献样本集及类别标签信息;文献样本集包括多个文献和各文献分别对应的真实类别概率向量;文献包括专利文献或者非专利文献;设定神经网络训练模块,用于基于文献样本集及类别标签信息对设定神经网络进行训练。进一步地,当文献为非专利文献时,文献样本集获取模块,还用于:根据非专利文献与专利文献的引用关系,将所述专利文献的分类信息自动标注为所述非专利文献的分类信息。进一步地,文献样本集获取模块,还用于:按照关键词计算算法提取非专利文献对应各类别的优选关键词;并根据优选关键词对类别标签信息进行更新。进一步地,关键词计算算法可以是:计算出非专利文献按照各个类别的TF-IDF最高的一个或多个词,作为优选关键词;根据优选关键词对各个类别标签信息进行更新。进一步地,关键词计算算法可以是:用词嵌入层表示的最相似的词来扩展标签描述,所述嵌入层是在非专利文献上训练本文档来自技高网...

【技术保护点】
1.一种文献分类方法,其特征在于,包括:获取待分类文献的文本信息以及类别标签信息;其中,类别标签信息为设定分类体系中描述文献类别的信息;对所述文本信息和所述类别标签信息进行设定神经网络处理,并根据所述设定神经网络的处理结果确定所述文献的分类。

【技术特征摘要】
1.一种文献分类方法,其特征在于,包括:获取待分类文献的文本信息以及类别标签信息;其中,类别标签信息为设定分类体系中描述文献类别的信息;对所述文本信息和所述类别标签信息进行设定神经网络处理,并根据所述设定神经网络的处理结果确定所述文献的分类。2.根据权利要求1所述的方法,其特征在于,所述设定神经网络包括深度子网络、宽度子网络和全连接子网络;所述全连接子网络分别与所述深度子网络和所述宽度子网络连接;对所述文本信息和所述类别标签信息进行设定神经网络处理,包括:将所述文本信息输入所述深度子网络获得文本向量;将所述文本信息和所述类别标签信息输入所述宽度子网络,获得所述文本信息和所述类别标签信息间的文本相关度向量;所述文本相关度向量是由文本信息和各类别标签信息的文本相关度组成的向量;将所述文本向量和所述文本相关度向量输入所述全连接子网络,获得处理结果。3.根据权利要求2所述的方法,其特征在于,所述深度子网络包括嵌入层和至少一个非线性层;将所述文本信息输入所述深度子网络获得文本向量,包括:所述嵌入层对所述文本信息进行分析,获得多个词向量;所述至少一个非线性层对所述多个词向量进行非线性变换,获得文本向量。4.根据权利要求2所述的方法,其特征在于,将所述文本信息和所述类别标签信息输入所述宽度子网络,获得所述文本信息和所述类别标签信息间的文本相关度向量,包括:所述宽度子网络按照设定方式对所述文本信息和所述类别标签信息处理,获得文本相关度向量;所述设定方式包括:bm25算法或者向量空间模型。5.根据权利要求4所述的方法,其特征在于,按照所述向量空间模型对所述文本信息和所述类别标签信息处理,获得文本相关度,包括:获取所述文本信息和所述类别标签信息分别对应的词向量;计算所述词向量间的距离获得文本相关度。6.根据权利要求2所述的方法,其特征在于,所述全连接子网络包括拼接层和激活层;将所述文本向量和所述文本相关度向量输入所述全连接子网络,获得处理结果,包括:所述拼接层将所述文本向量和文本相关度向量拼接,并将拼接后的向量与权重矩阵相乘,获得权重向量;所述激活层采用激活函数对所述权重向量处理,获得所述文献对应的类别概率向量;其中,所述类别概率向量中的概率与类别标签具有一一对应关系。7.根据权利要求1-6任一项所述的方法,其特征在于,在获取待分类文献的文本信息以及类别标签信息之前,还包括:获取文献样本集及类别标签信息;所述文献样本集包括多个文献和各文献分别对应的真实类别概率向量;所述文献包括专利文献或者非专利文献;基于所述文献样本集及类别标签信息对设定神经网络进行训练。8.根据权利要求7所述的方法,其特征在于,当文献为非专利文献时,获取文献样本集及类别标签信息,包括:根据所述非专利文献与专利文献的引用关系,将所述专利文献的分类信息自动标注为所述非专利文献的分类信息。9.根据权利要求8所述的方法,其特征在于,获取文献样本集及类别标签信息,还包括:按照关键词计算算法提取非专利文献对应各类别的优选关键词;并根据所述优选关键词对类别标签信息进行更新。10.根据权利要求9所述的方法,其特征在于,关键词计算算法可以是:计算出非专利文献按照各个类别的TF-IDF最高的一个或多个词,作为优选关键词;根据优选关键词对各个类别标签信息进行更新。11.根据权利要求9所述的方法,其特征在于,关键词计算算法可以是:用词嵌入层表示的最相似的词来扩展标签描述,所述嵌入层是在非专利文献上训练的词到向量的转换。12.根据权利要求7所述的方法,其特征在于,基于所述文献样本集及类别标签信息对设定神经网络进行训练,包括:将所述文献样本集和类别标签信息输入设定神经网络,获得初始类别概率向量;根据所述初始类别概率向量和所述真实类别概率向量计算损失函数;根据所述损失函数按照适应性估计矩阵算法对设定神经网络中的参数进行修正,直到损失函数的值满足设定条件,所述设定神经网络进行训练完成。13.一种文献分类装置,其特征在于,包括...

【专利技术属性】
技术研发人员:牛牧遥蔡洁黑马
申请(专利权)人:智慧芽信息科技苏州有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1