当前位置: 首页 > 专利查询>之江实验室专利>正文

一种论文分类方法、装置、存储介质及电子设备制造方法及图纸

技术编号:38320512 阅读:8 留言:0更新日期:2023-07-29 09:02
本说明书公开了一种论文分类方法、装置、存储介质及电子设备,本说明书实施例通过论文类别预测模型,针对包含有论文的关联信息的拓扑图中的每个节点,基于该节点的节点特征、邻居节点的节点特征以及该节点与邻居节点之间的注意力权重,对该节点的初始节点特征进行预设次数的特征调整,得到节点的最终节点特征,并基于论文节点的最终节点特征,预测出论文的类别。其中,关联信息包括:论文、引用论文、论文的作者、作者的机构等。在此方法中,综合考虑论文与引用论文之间的关系、论文与作者之间的关系、作者与机构之间的关系,以确定出论文节点的最终节点特征,可以提高论文节点的特征表达的准确性,从而提高论文分类的准确性。从而提高论文分类的准确性。从而提高论文分类的准确性。

【技术实现步骤摘要】
一种论文分类方法、装置、存储介质及电子设备


[0001]本说明书涉及图神经网络
,尤其涉及一种论文分类方法、装置、存储介质及电子设备。

技术介绍

[0002]随着科技的发展,每年的论文数量成指数级增长,论文的主题类别大多由作者手动确定。而对论文主题进行分类的机器学习模型不仅可以减轻人工标注主题类别的巨大负担,还可以用于对大量未标注主题类别的论文进行分类,从而更好地搜索和组织学术论文。
[0003]现有技术中,可以基于论文的文本内容,匹配文本内容中的关键词,以对论文的主题类别进行分类,但是,由于论文的文本内容比较复杂,可能涉及多个主题的关键词,这导致采用现有的论文分类方法会出现分类出错的问题,降低了论文分类的准确性。
[0004]因此,本说明书提供一种基于图神经网络模型的论文分类方法,以提高论文分类的准确性。

技术实现思路

[0005]本说明书实施例提供一种论文分类方法、装置、存储介质及电子设备,以部分解决上述现有技术存在的问题。
[0006]本说明书实施例采用下述技术方案:
[0007]本说明书提供的一种论文分类方法,包括:
[0008]获取待分类的论文的关联信息,其中,所述关联信息包括:所述论文、所述论文的引用论文、所述论文的作者、所述论文的作者所属的机构;
[0009]基于所述关联信息,构建拓扑图,其中,所述拓扑图包含有论文节点、引用论文节点、作者节点、机构节点,所述拓扑图中每个节点对应有初始节点特征;
[0010]将所述拓扑图输入到预先训练的论文类别预测模型中,以通过所述论文类别预测模型,针对所述拓扑图中的每个节点,确定与该节点通过边进行连接的邻居节点;针对该节点的每次特征调整,根据该次特征调整下所述邻居节点的节点特征以及该次特征调整下该节点与所述邻居节点之间的注意力权重,对该次特征调整下该节点的节点特征进行调整,得到该节点的调整后特征,作为下一次特征调整下该节点的节点特征,并基于该节点的调整后特征以及该次特征调整下所述邻居节点的节点特征,对该次特征调整下该节点与所述邻居节点之间的注意力权重进行调整,得到调整后注意力权重,作为下一次特征调整下该节点与所述邻居节点之间的注意力权重,继续针对该节点的下一次特征调整,继续对该节点的节点特征进行调整,直到特征调整的次数达到预设次数为止;根据针对该节点的每次特征调整下所得到的该节点的调整后特征,对该节点的初始节点特征进行调整,得到该节点的最终节点特征;
[0011]通过所述论文类别预测模型,基于所述拓扑图中所述论文节点的最终节点特征,预测出所述论文的类别。
[0012]可选地,基于所述关联信息,构建拓扑图,具体包括:
[0013]以所述论文、所述论文的引用论文、所述论文的作者、所述论文的作者所属的机构为节点,以所述论文与所述引用论文之间的引用关系、所述作者与所述机构之间的归属关系、所述论文与所述作者之间的著作关系为边,构建拓扑图;
[0014]基于所述论文的论文文本,确定出所述拓扑图中所述论文节点的初始节点特征;基于所述引用论文的论文文本,确定出所述拓扑图中所述引用论文节点的初始节点特征;基于所述作者写的所有论文的论文文本,确定出所述拓扑图中所述作者节点的初始节点特征;基于所述机构下的所有作者写的所有论文的论文文本,确定出所述拓扑图中所述机构节点的初始节点特征。
[0015]可选地,根据该次特征调整下所述邻居节点的节点特征以及该次特征调整下该节点与所述邻居节点之间的注意力权重,对该次特征调整下该节点的节点特征进行调整,得到该节点的调整后特征,具体包括:
[0016]根据该次特征调整下所述邻居节点的节点特征以及该次特征调整下该节点与所述邻居节点之间的注意力权重,确定出针对该节点的聚合特征;确定预设参数与该次特征调整下该节点的节点特征之间的乘积,得到平滑特征;
[0017]将所述聚合特征与所述平滑特征进行相加,得到该节点的调整后特征。
[0018]可选地,基于该节点的调整后特征以及该次特征调整下所述邻居节点的节点特征,对该次特征调整下该节点与所述邻居节点之间的注意力权重进行调整,得到调整后注意力权重,具体包括:
[0019]将该节点的调整后特征与该次特征调整下所述邻居节点的节点特征进行处理,得到关系特征;其中,处理包括:拼接处理、点乘处理、相加处理中的一种;
[0020]根据所述关系特征,对该次特征调整下该节点与所述邻居节点之间的注意力权重进行调整,得到调整后注意力权重。
[0021]可选地,根据所述关系特征,对该次特征调整下该节点与所述邻居节点之间的注意力权重进行调整,得到调整后注意力权重,具体包括:
[0022]将所述关系特征输入到所述论文类别预测模型中的多层感知器,以通过所述多层感知器,对所述关系特征进行处理,得到调整参数;其中,所述多层感知器至少包括:注意力层、池化层、Dropout层、正则化层和归一化层;
[0023]基于所述调整参数,对该次特征调整下该节点与所述邻居节点之间的注意力权重进行调整,得到调整后注意力权重。
[0024]可选地,根据针对该节点的每次特征调整下所得到的该节点的调整后特征,对该节点的初始节点特征进行调整,得到该节点的最终节点特征,具体包括:
[0025]将针对该节点的每次特征调整下所得到的该节点的调整后特征以及该节点的初始节点特征进行加权求和,得到该节点的最终节点特征。
[0026]可选地,预先训练所述论文类别预测模型,具体包括:
[0027]获取待分类的样本论文的样本关联信息,所述样本关联信息包括:所述样本论文、所述样本论文的样本引用论文、所述样本论文的作者、所述样本论文的作者所属的机构;
[0028]基于所述样本关联信息,构建针对所述样本论文的拓扑图,作为样本拓扑图,其中,所述样本拓扑图中每个样本节点对应有初始节点特征;
[0029]将所述样本拓扑图输入到待训练的论文类别预测模型中,以通过待训练的论文类别预测模型,针对所述样本拓扑图中的每个样本节点,确定与该样本节点通过边进行连接的样本邻居节点;针对该样本节点的每次特征调整,根据该次特征调整下所述样本邻居节点的节点特征以及该次特征调整下该样本节点与所述样本邻居节点之间的注意力权重,对该次特征调整下该样本节点的节点特征进行调整,得到该样本节点的调整后特征,作为下一次特征调整下该样本节点的节点特征,并基于该样本节点的调整后特征以及该次特征调整下所述样本邻居节点的节点特征,对该次特征调整下该样本节点与所述样本邻居节点之间的注意力权重进行调整,得到调整后注意力权重,作为下一次特征调整下该样本节点与所述样本邻居节点之间的注意力权重,继续针对该样本节点的下一次特征调整,继续对该样本节点的节点特征进行调整,直到特征调整的次数到达预设次数为止;根据针对该样本节点的每次特征调整下所得到的该样本节点的调整后特征,对该样本节点的初始节点特征进行调整,得到该样本节点的最终节点特征;基于所述样本拓扑图中所述样本论文对应的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种论文分类方法,其特征在于,包括:获取待分类的论文的关联信息,其中,所述关联信息包括:所述论文、所述论文的引用论文、所述论文的作者、所述论文的作者所属的机构;基于所述关联信息,构建拓扑图,其中,所述拓扑图包含有论文节点、引用论文节点、作者节点、机构节点,所述拓扑图中每个节点对应有初始节点特征;将所述拓扑图输入到预先训练的论文类别预测模型中,以通过所述论文类别预测模型,针对所述拓扑图中的每个节点,确定与该节点通过边进行连接的邻居节点;针对该节点的每次特征调整,根据该次特征调整下所述邻居节点的节点特征以及该次特征调整下该节点与所述邻居节点之间的注意力权重,对该次特征调整下该节点的节点特征进行调整,得到该节点的调整后特征,作为下一次特征调整下该节点的节点特征,并基于该节点的调整后特征以及该次特征调整下所述邻居节点的节点特征,对该次特征调整下该节点与所述邻居节点之间的注意力权重进行调整,得到调整后注意力权重,作为下一次特征调整下该节点与所述邻居节点之间的注意力权重,继续针对该节点的下一次特征调整,继续对该节点的节点特征进行调整,直到特征调整的次数达到预设次数为止;根据针对该节点的每次特征调整下所得到的该节点的调整后特征,对该节点的初始节点特征进行调整,得到该节点的最终节点特征;通过所述论文类别预测模型,基于所述拓扑图中所述论文节点的最终节点特征,预测出所述论文的类别。2.如权利要求1所述的方法,其特征在于,基于所述关联信息,构建拓扑图,具体包括:以所述论文、所述论文的引用论文、所述论文的作者、所述论文的作者所属的机构为节点,以所述论文与所述引用论文之间的引用关系、所述作者与所述机构之间的归属关系、所述论文与所述作者之间的著作关系为边,构建拓扑图;基于所述论文的论文文本,确定出所述拓扑图中所述论文节点的初始节点特征;基于所述引用论文的论文文本,确定出所述拓扑图中所述引用论文节点的初始节点特征;基于所述作者写的所有论文的论文文本,确定出所述拓扑图中所述作者节点的初始节点特征;基于所述机构下的所有作者写的所有论文的论文文本,确定出所述拓扑图中所述机构节点的初始节点特征。3.如权利要求1所述的方法,其特征在于,根据该次特征调整下所述邻居节点的节点特征以及该次特征调整下该节点与所述邻居节点之间的注意力权重,对该次特征调整下该节点的节点特征进行调整,得到该节点的调整后特征,具体包括:根据该次特征调整下所述邻居节点的节点特征以及该次特征调整下该节点与所述邻居节点之间的注意力权重,确定出针对该节点的聚合特征;确定预设参数与该次特征调整下该节点的节点特征之间的乘积,得到平滑特征;将所述聚合特征与所述平滑特征进行相加,得到该节点的调整后特征。4.如权利要求1所述的方法,其特征在于,基于该节点的调整后特征以及该次特征调整下所述邻居节点的节点特征,对该次特征调整下该节点与所述邻居节点之间的注意力权重进行调整,得到调整后注意力权重,具体包括:将该节点的调整后特征与该次特征调整下所述邻居节点的节点特征进行处理,得到关系特征;其中,处理包括:拼接处理、点乘处理、相加处理中的一种;
根据所述关系特征,对该次特征调整下该节点与所述邻居节点之间的注意力权重进行调整,得到调整后注意力权重。5.如权利要求4所述的方法,其特征在于,根据所述关系特征,对该次特征调整下该节点与所述邻居节点之间的注意力权重进行调整,得到调整后注意力权重,具体包括:将所述关系特征输入到所述论文类别预测模型中的多层感知器,以通过所述多层感知器,对所述关系特征进行处理,得到调整参数;其中,所述多层感知器至少包括:注意力层、池化层、Dropout层、正则化层和归一化层;基于所述调整参数,对该次特征调整下该节点与所述邻居节点之间的注意力权重进行调整,得到调整后注意力权重。6.如权利要求1所述的方法,其特征在于,根据针对该节点的每次特征调整下所得到的该节点的调整后特征,对该节点的初始节点特征进行调整,得到该节点的最终节点特征,具体包括:将针对该节点的每次特征调整下所得到的该节点的调整后特征以及该节点的初始节点特征进行加权求和,得到该节点的最终节点特征。7.如权利要求1所述的方法,其特征在于,预先训练所述论文类别预测模型,具体包括:获取待分类的样本论文的样本关联信息,所述样本关联信息包括:所述样本论文、所述样本论文的样本引用论文、所述样本论文的作者、所述样本论文的作者所属的机构;基于所述样本关联信息,构建针对所述样本论文的拓扑图,作为样本拓扑图,其中,所述样本拓扑图中每个样本节点对应有初始节点特征;将所述样本拓扑图输入到待训练的论文类别预测模型中,以通过待训练的论文类别预测模型,针对所述样本拓扑图中的每个样本节点,确定与该样本节点通过边进行连接的样本邻居节点;针对该样本节点的每次特征调整,根据该次特征调整下所述样本邻居节点的节点特征以及该次特征调整下该样本节点与所述样本邻居节点之间的注意力权重,对该次特征调整下该样本节点的节点特征进行调整,得到该样本节点的调整后特征,作为下一次特征调整下该样本节点的节点特征,并基于该样本节点的调整后特征以及该次特征调整下所述样本邻居节点的节点特征,对该次特征调整下该样本节点与所述样本邻居节点之间的注意力权重进行调整,得到调整后注意力权重,作为下一次特征调整下该样本节点与所述样本邻居节点之间的注意力权重,继续针对该样本节点的下一次特征调整,继续对该样本节点的节点特征进行调整,直到特征调整的次数到达预设次数为止;根据针对该样本节点的每次特征调整下所得到的该样本节点的调整后特征,对该样本节点的初始节点特征进行调整,得到该样本节点的最终节点特征;基于所述样本拓扑图中所述...

【专利技术属性】
技术研发人员:陈红阳徐超亓庆国
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1