基于混合相似度的文献主题分类方法、装置、设备及介质制造方法及图纸

技术编号:38642660 阅读:13 留言:0更新日期:2023-08-31 18:35
本申请涉及一种基于混合相似度的文献主题分类方法、装置、设备及介质,属于大数据技术领域,解决了现有技术中对于文献集合内容的主题类别划分存在忽略文献内容关联和作者关联等因素而导致精度较低的问题。本申请技术方案主要包括:获取文献实体异构网络集合,所述文献实体异构网络集合至少包括文献文本、文献作者以及文献间的引文网络信息;根据所述文献文本、所述文献作者以及所述引文网络信息进行指标评价,并进行融合以生成混合相似度指标;根据所述混合相似度指标对所述文献实体异构网络集合中的文献进行聚类分析以获得若干文献簇;依据各所述文献簇中文献的特征向量和所述文献文本进行关键词提取,以获得各所述文献簇的主题标签。的主题标签。的主题标签。

【技术实现步骤摘要】
基于混合相似度的文献主题分类方法、装置、设备及介质


[0001]本申请属于大数据
,具体而言涉及基于混合相似度的文献主题分类方法、装置、设备及介质。

技术介绍

[0002]海量的阅读内容给人们带来了巨大的障碍,这一问题在不久的未来也将越发严重。相关数据表明,2022年全年的学术论文发表量相较于30年前已经增长了十余倍,年增长量也逐年攀高,近年来,每年有超过700万的文章被发表。这意味着,未来的科研人员将会需要阅读更多的资料来追踪最新的科学进展。
[0003]为了应对该现状,已经有一些研究成果使用自动化算法从学术论文做分类,主要分为两部分工作。一部分侧重在内容上的工作,比如概念抽取,把研究对象从论文本身提炼到术语层级,并在这些术语之间探索关联性,如不同概念的上下位关系及时间先后顺序。这些工作对于信息的高度提炼确实能够帮助人们更好地理清整个领域的发展脉络,但对于学者而言,却丢失了很多论文本身的信息。另一部分则是注重引文网络中的关系,其认为引文网络中不相邻的论文节点不相似的假设与现实并不相符,很多情况下写作者会有意避免引用相似论文。然而这种使用简单的单一数值对于引用的重要性做刻画、或者将引用关系定义为“方法”或“背景”相对较为单薄,对文章本身内容上的信息考虑不足。
[0004]综上,现有技术中对于文献集合内容的主题类别划分存在忽略文献内容关联和作者关联等因素而导致精度较低的问题。

技术实现思路

[0005]鉴于上述的分析,本专利技术实施例旨在提供一种基于混合相似度的文献主题分类方法、装置、设备及介质,用以解决现有技术中对于文献集合内容的主题类别划分存在忽略文献内容关联和作者关联等因素而导致精度较低的问题。
[0006]本申请第一方面实施例提供一种基于混合相似度的文献主题分类方法,包括以下步骤:获取文献实体异构网络集合,所述文献实体异构网络集合至少包括文献文本、文献作者以及文献间的引文网络信息;根据所述文献文本、所述文献作者以及所述引文网络信息进行指标评价,并进行融合以生成混合相似度指标;根据所述混合相似度指标对所述文献实体异构网络集合中的文献进行聚类分析以获得若干文献簇;依据各所述文献簇中文献的特征向量和所述文献文本进行关键词提取,以获得各所述文献簇的主题标签。
[0007]在一些实施例中,获取文献实体异构网络集合,包括:获取查询关键词,根据所述查询关键词向文献库召回文献集合;
收集所述文献集合的实体异构信息以召回所述献实体异构网络集合,所述实体异构信息包括作者信息或者引文数据,所述实体异构信息还包括文献标题、摘要、关键词或者部分正文中的一种或者多种的组合,其中所述作者信息包括作者的常用名、别名、所属机构以及邮箱。
[0008]在一些实施例中,所述根据所述文献文本、所述文献作者以及所述引文网络信息进行指标评价,并融合以生成混合相似度指标,包括:采用OAG

BERT学术语言大模型基于所述实体异构信息生成各所述文献的特征向量;根据所述特征向量计算各所述文献对的相似度,对所述相似度进行归一化计算以获得相似度指标,所述相似度指标的计算公式表示为:,其中表示文献对i

j的相似度指标,表示文献对i

j的相似度,表示对文献i的特征向量和文献j的特征向量做点积运算;根据所述引文网络信息构建各所述文献对引用指标,所述引用指标的计算表示为:,其中表示文献对i

j的引用指标,表示文献i引用文献j的引用率,表示文献i的引用文献总数;根据所述文献作者计算各所述文献对的同作者数指标,所述同作者数指标的计算表示为:,其中表示文献对i

j的同作者数指标,为文献对i

j的相同作者数,为文献对i

j总的作者数量;根据所述相似度指标、所述引用指标和所述同作者数指标进行指标融合以生成所述混合相似度指标。
[0009]在一些实施例中,所述根据所述相似度指标、所述引用指标和所述同作者数指标进行指标融合以生成所述混合相似度指标,包括:依据所述相似度指标、所述阴影指标和所述同作者数指标,调节所述相似度指标、所述阴影指标和所述同作者数指标各自的权重,以使得所述混合相似度中所述相似度指标、所述阴影指标和所述同作者数指标各自所起的作用相平等;根据所述权重融合所述相似度指标、所述阴影指标和所述同作者数指标以生成所述混合相似度指标,计算公式表示为:,其中表示所述混合
相似度指标,α表示相似度指标的权重,β表示引用指标的权重,γ表示同作者数指标的权重。
[0010]在一些实施例中,所述依据所述相似度指标、所述阴影指标和所述同作者数指标,调节所述相似度指标、所述阴影指标和所述同作者数指标各自的权重,包括根据以下方程调节:,其中α表示相似度指标的权重,β表示引用指标的权重,γ表示同作者数指标的权重,表示所有文献对相似度指标之和,表示所有文献对引用指标之和,表示所有文献对同作者数指标之和。
[0011]在一些实施例中,所述根据所述混合相似度指标对所述文献实体异构网络集合中的文献进行聚类分析以获得若干文献簇,包括:根据所述混合相似度指标构建文献网络图,以所述文献作为所述文献网络图的节点,以所述混合相似度指标作为所述文献网络图中两所述节点之间的连接权重;采用Leiden算法对所述文献网络图进行聚类以获得所述若干文献簇。
[0012]在一些实施例中,依据各所述文献簇中文献的特征向量和所述文献文本进行关键词提取,以获得各所述文献簇的主题标签,包括:通过OAG

BERT学术语言大模型获取所述文献簇中各所述文献的特征向量;抽取所述特征向量的M个第一候选关键词,遍历所有所述特征向量以形成第一关键词列表;抽取所述文献簇中各所述文献的M个第二候选关键词,遍历所述文献簇中所有所述文献以形成第二关键词列表;计算每个候选关键词在所述第一关键词列表出现的次数和在所述第二关键词列表出现的次数之和,作为所述候选关键词的得分,取所述得分靠前的若干所述候选关键词作为所述文献簇的所述主题标签。
[0013]本申请第二方面实施例提供的基于混合相似度的文献主题分类装置,包括:获取模块,用于获取文献实体异构网络集合,所述文献实体异构网络集合至少包括文献文本、文献作者以及文献间的引文网络信息;指标融合模块,根据所述文献文本、所述文献作者以及所述引文网络信息进行指标评价,并进行融合以生成混合相似度指标;聚类模块,根据所述混合相似度指标对所述文献实体异构网络集合中的文献进行聚类分析以获得若干文献簇;提取模块,依据各所述文献簇进行关键词提取,以获得各所述文献簇的主题标签。
[0014]本申请第三方面实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如上任一实施例所述的基于混合相似度的文献主题分类方法。
[0015]本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于混合相似度的文献主题分类方法,其特征在于,包括以下步骤:获取文献实体异构网络集合,所述文献实体异构网络集合至少包括文献文本、文献作者以及文献间的引文网络信息;根据所述文献文本、所述文献作者以及所述引文网络信息进行指标评价,并进行融合以生成混合相似度指标;根据所述混合相似度指标对所述文献实体异构网络集合中的文献进行聚类分析以获得若干文献簇;依据各所述文献簇中文献的特征向量和所述文献文本进行关键词提取,以获得各所述文献簇的主题标签。2.根据权利要求1所述的基于混合相似度的文献主题分类方法,其特征在于:获取文献实体异构网络集合,包括:获取查询关键词,根据所述查询关键词向文献库召回文献集合;收集所述文献集合的实体异构信息以召回所述献实体异构网络集合,所述实体异构信息包括作者信息或者引文数据,所述实体异构信息还包括文献标题、摘要、关键词或者部分正文中的一种或者多种的组合,其中所述作者信息包括作者的常用名、别名、所属机构以及邮箱。3.根据权利要求2所述的基于混合相似度的文献主题分类方法,其特征在于:所述根据所述文献文本、所述文献作者以及所述引文网络信息进行指标评价,并融合以生成混合相似度指标,包括:采用OAG

BERT学术语言大模型基于所述实体异构信息生成各所述文献的特征向量;根据所述特征向量计算各所述文献对的相似度,对所述相似度进行归一化计算以获得相似度指标,所述相似度指标的计算公式表示为:,其中表示文献对i

j的相似度指标,表示文献对i

j的相似度,表示对文献i的特征向量和文献j的特征向量做点积运算;根据所述引文网络信息构建各所述文献对引用指标,所述引用指标的计算表示为:,其中表示文献对i

j的引用指标,表示文献i引用文献j的引用率,表示文献i的引用文献总数;根据所述文献作者计算各所述文献对的同作者数指标,所述同作者数指标的计算表示为:,其中表示文献对i

j的同作者数指标,
为文献对i

j的相同作者数,为文献对i

j总的作者数量;根据所述相似度指标、所述引用指标和所述同作者数指标进行指标融合以生成所述混合相似度指标。4.根据权利要求3所述的基于混合相似度的文献主题分类方法,其特征在于:所述根据所述相似度指标、所述引用指标和所述同作者数指标进行指标融合以生成所述混合相似度指标,包括:依据所述相似度指标、所述阴影指标和所述同作者数指标,调节所述相似度指标、所述阴影指标和所述同作者数指标各自的权重,以使得所述混合相似度中所述相似度指标、所述阴影指标和所述同作者数指标各自所起的作用相平等;根据所述权重融合所述相似度指标、所述阴影指标和所述同作者数指标以生成所述...

【专利技术属性】
技术研发人员:林天宇周朝褚晓泉段毅成仇瑜刘德兵
申请(专利权)人:北京智谱华章科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1