文本分析方法技术

技术编号:39646223 阅读:10 留言:0更新日期:2023-12-09 11:14
本申请实施例提供了一种文本分析方法

【技术实现步骤摘要】
文本分析方法、装置、电子设备及存储介质


[0001]本申请涉及数据挖掘
,具体而言,本申请涉及一种文本分析方法

装置

电子设备及存储介质


技术介绍

[0002]随着科技的飞速发展,产出的研究成果
(
例如科技文献

专利等
)
的数量也在不断增加,从海量科研成果中挖掘潜在的知识演化模式是了解科技发展状况

预测未来科技发展趋势的重要手段

[0003]主路径分析方法
(Main

path Analysis)
是一种常见的技术演化分析定量方法,主路径分析方法采用引用网络来表示文献之间知识的扩散关系,从引文网络中提取重要文献之间的骨架结构来表示特定领域的主要发展动态

[0004]目前,主路径分析方法通常是将引文网络中路径权重最大的一条路径作为主路径,得到的主路径往往侧重于当前学科领域中的一个子领域,从而忽略了地位同等重要的其他子领域的发展轨迹,分析结果不全面,准确性较低


技术实现思路

[0005]本申请实施例提供了一种文本分析方法

装置

电子设备及存储介质,可以解决现有的主路径分析方法分析结果不全面,准确性较低的问题

[0006]所述技术方案如下:
[0007]根据本申请实施例的一个方面,提供了一种文本分析方法,该方法包括:/>[0008]基于目标领域的待分析文本集中各个文本之间的引用关系,构建所述待分析文本集对应的文本引用网络;
[0009]从所述文本引用网络中选取多条候选路径;
[0010]对所述多条候选路径执行至少一次聚类操作,直至满足预设结束条件,并满足所述预设结束条件时得到的至少两个聚类中心,作为所述目标领域中至少两个子领域分别对应的知识演化路径;
[0011]其中,所述聚类操作包括:
[0012]针对每一候选路径,确定当前的聚类操作对应的第一参数;所述第一参数与所述聚类操作的次数正相关;
[0013]根据所述候选路径的初始密度

所述候选路径的第一拓扑权重,以及所述第一参数,计算所述候选路径的第一密度;
[0014]基于各个候选路径分别对应的第一密度,确定对所述各个候选路径聚类所得的至少两个聚类中心

[0015]可选地,所述根据所述候选路径的初始密度

所述候选路径的第一拓扑权重,以及所述第一参数,计算所述候选路径的第一密度,包括:
[0016]将所述第一参数与所述候选路径的第一拓扑权重的乘积,作为第二参数;
[0017]将所述第二参数与所述候选路径的初始密度之和,作为所述候选路径的第一密度

[0018]可选地,所述从所述文本引用网络中选取多条候选路径,包括:
[0019]确定所述文本引用网络中的各个源节点;
[0020]针对每个源节点,确定所述源节点对应的最大权重路径;
[0021]基于各个源节点分别对应的最大权重路径,确定所述候选路径

[0022]针对所述源点对应的每个目的节点,将从所述源点到目的节点的至少一条第一路径中路径权重最大的路径,作为候选路径

[0023]可选地,所述针对每个源节点,确定所述源节点对应的最大权重路径,包括:
[0024]将所述文本引用网络中除所述源节点以外的每一节点作为目标节点,确定各个目标节点对于所述源节点的引用层级;
[0025]按照引用层级依次递增的顺序,依次确定所述源节点到各个目标节点的最优路径;
[0026]从各个目标节点的最优路径中确定出所述最大权重路径;
[0027]其中,针对每一目标节点,确定所述源节点到所述目标节点的最优路径,包括:
[0028]确定所述源节点到所述目标节点的至少一条初始路径;
[0029]根据各个初始路径分别对应的路径权重确定出所述最优路径

[0030]可选地,所述从所述文本引用网络中选取多条候选路径,包括:
[0031]确定所述文本引用网络中各条路径分别对应的路径权重;
[0032]基于所述各条路径分别对应的路径权重,选取路径权重最大的预设数量个路径作为所述候选路径

[0033]可选地,所述路径权重是基于如下步骤确定的:
[0034]针对所述文本引用网络中的每条路径,基于所述路径包括的各条边的第二拓扑权重,确定所述路径的第一拓扑权重;
[0035]基于所述路径包括的各个节点对之间的文本相似度,确定所述路径的第一语义权重;所述节点对为所述路径中任意两个节点的组合;
[0036]基于所述路径的第一拓扑权重,以及所述路径的第一语义权重,确定所述路径的路径权重

[0037]可选地,所述基于目标领域的待分析文本集中各个文本之间的引用关系,构建所述待分析文本集对应的文本引用网络,包括:
[0038]将目标领域的待分析文本集中每一文本作为一个节点;
[0039]基于所述待分析文本集中各个文本之间的引用关系,建立对应的各个节点之间的连接关系;所述文本引用网络中边的方向由引用文本指向被引用文本

[0040]根据本申请实施例的另一个方面,提供了一种文本分析装置,该装置包括:
[0041]网络构建模块,用于基于目标领域的待分析文本集中各个文本之间的引用关系,构建所述待分析文本集对应的文本引用网络;
[0042]候选路径确定模块,用于从所述文本引用网络中选取多条候选路径;
[0043]聚类模块,用于对所述多条候选路径执行至少一次聚类操作,直至满足预设结束条件,并满足所述预设结束条件时得到的至少两个聚类中心,作为所述目标领域中至少两
个子领域分别对应的知识演化路径;
[0044]其中,所述聚类操作包括:
[0045]针对每一候选路径,确定当前的聚类操作对应的第一参数;所述第一参数与所述聚类操作的次数正相关;
[0046]根据所述候选路径的初始密度

所述候选路径的第一拓扑权重,以及所述第一参数,计算所述候选路径的第一密度;
[0047]基于各个候选路径分别对应的第一密度,确定对所述各个候选路径聚类所得的至少两个聚类中心

[0048]根据本申请实施例的另一个方面,提供了一种电子设备,该电子设备包括存储器

处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任一种文本分析方法的步骤

[0049]根据本申请实施例的再一个方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种文本分析方法的步骤
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种文本分析方法,其特征在于,包括:基于目标领域的待分析文本集中各个文本之间的引用关系,构建所述待分析文本集对应的文本引用网络;从所述文本引用网络中选取多条候选路径;对所述多条候选路径执行至少一次聚类操作,直至满足预设结束条件,并满足所述预设结束条件时得到的至少两个聚类中心,作为所述目标领域中至少两个子领域分别对应的知识演化路径;其中,所述聚类操作包括:针对每一候选路径,确定当前的聚类操作对应的第一参数;所述第一参数与所述聚类操作的次数正相关;根据所述候选路径的初始密度

所述候选路径的第一拓扑权重,以及所述第一参数,计算所述候选路径的第一密度;基于各个候选路径分别对应的第一密度,确定对所述各个候选路径聚类所得的至少两个聚类中心
。2.
根据权利要求1所述的文本分析方法,其特征在于,所述根据所述候选路径的初始密度

所述候选路径的第一拓扑权重,以及所述第一参数,计算所述候选路径的第一密度,包括:将所述第一参数与所述候选路径的第一拓扑权重的乘积,作为第二参数;将所述第二参数与所述候选路径的初始密度之和,作为所述候选路径的第一密度
。3.
根据权利要求1所述的文本分析方法,其特征在于,所述从所述文本引用网络中选取多条候选路径,包括:确定所述文本引用网络中的各个源节点;针对每个源节点,确定所述源节点对应的最大权重路径;基于各个源节点分别对应的最大权重路径,确定所述候选路径
。4.
根据权利要求3所述的文本分析方法,其特征在于,所述针对每个源节点,确定所述源节点对应的最大权重路径,包括:将所述文本引用网络中除所述源节点以外的每一节点作为目标节点,确定各个目标节点对于所述源节点的引用层级;按照引用层级依次递增的顺序,依次确定所述源节点到各个目标节点的最优路径;从各个目标节点的最优路径中确定出所述最大权重路径;其中,针对每一目标节点,确定所述源节点到所述目标节点的最优路径,包括:确定所述源节点到所述目标节点的至少一条初始路径;根据各个初始路径分别对应的路径权重确定出所述最优路径
。5.
根据权利要求1所述的文本分析方法,其特征在于,所述从所述文本引用网络中选取多条候选路径,包括:确定所述文本引用网络中各条路径分别对应的路径权重;基...

【专利技术属性】
技术研发人员:陈亮陈利利桂婕牟琳
申请(专利权)人:中国科学技术信息研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1