一种文章集更新方法、装置、设备以及存储介质制造方法及图纸

技术编号:37991858 阅读:10 留言:0更新日期:2023-06-30 10:06
本申请实施例公开了一种文章集更新方法、装置、设备以及存储介质,该方法包括:从初始文章集中确定至少一个候选短语;根据初始文章集,确定至少一个候选短语各自的逆向文件频率和净编辑频率;其中,逆向文件频率用于表征候选短语的类别区分能力,净编辑频率用于表征候选短语的编辑次数;利用至少一个候选短语各自的逆向文件频率和净编辑频率对相应的候选短语进行加权分值计算,确定至少一个候选短语各自的加权突发分值;根据加权突发分值,从至少一个候选短语中确定目标短语;利用目标短语对初始文章集进行更新,得到目标文章集。该方法能够提高短语突发水平的判断准确性,并且提高了目标短语在目标文章集的突发水平。了目标短语在目标文章集的突发水平。了目标短语在目标文章集的突发水平。

【技术实现步骤摘要】
一种文章集更新方法、装置、设备以及存储介质


[0001]本申请涉及舆情分析
,尤其涉及一种文章集更新方法、装置、设备以及存储介质。

技术介绍

[0002]百科类文章网站是互联网上的百科全书,如百度百科、维基百科等。以维基百科为例,其是互联网上最著名的百科全书之一。维基百科中每篇文章的所有编辑及其相关信息都存储在维基百科编辑历史中。编辑通常是由现实世界的事件所触发,编辑者从新闻文章、社交媒体或其他来源关注到突发事件,并选择新的内容添加到维基百科的文章中。因此,与新闻文章相比,维基百科编辑历史以一种更为概括和更有组织的方式展示了一个事件是如何发生和演变的。
[0003]许多研究人员已经研究并提出很多种技术实现方法来解决检测百科编辑历史中事件的突发和关键短语的问题。目前主要有以下方式:页面重要性排序算法(PageRank),关键短语排序算法(TextRank)和(DivGraphPointer)方法。
[0004]其中,PageRank是在构建早期搜索系统原型时提出的一种页面重要性排序算法。目前,许多重要的链接分析算法都是基于PageRank算法推导出来的。TextRank算法的灵感来自页面重要性排序算法PageRank。PageRank算法是根据互联网上页面之间的链接关系计算每个页面的重要性,TextRank将短语视为关键短语图中的节点。根据短语的共现关系,计算每个短语的重要性。DivGraphPointer方法是一种基于图形的关键短语提取算法,用于从文档中提取关键短语。其结合了传统的基于图形的排序方法和基于神经网络的方法。一些研究也以图形数据库的形式表示具有上下文相似性信息的非结构化文档。
[0005]然而,在目前的方案中,仍然存在一些缺陷,例如:利用TextRank确定短语的突发水平时,会导致一些常用短语具有很高突发水平,造成误判;另外,在一个大的文章集中,许多突发事件可能会在同一个时间段重合,从而导致每个突发事件都失去了重要性,突发短语和文章集的相关度较低,导致突发短语的突发水平低。

技术实现思路

[0006]本申请提供了一种文章集更新方法、装置、设备以及存储介质,能够提高短语突发水平的判断准确性,并提高目标短语在目标文章集的突发水平。
[0007]本申请的技术方案是这样实现的:
[0008]第一方面,本申请实施例提供了一种文章集更新方法,该方法包括:
[0009]从初始文章集中确定至少一个候选短语;
[0010]根据所述初始文章集,确定所述至少一个候选短语各自的逆向文件频率和净编辑频率;其中,所述逆向文件频率用于表征所述候选短语的类别区分能力,所述净编辑频率用于表征所述候选短语的编辑次数;
[0011]利用所述至少一个候选短语各自的所述逆向文件频率和所述净编辑频率对相应
的候选短语进行加权分值计算,确定所述至少一个候选短语各自的加权突发分值;
[0012]根据所述加权突发分值,从所述至少一个候选短语中确定目标短语;
[0013]利用所述目标短语对所述初始文章集进行更新,得到目标文章集。
[0014]第二方面,本申请实施例提供了一种更新装置,该更新装置包括确定单元、计算单元和更新单元,其中,
[0015]所述确定单元,配置为从初始文章集中确定至少一个候选短语;以及根据所述初始文章集,确定所述至少一个候选短语各自的逆向文件频率和净编辑频率;其中,所述逆向文件频率用于表征所述候选短语的类别区分能力,所述净编辑频率用于表征所述候选短语的编辑次数;
[0016]所述计算单元,配置为利用所述至少一个候选短语各自的所述逆向文件频率和所述净编辑频率对相应的候选短语进行加权分值计算,确定所述至少一个候选短语各自的加权突发分值;以及根据所述加权突发分值,从所述至少一个候选短语中确定目标短语;
[0017]所述更新单元,配置为利用所述目标短语对所述初始文章集进行更新,得到目标文章集。
[0018]第三方面,本申请实施例提供了一种电子设备,该电子设备包括存储器和处理器,其中,
[0019]所述存储器,用于存储能够在所述处理器上运行的计算机程序;
[0020]所述处理器,用于在运行所述计算机程序时,执行如第一方面所述的文章集更新方法。
[0021]第四方面,本申请实施例提供了一种计算机存储介质,该计算机存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时实现如第一方面所述的文章集更新方法。
[0022]本申请实施例所提供的一种文章集更新方法、装置、设备以及存储介质,通过:从初始文章集中确定至少一个候选短语;根据初始文章集,确定至少一个候选短语各自的逆向文件频率和净编辑频率;其中,逆向文件频率用于表征候选短语的类别区分能力,净编辑频率用于表征候选短语的编辑次数;利用至少一个候选短语各自的逆向文件频率和净编辑频率对相应的候选短语进行加权分值计算,确定至少一个候选短语各自的加权突发分值;根据加权突发分值,从至少一个候选短语中确定目标短语;利用目标短语对初始文章集进行更新,得到目标文章集。这样,对于给定的初始文章集,在确定其中的候选短语的加权突发分值时,由于利用了候选短语在初始文章集中的逆向文件频率和净编辑频率,充分考虑了短语的类别区分能力和历史编辑次数对短语的加权突发分值的影响,从而能够得到准确衡量短语的突发水平的加权突发分值,最后从候选短语中选择出一个目标短语,并利用目标短语对初始文章集进行更新,使得在最终得到的目标文章集上,目标短语具有更高的突发水平,目标文章集与目标短语以及目标短语所代表的事件更相关,进而提高短语突发水平的判断准确性和目标短语在目标文章集的突发水平。
附图说明
[0023]图1为本申请实施例提供的一种文章集更新方法的流程示意图;
[0024]图2为本申请实施例提供的一种维基百科文章的编辑记录示意图;
[0025]图3为本申请实施例提供的一种短语节点示意图;
[0026]图4为本申请实施例提供的另一种短语节点示意图;
[0027]图5为本申请实施例提供的另一种文章集更新方法的流程示意图;
[0028]图6为本申请实施例提供的一种目标短语的短语节点示意图;
[0029]图7为本申请实施例提供的另一种目标短语的短语节点示意图;
[0030]图8为本申请实施例提供的一种目标短语的加权突发分值的变化示意图;
[0031]图9为本申请实施例提供的一种目标短语及其邻接短语的对比示意图;
[0032]图10为本申请实施例提供的一种文章集更新系统的系统架构示意图;
[0033]图11为本申请实施例提供的一种更新装置的组成结构示意图;
[0034]图12为本申请实施例提供的一种电子设备的组成结构示意图;
[0035]图13为本申请实施例提供的另一种电子设备的组成结构示意图。
具体实施方式
[0036]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文章集更新方法,其特征在于,所述方法包括:从初始文章集中确定至少一个候选短语;根据所述初始文章集,确定所述至少一个候选短语各自的逆向文件频率和净编辑频率;其中,所述逆向文件频率用于表征所述候选短语的类别区分能力,所述净编辑频率用于表征所述候选短语的编辑次数;利用所述至少一个候选短语各自的所述逆向文件频率和所述净编辑频率对相应的候选短语进行加权分值计算,确定所述至少一个候选短语各自的加权突发分值;根据所述加权突发分值,从所述至少一个候选短语中确定目标短语;利用所述目标短语对所述初始文章集进行更新,得到目标文章集。2.根据权利要求1所述的方法,其特征在于,所述初始文章集中包括至少一篇初始文章,所述从初始文章集中确定至少一个候选短语,包括:确定目标时段;获取所述至少一篇初始文章在所述目标时段的编辑增量;其中,所述编辑增量表示一篇文章在编辑前后的文本增量;对所述编辑增量进行词性划分,从词性划分的结果中确定出所述至少一个候选短语。3.根据权利要求1所述的方法,其特征在于,所述根据所述初始文章集,确定所述至少一个候选短语各自的逆向文件频率和净编辑频率,包括:获取所述初始文章集包含文章的总数量以及所述初始文章集中的第一文章的数量;其中,所述第一文章是指在所述目标时段内的编辑增量中包含第一候选短语的文章,所述第一候选短语为所述至少一个候选短语中的任意一个候选短语;确定所述第一候选短语在若干个时段各自的初始净编辑频率;其中,所述若干个时段包括所述目标时段以及所述目标时段之前的所有时段;对所述总数量和所述第一文章的数量的比值进行对数运算,确定所述第一候选短语的逆向文件频率;对所述第一候选短语在所述若干个时段各自的初始净编辑频率进行指数移动均值计算,确定所述第一候选短语的净编辑频率。4.根据权利要求3所述的方法,其特征在于,所述确定所述第一候选短语在若干个时段各自的初始净编辑频率,包括:获取第一时段内所述初始文章集中每一篇文章的编辑次数以及每一篇文章的每个编辑增量中所述第一候选短语的出现频率;根据所述每一篇文章的编辑次数和所述每一篇文章的每个编辑增量中所述第一候选短语的出现频率,确定所述第一候选短语在所述第一时段的初始净编辑频率;其中,所述第一时段为所述若干个时段中的任意一个时段。5.根据权利要求3所述的方法,其特征在于,所述利用所述至少一个候选短语各自的所述逆向文件频率和所述净编辑频率对相应的候选短语进行加权分值计算,确定所述至少一个候选短语各自的加权突发分值,包括:在所述初始文章集中,确定若干个第一邻接短语的加权突发分值以及所述第一候选短语与每一个所述第一邻接短语之间的第一边权重;其中,所述第一邻接短语与所述第一候选短语具有邻接关系;
确定每一个所述第一邻接短语与若干个第二邻接短语之间的第二边权重;其中,所述若干个第二邻接短语与所述第一邻接短语均具有邻接关系;对所述第一候选短语的逆向文件频率和所述第一候选短语的净编辑频率进行乘法计算,确定所述第一候选短语的突发权值;根据所述突发权值对所述若干个第一邻接短语的加权突发分值、所述第一候选短语与每一个所述第一邻接短语之间的第一边权重以及每一个所述第一邻接短语与若干个第二邻接短语之间的第二边权重进行加权计算,得到所述第一候选短语的加权突发分值。6.根据权利要求1所述的方法,其特征在于,所述利用所述目标短语对所述初始文章集进行更新,得到目标文章集,包括:获取所述初始文章集中每一篇文章的链入文章和链出文章;从所述每一篇文章的链入文章和链出文章中选择目标时段的编辑增量中包括所述目标短语的至少一篇文章;根据所述选择的至少一篇文章,组成候选文章集;利用所述候选文章...

【专利技术属性】
技术研发人员:周盈怡苏佳俊
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1