【技术实现步骤摘要】
一种文章集更新方法、装置、设备以及存储介质
[0001]本申请涉及舆情分析
,尤其涉及一种文章集更新方法、装置、设备以及存储介质。
技术介绍
[0002]百科类文章网站是互联网上的百科全书,如百度百科、维基百科等。以维基百科为例,其是互联网上最著名的百科全书之一。维基百科中每篇文章的所有编辑及其相关信息都存储在维基百科编辑历史中。编辑通常是由现实世界的事件所触发,编辑者从新闻文章、社交媒体或其他来源关注到突发事件,并选择新的内容添加到维基百科的文章中。因此,与新闻文章相比,维基百科编辑历史以一种更为概括和更有组织的方式展示了一个事件是如何发生和演变的。
[0003]许多研究人员已经研究并提出很多种技术实现方法来解决检测百科编辑历史中事件的突发和关键短语的问题。目前主要有以下方式:页面重要性排序算法(PageRank),关键短语排序算法(TextRank)和(DivGraphPointer)方法。
[0004]其中,PageRank是在构建早期搜索系统原型时提出的一种页面重要性排序算法。目前,许多重要的链接分析算法都是基于PageRank算法推导出来的。TextRank算法的灵感来自页面重要性排序算法PageRank。PageRank算法是根据互联网上页面之间的链接关系计算每个页面的重要性,TextRank将短语视为关键短语图中的节点。根据短语的共现关系,计算每个短语的重要性。DivGraphPointer方法是一种基于图形的关键短语提取算法,用于从文档中提取关键短语。其结合了传统的基于图形的排序 ...
【技术保护点】
【技术特征摘要】
1.一种文章集更新方法,其特征在于,所述方法包括:从初始文章集中确定至少一个候选短语;根据所述初始文章集,确定所述至少一个候选短语各自的逆向文件频率和净编辑频率;其中,所述逆向文件频率用于表征所述候选短语的类别区分能力,所述净编辑频率用于表征所述候选短语的编辑次数;利用所述至少一个候选短语各自的所述逆向文件频率和所述净编辑频率对相应的候选短语进行加权分值计算,确定所述至少一个候选短语各自的加权突发分值;根据所述加权突发分值,从所述至少一个候选短语中确定目标短语;利用所述目标短语对所述初始文章集进行更新,得到目标文章集。2.根据权利要求1所述的方法,其特征在于,所述初始文章集中包括至少一篇初始文章,所述从初始文章集中确定至少一个候选短语,包括:确定目标时段;获取所述至少一篇初始文章在所述目标时段的编辑增量;其中,所述编辑增量表示一篇文章在编辑前后的文本增量;对所述编辑增量进行词性划分,从词性划分的结果中确定出所述至少一个候选短语。3.根据权利要求1所述的方法,其特征在于,所述根据所述初始文章集,确定所述至少一个候选短语各自的逆向文件频率和净编辑频率,包括:获取所述初始文章集包含文章的总数量以及所述初始文章集中的第一文章的数量;其中,所述第一文章是指在所述目标时段内的编辑增量中包含第一候选短语的文章,所述第一候选短语为所述至少一个候选短语中的任意一个候选短语;确定所述第一候选短语在若干个时段各自的初始净编辑频率;其中,所述若干个时段包括所述目标时段以及所述目标时段之前的所有时段;对所述总数量和所述第一文章的数量的比值进行对数运算,确定所述第一候选短语的逆向文件频率;对所述第一候选短语在所述若干个时段各自的初始净编辑频率进行指数移动均值计算,确定所述第一候选短语的净编辑频率。4.根据权利要求3所述的方法,其特征在于,所述确定所述第一候选短语在若干个时段各自的初始净编辑频率,包括:获取第一时段内所述初始文章集中每一篇文章的编辑次数以及每一篇文章的每个编辑增量中所述第一候选短语的出现频率;根据所述每一篇文章的编辑次数和所述每一篇文章的每个编辑增量中所述第一候选短语的出现频率,确定所述第一候选短语在所述第一时段的初始净编辑频率;其中,所述第一时段为所述若干个时段中的任意一个时段。5.根据权利要求3所述的方法,其特征在于,所述利用所述至少一个候选短语各自的所述逆向文件频率和所述净编辑频率对相应的候选短语进行加权分值计算,确定所述至少一个候选短语各自的加权突发分值,包括:在所述初始文章集中,确定若干个第一邻接短语的加权突发分值以及所述第一候选短语与每一个所述第一邻接短语之间的第一边权重;其中,所述第一邻接短语与所述第一候选短语具有邻接关系;
确定每一个所述第一邻接短语与若干个第二邻接短语之间的第二边权重;其中,所述若干个第二邻接短语与所述第一邻接短语均具有邻接关系;对所述第一候选短语的逆向文件频率和所述第一候选短语的净编辑频率进行乘法计算,确定所述第一候选短语的突发权值;根据所述突发权值对所述若干个第一邻接短语的加权突发分值、所述第一候选短语与每一个所述第一邻接短语之间的第一边权重以及每一个所述第一邻接短语与若干个第二邻接短语之间的第二边权重进行加权计算,得到所述第一候选短语的加权突发分值。6.根据权利要求1所述的方法,其特征在于,所述利用所述目标短语对所述初始文章集进行更新,得到目标文章集,包括:获取所述初始文章集中每一篇文章的链入文章和链出文章;从所述每一篇文章的链入文章和链出文章中选择目标时段的编辑增量中包括所述目标短语的至少一篇文章;根据所述选择的至少一篇文章,组成候选文章集;利用所述候选文章...
【专利技术属性】
技术研发人员:周盈怡,苏佳俊,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。