实时检测新闻量异常的方法、设备和存储介质技术

技术编号:23983897 阅读:36 留言:0更新日期:2020-04-29 12:36
本发明专利技术揭示了一种实时检测新闻量异常的方法、设备和存储介质,所述方法包括:以第一时段的平均历史新闻量为参数,构建所述第一时段的泊松模型;连续获取第二时段内每分钟的新闻量作为样本,通过KS检验,计算所述样本与所述第二时段所属第一时段的泊松模型的最大偏离度;若所述最大偏离度的绝对值大于或等于偏离度阈值的绝对值,判定所述第二时段的新闻量出现异常。与现有技术相比,本发明专利技术的实时检测新闻量异常的方法,能够对新闻量的异常进行量化,从而及时检测出筛选系统提取的新闻量的异常,尽早发现筛选系统的故障。

Methods, devices and storage media for real-time detection of abnormal news volume

【技术实现步骤摘要】
实时检测新闻量异常的方法、设备和存储介质
本专利技术涉及互联网
,特别是涉及一种实时检测新闻量异常的方法、设备和存储介质。
技术介绍
互联网每时每刻都会产生大量的新闻,很多企业或者个人通过服务器构建筛选系统,从海量互联网新闻中提取需要的新闻,做进一步的处理。但是服务器的异常,可能导致筛选系统在提取新闻时出现异常,例如服务器瘫痪导致获取不了需要的新闻,或者服务器拥堵导致获取的新闻量急剧减少等。如何能够及时检测新闻量出现异常,从而能够尽早发现筛选系统的故障,是现在需要解决的问题。
技术实现思路
本专利技术的目的在于提供一种实时检测新闻量异常的方法、设备和存储介质。为实现上述专利技术目的之一,本专利技术一实施方式提供一种实时检测新闻量异常的方法,所述方法包括:以第一时段的平均历史新闻量为参数,构建所述第一时段的泊松模型;连续获取第二时段内每分钟的新闻量作为样本,通过KS检验,计算所述样本与所述第二时段所属第一时段的泊松模型的最大偏离度;若所述最大偏离度的绝对值大于或等于偏离度阈值的绝对值,判定所述第二时段的新闻量出现异常。作为本专利技术一实施方式的进一步改进,所述“通过KS检验,计算所述样本与所述第二时段所属第一时段的泊松模型的最大偏离度”具体包括:以所述第二时段所属第一时段的泊松模型为基准,通过KS检验计算所有所述样本出现的概率;在所有所述概率中选取最小值,求所述最小值的对数,作为最大偏离度。作为本专利技术一实施方式的进一步改进,确定所述偏离度阈值的方法包括:从筛选系统中获取历史新闻量记录;查找所述记录中系统故障时的异常新闻量;计算所述异常新闻量的偏离度,选取绝对值最小的偏离度作为偏离度阈值。作为本专利技术一实施方式的进一步改进,所述第二时段的时长在10-30分钟内。作为本专利技术一实施方式的进一步改进,所述方法还包括:根据历史记录中筛选系统出现的故障类型,设置对应的偏离度区间;在判定所述时段的新闻量出现异常后,根据所述最大偏离度,找到对应的偏离度区间,从而预测所述筛选系统出现的故障类型。作为本专利技术一实施方式的进一步改进,所述“以第一时段的平均历史新闻量为参数,构建所述第一时段的泊松模型”具体包括:将一个星期分成多个第一时段,以每个第一时段的平均历史新闻量为参数,构建每个第一时段的泊松模型。作为本专利技术一实施方式的进一步改进,所述“将一个星期分成多个第一时段,以每个第一时段的平均历史新闻量为参数,构建每个第一时段的泊松模型”具体包括:从筛选系统中获取多个星期的历史新闻量记录;将一个星期分成多个第一时段,计算所述记录中每个第一时段对应的历史新闻量的平均值,得到每个第一时段的平均历史新闻量;根据所述每个第一时段的平均历史新闻量,构建一个星期内每个第一时段的泊松模型。作为本专利技术一实施方式的进一步改进,所述“将一个星期分成多个第一时段”具体包括:以1小时时长为第一时段,将一个星期分成168个第一时段。为实现上述专利技术目的之一,本专利技术一实施方式提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述任意一项所述实时检测新闻量异常的方法中的步骤。为实现上述专利技术目的之一,本专利技术一实施方式提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任意一项所述实时检测新闻量异常的方法中的步骤。与现有技术相比,本专利技术的实时检测新闻量异常的方法,能够对新闻量的异常进行量化,从而及时检测出筛选系统提取的新闻量的异常,尽早发现筛选系统的故障。附图说明图1是本专利技术实时检测新闻量异常的方法的流程示意图。图2是本专利技术星期一的1:00~2:00的泊松模型的概率分布图。具体实施方式以下将结合附图所示的具体实施方式对本专利技术进行详细描述。但这些实施方式并不限制本专利技术,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本专利技术的保护范围内。在概率论和统计学里面,带有参数n和p的二项分布表示的是n次独立试验的成功次数的概率分布。在每次独立试验中只有取两个值,表示成功的值的概率为p,那么表示试验不成功的概率为1-p。这样一种判断成功和失败的二值试验又叫做伯努利试验。当从海量互联网新闻中提取需要的新闻时,海量互联网新闻的数量为n,n条新闻中的每一条新闻被筛选系统提取的这个过程是一个独立的过程,每条新闻可能被提取或者不被提取,被提取的概率为p(由于相关的新闻量比较少,所以此概率很小),因此海量互联网新闻中的每条新闻被筛选系统提取的概率,服从二项分布。当二项分布的n很大而p很小时(当n≧20,p≦0.05),二项分布可以近似成泊松分布。泊松分布(PoissonDistribution)是一种统计与概率学里常见到的离散机率分布,适合用于描述单位时间(或空间)内随机事件发生的次数。本专利技术通过统计分析历史记录,发现历史记录中的新闻量(一分钟内筛选系统提取的新闻数量)是以星期为周期,重复循环的。因此,如图1所示,本专利技术提供一种实时检测新闻量异常的方法,所述方法能够对新闻量的异常进行量化,从而及时检测出筛选系统提取的新闻量的异常,尽早发现筛选系统的故障。所述方法包括:步骤S100:以第一时段的平均历史新闻量为参数,构建所述第一时段的泊松模型。所述第一时段为一段时间,比如30分钟、1小时或者2小时等,本专利技术优选是1小时。以第一时段的历史平均新闻量作为泊松模型的参数λ,可以构建这个时段的泊松模型。构建一个时段的泊松模型的目的是方便后续预估这个时段的新闻量。例如当构建了一天的8:00~9:00这个时段的泊松模型,那么后续每天的8:00~9:00的新闻量就可以以这个泊松模型为参考,判定当天这个时段的新闻量是否出现异常;或者当构建了星期一的12:00~13:00的泊松模型,那么后续每个星期一的12:00~13:00的新闻量就可以参考这个泊松模型。通过统计分析历史记录,发现历史记录中的新闻量是以星期为周期重复循环的,因此,为了后续能够检测每时每刻新闻量的异常,优选将一个星期分成多个第一时段,以每个第一时段的平均历史新闻量为参数,构建每个第一时段的泊松模型。具体的“将一个星期分成多个第一时段,以每个第一时段的平均历史新闻量为参数,构建每个第一时段的泊松模型”包括:步骤S110:从筛选系统中获取多个星期的历史新闻量记录。步骤S120:将一个星期分成多个第一时段,计算所述记录中每个时段第一对应的历史新闻量的平均值,得到每个第一时段的平均历史新闻量。本专利技术中新闻量是指单位时间内筛选系统提取的新闻数量,为了计算方便,单位时间优选是一分钟,即一分钟内筛选系统提取的新闻数量,当然也可以将30秒、两分钟等其它的时间作为单位时间。分析历史新闻量本文档来自技高网...

【技术保护点】
1.一种实时检测新闻量异常的方法,其特征在于,所述方法包括:/n以第一时段的平均历史新闻量为参数,构建所述第一时段的泊松模型;/n连续获取第二时段内每分钟的新闻量作为样本,通过KS检验,计算所述样本与所述第二时段所属第一时段的泊松模型的最大偏离度;/n若所述最大偏离度的绝对值大于或等于偏离度阈值的绝对值,判定所述第二时段的新闻量出现异常。/n

【技术特征摘要】
1.一种实时检测新闻量异常的方法,其特征在于,所述方法包括:
以第一时段的平均历史新闻量为参数,构建所述第一时段的泊松模型;
连续获取第二时段内每分钟的新闻量作为样本,通过KS检验,计算所述样本与所述第二时段所属第一时段的泊松模型的最大偏离度;
若所述最大偏离度的绝对值大于或等于偏离度阈值的绝对值,判定所述第二时段的新闻量出现异常。


2.根据权利要求1所述实时检测新闻量异常的方法,其特征在于,所述“通过KS检验,计算所述样本与所述第二时段所属第一时段的泊松模型的最大偏离度”具体包括:
以所述第二时段所属第一时段的泊松模型为基准,通过KS检验计算所有所述样本出现的概率;
在所有所述概率中选取最小值,求所述最小值的对数,作为最大偏离度。


3.根据权利要求1所述实时检测新闻量异常的方法,其特征在于,确定所述偏离度阈值的方法包括:
从筛选系统中获取历史新闻量记录;
查找所述记录中系统故障时的异常新闻量;
计算所述异常新闻量的偏离度,选取绝对值最小的偏离度作为偏离度阈值。


4.根据权利要求1所述实时检测新闻量异常的方法,其特征在于:
所述第二时段的时长在10-30分钟内。


5.根据权利要求1所述实时检测新闻量异常的方法,其特征在于,所述方法还包括:
根据历史记录中筛选系统出现的故障类型,设置对应的偏离度区间;
在判定所述时段的新闻量出现异常后,根据所述最大偏离度,找到对应的偏离...

【专利技术属性】
技术研发人员:龚朝辉陈汝龙陈誉
申请(专利权)人:苏州朗动网络科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1