信息聚类方法、系统、服务器及计算机可读存储介质技术方案

技术编号:20221821 阅读:22 留言:0更新日期:2019-01-28 20:18
本发明专利技术提供了一种信息聚类方法、系统、服务器及计算机可读存储介质。信息聚类方法,包括以下步骤:S100:获取一历史时间内目标信息的时间访问数据及地域访问数据,以形成输入数据样本;S200:对每一目标信息的初始数据特征降维至具有一特征范围的二维数据特征;S300:在二维尺度下分割特征范围,以将二维数据特征划分至多个聚类;S400:提取聚类中的二维数据特征,并对提取的二维数据特征升维至初始数据特征,以形成输出数据样本;S500:分析输出数据样本的地域访问特征及时间访问特征,以获取对信息的地域访问偏好及时间访问规律。采用上述技术方案后,可通过对海量信息的处理,获取时间维度及地域维度上用户的使用习惯,以进一步分析用户的访问偏好。

【技术实现步骤摘要】
信息聚类方法、系统、服务器及计算机可读存储介质
本专利技术涉及数据处理与控制领域,尤其涉及一种信息聚类方法、系统、服务器及计算机可读存储介质。
技术介绍
随着智能终端的快速发展,用户使用智能终端进行各类的信息处理和分类,及接收已聚类的数据成为了常见的交互手段,甚至对于不少运行在智能终端上的应用程序而言,是否可以根据用户的使用习惯、交互习惯和喜好对信息分类,已成为用户选择是否使用该应用程序的关键因素。如当用户使用流媒体播放类的应用程序时,为方便用户找到喜好接收的流媒体,应用程序运营商常对不同信息类型的视频作划分和标签,而对视频的划分标准,当前通常以视频的内容,或是以用户自行给出的标签作划分。上述划分方式,更易方便用户查找视频内容。而对于应用程序的运营商而言,很难从这些划分标准中准确地分析出观看某些视频的用户规律,继而较难地向用户推广与用户喜好有关的其他视频。因此,需要一种新型的信息聚类方法,可方便运营商从大数据中了解用户的使用规律,更为精准地推广近似的信息,增加用户的消费点。
技术实现思路
为了克服上述技术缺陷,本专利技术的目的在于提供一种信息聚类方法、系统、服务器及计算机可读存储介质,可通过对海量信息的处理,获取时间维度及地域维度上用户的使用习惯,以进一步分析用户的访问偏好。本专利技术公开了一种信息聚类方法,包括以下步骤:S100:获取一历史时间内目标信息的时间访问数据及地域访问数据,以形成输入数据样本;S200:对每一目标信息的初始数据特征降维至具有一特征范围的二维数据特征;S300:在二维尺度下分割所述特征范围,以将所述二维数据特征划分至多个聚类;S400:提取所述聚类中的二维数据特征,并对提取的二维数据特征升维至所述初始数据特征,以形成输出数据样本;S500:分析所述输出数据样本的地域访问特征及时间访问特征,以获取对所述信息的地域访问偏好及时间访问规律。优选地,所述步骤S100包括:S110:获取历史时间为t天内,n个视频信息在m个地区的访问数据,作为时间访问数据及地域访问数据;S120:形成n*t*m个输入数据样本。优选地,步骤S110中,t=15,m=34;步骤S120中计算的输入数据样本为n*15*34个。优选地,所述步骤S200包括:S210:对于每一视频信息的初始数据,基于:Ln=tanh(wn·Ln-1+bn)逐层降维至具有一特征范围的二维数据特征,其中n为第n层,wn为权重,bn为偏差,tanh()为激活函数,所述特征范围为(-1,1)。优选地,所述步骤S400包括:S410:对于每一提取的视频信息的二维数据,基于:Ln=tanh(wn·Ln-1+bn)逐层升维至15*34=510个初始数据,其中n为第n层,wn为权重,bn为偏差,tanh()为激活函数。优选地,所述步骤S300包括:S310:在每一维度上将所述特征范围(-1,1)划分为u个二级范围;S320:对每一二级范围等分为v个区间,以形成(u·v)2个聚类。优选地,所述步骤S310包括:S311:在每一维度上将所述特征范围(-1,1)划分为(-0.1,0.1)、(-1,-0.4)∪(0.4,1)、(-0.4,0.1)∪(0.1,0.4)三个二级范围;所述步骤S320包括:S321:在每一维度上等分(-0.1,0.1)、(-1,-0.4)∪(0.4,1)、(-0.4,0.1)∪(0.1,0.4)二级范围,以形成900个聚类。优选地,信息聚类方法还包括以下步骤:S600:衡量所述输入数据样本与输出数据样本的差别;S700:基于反向传播及所述差别,计算更新权重w'n;S800:迭代计算所述权重w'n,以形成一权重终值wn。优选地,所述步骤S600包括:S610:基于损失函数计算所述差别;所述步骤S700包括:S710:基于w'=w-α·Loss'(Output,Input)计算所述更新权重w'n,其中α为学习率,Loss'()为对所述损失函数求导;所述步骤S800包括:S810:根据迭代次数降低所述学习率α,直至所述损失函数的值小于0.0001*T,其中T为聚类的总数。本专利技术还公开了一种服务器,包括处理器和存储设备,所述存储设备存储有计算机程序,所述处理器调用并执行所述计算机程序时实现如上所述的信息聚类方法。本专利技术还公开了一种信息聚类系统,包括:获取器,获取历史时间内目标信息的时间访问数据及地域访问数据,以形成输入数据样本;编码器,对每一目标信息的初始数据特征降维至具有一特征范围的二维数据特征;聚类器,在二维尺度下分割所述特征范围,以将所述二维数据特征划分至多个聚类;解码器,提取所述聚类中的二维数据特征,并对提取的二维数据特征升维至所述初始数据特征,以形成输出数据样本;分析器,分析所述输出数据样本的地域访问特征及时间访问特征,以获取对所述信息的地域访问偏好及时间访问规律。本专利技术又公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的信息聚类方法。采用了上述技术方案后,与现有技术相比,具有以下有益效果:1.根据对信息访问中时间维度上的特征和地域维度上的特征,可帮助运营商了解信息访问的用户规律,进一步用户的访问偏好;2.面对海量的信息,也可做到快速分布式聚类。附图说明图1为符合本专利技术一优选实施例中信息聚类方法的流程示意图;图2为符合本专利技术一进一步优选实施中信息聚类方法的流程示意图;图3为符合本专利技术最优选实施中信息聚类方法的流程示意图;图4为符合本专利技术一优选实施例中信息聚类系统的结构示意图;图5为符合本专利技术一优选实施例中聚类过程中的结果示意图。具体实施方式以下结合附图与具体实施例进一步阐述本专利技术的优点。这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”在本专利技术的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。在本专利技术的描述中,除非另有规定和限定,需要说明的是,术语“安装本文档来自技高网...

【技术保护点】
1.一种信息聚类方法,其特征在于,包括以下步骤:S100:获取一历史时间内目标信息的时间访问数据及地域访问数据,以形成输入数据样本;S200:对每一目标信息的初始数据特征降维至具有一特征范围的二维数据特征;S300:在二维尺度下分割所述特征范围,以将所述二维数据特征划分至多个聚类;S400:提取所述聚类中的二维数据特征,并对提取的二维数据特征升维至所述初始数据特征,以形成输出数据样本;S500:分析所述输出数据样本的地域访问特征及时间访问特征,以获取对所述信息的地域访问偏好及时间访问规律。

【技术特征摘要】
1.一种信息聚类方法,其特征在于,包括以下步骤:S100:获取一历史时间内目标信息的时间访问数据及地域访问数据,以形成输入数据样本;S200:对每一目标信息的初始数据特征降维至具有一特征范围的二维数据特征;S300:在二维尺度下分割所述特征范围,以将所述二维数据特征划分至多个聚类;S400:提取所述聚类中的二维数据特征,并对提取的二维数据特征升维至所述初始数据特征,以形成输出数据样本;S500:分析所述输出数据样本的地域访问特征及时间访问特征,以获取对所述信息的地域访问偏好及时间访问规律。2.如权利要求1所述的信息聚类方法,其特征在于,所述步骤S100包括:S110:获取历史时间为t天内,n个视频信息在m个地区的访问数据,作为时间访问数据及地域访问数据;S120:形成n*t*m个输入数据样本。3.如权利要求2所述的信息聚类方法,其特征在于,步骤S110中,t=15,m=34;步骤S120中计算的输入数据样本为n*15*34个。4.如权利要求2所述的信息聚类方法,其特征在于,所述步骤S200包括:S210:对于每一视频信息的初始数据,基于:Ln=tanh(wn·Ln-1+bn)逐层降维至具有一特征范围的二维数据特征,其中n为第n层,wn为权重,bn为偏差,tanh()为激活函数,所述特征范围为(-1,1)。5.如权利要求2所述的信息聚类方法,其特征在于,所述步骤S400包括:S410:对于每一提取的视频信息的二维数据,基于:Ln=tanh(wn·Ln-1+bn)逐层升维至初始数据,其中n为第n层,wn为权重,bn为偏差,tanh()为激活函数。6.如权利要求4所述的信息聚类方法,其特征在于,所述步骤S300包括:S310:在每一维度上将所述特征范围(-1,1)划分为u个二级范围;S320:对每一二级范围等分为v个区间,以形成(u·v)2个聚类。7.如权利要求6所述的信息聚类方法,其特征在于,所述步骤S310包括:S311:在每一维度上将所述特征范围(-1,1)划分...

【专利技术属性】
技术研发人员:黄河彭思涵
申请(专利权)人:上海哔哩哔哩科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1