广播电视用户收视行为预测方法及系统技术方案

技术编号:16367476 阅读:211 留言:0更新日期:2017-10-10 23:59
本发明专利技术提供广播电视收视行为预测方法及系统,方法包括:采集广播电视用户设定时间段内收视行为数据组成第一收视行为序列;采用至少一种序列长度将第一收视行为序列划分为多个第二收视行为序列;根据第二收视行为序列构建第一收视行为序列前缀树;将前缀树子树里每一个分支根节点代表收视行为与除去底层子节点的各子节点收视行为按照层顺序组成多个第三收视行为序列;基于SPEED算法、SPEED‑C算法、SPEED‑CR算法或者上述各算法与S‑Markov方法的结合预测第三收视行为序列后紧跟的收视行为的内部概率、逃逸概率和预测概率,得到最大预测概率对应的第三收视行为序列及其后紧跟的收视行为组合构成最佳收视行为序列。

【技术实现步骤摘要】
广播电视用户收视行为预测方法及系统
本专利技术涉及广播电视
,更为具体地,涉及一种广播电视用户收视行为预测方法及系统。
技术介绍
如今,传统电视媒体同互联网等新媒体一样,对自身平台的节目收视情况都格外看重。由于收视结果是海量用户行为的累积,所以对用户收视行为进行预测,将会从源头解释收视成因,也便于进一步采取措施吸引、培养、稳固住忠实用户,以守住盈利底线、制造更多潜在的营收途径。SPEED算法(加强片段挖掘的序列预测)是以数据压缩领域的PPM型算法为基础、历经LeZiUpdate算法和ALZ(ActiveLeZi)算法改进而成的序列预测算法,其原理是对历史数据建立前缀树和有限阶马尔可夫模型,并利用PPM算法计算可能组合的预测概率,概率最大的组合即作为预测结果。现有技术中,没有将SPEED算法应用到广播电视收视行为的预测,更加没有通过广播电视用户对节目或频道的收听情况,预测未来用户最喜爱的收视节目或频道组合。
技术实现思路
鉴于上述问题,本专利技术的目的是提供一种基于SPEED算法对广播电视用户的收视行为进行预测的广播电视用户收视行为预测方法及系统。根据本专利技术的一个方面,提供一种广本文档来自技高网...
广播电视用户收视行为预测方法及系统

【技术保护点】
一种广播电视用户收视行为预测方法,其特征在于,包括:步骤1,采集广播电视用户设定时间段内收视行为数据组成第一收视行为序列,所述收视行为包括收视指标、收听节目的标示符和收听频道的标示符中的一种或多种;步骤2,采用至少一种序列长度将所述第一收视行为序列划分为多个第二收视行为序列,所述第二收视行为序列的序列长度短于所述第一收视行为序列的序列长度;步骤3,根据第二收视行为序列构建第一收视行为序列的前缀树,包括:设定所述前缀树的最高层数,以第一收视行为序列中出现的每一个收视行为作为一个根节点,不大于所述最高层数的各第二收视行为序列中各种收视行为组合作为各分支,每一根节点与该根节点相连的各分支构成每一个子...

【技术特征摘要】
1.一种广播电视用户收视行为预测方法,其特征在于,包括:步骤1,采集广播电视用户设定时间段内收视行为数据组成第一收视行为序列,所述收视行为包括收视指标、收听节目的标示符和收听频道的标示符中的一种或多种;步骤2,采用至少一种序列长度将所述第一收视行为序列划分为多个第二收视行为序列,所述第二收视行为序列的序列长度短于所述第一收视行为序列的序列长度;步骤3,根据第二收视行为序列构建第一收视行为序列的前缀树,包括:设定所述前缀树的最高层数,以第一收视行为序列中出现的每一个收视行为作为一个根节点,不大于所述最高层数的各第二收视行为序列中各种收视行为组合作为各分支,每一根节点与该根节点相连的各分支构成每一个子树,根节点代表的收视行为在第一收视行为序列中出现的频数为所述根节点的节点值,从根节点到子节点代表的收视行为组合在各第二收视行为序列中出现的频数之和为所述子节点的节点值;步骤4,将上述前缀树的子树里每一个分支的根节点代表的收视行为与除去底层子节点的各子节点代表的收视行为按照层顺序组成不同序列长度的多个第三收视行为序列;步骤5a,预测每一个第三收视行为序列下一次序的收视行为为所述第一收视行为序列中任一个收视行为的内部概率,所述内部概率按照下面的公式(1)和(2)计算,其中,i表示所述第一收视行为序列的前缀树的层数索引也表示第三收视行为序列的次序索引,y1表示所述第一收视行为序列的前缀树的子树的根节点,y2,…,yi表示所述子树的根节点y1的一个分支的第2层到第i层的子节点,y1y2…yi表示所述分支对应的序列长度为i的第三收视行为序列,1≤i≤n-1,n表示所述分支的最高层数,x表示要预测的收视行为,pint(x)表示所述第一收视行为序列的前缀树的根节点为x的内部概率,N(y1=x)表示所述第一收视行为序列的前缀树的子树的第一层中根节点为x的节点值,ΣN(y1)表示所述第一收视行为序列的前缀树第一层的各子树根节点的节点值之和,pint(x|y1y2…yi)表示所述第三收视行为序列次序为i+1的收视行为为x的内部概率,N(yi+1=x)表示所述分支第i层节点yi的第i+1层的子节点为x的节点值,N(yi)表示所述分支的第i层的节点yi的节点值;步骤5b,根据与第三收视行为序列中每一个收视行为对应节点的节点值以及属于所述节点的下一层的子节点的节点值之和预测所述收视行为对应的节点从所在层逃逸的逃逸概率,所述逃逸概率按照下面的公式(3)计算,其中,pesc(i,yi)表示所述第三收视行为序列所在分支第i层节点yi的逃逸概率,表示所述第三收视行为序列所在分支第i层节点yi的第i+1层所有子节点的节点值的加和;步骤6,根据上述内部概率和逃逸概率确定每一个第三收视行为序列下一次序为所述第一收视行为序列中每一个收视行为的预测概率,所述预测概率按照公式(4)和(5)计算p(x|y1y2…yi)=p(i+1,x)=pint(x|y1y2…yi)+pesc(i,yi)*p(i,x)(4)p(x)=pint(x)(5)其中,p(x|y1y2…yi)和p(i+1,x)表示序列长度为i的所述第三收视行为序列次序i+1的收视行为是x的预测概率,p(i,x)表示所述第三收视行为序列次序为i的收视行为是x预测概率,p(x)表示所述第三收视行为序列次序为1的收视行为是x预测概率;步骤7,上述各第三收视行为序列的下一次序收视行为的各预测概率的最大值对应的第三收视行为序列和下一次序收视行为组合成的第四收视行为序列为最佳收视行为序列。2.一种广播电视用户收视行为预测方法,其特征在于,包括:步骤10,采集广播电视用户设定时间段内收视行为数据组成第一收视行为序列,所述收视行为包括收视指标、收听节目的标示符和收听频道的标示符中的一种或多种;步骤20,采用至少一种序列长度将所述第一收视行为序列划分为多个第二收视行为序列,所述第二收视行为序列的序列长度短于所述第一收视行为序列的序列长度;步骤30,根据第二收视行为序列构建第一收视行为序列的前缀树,包括:设定所述前缀树的最高层数,以第一收视行为序列中出现的每一个收视行为作为一个根节点,不大于所述最高层数的各第二收视行为序列中各种收视行为组合作为各分支,,每一根节点与该根节点相连的各分支构成每一个子树,根节点代表的收视行为在第一收视行为序列中出现的频数为所述根节点的节点值,从根节点到子节点代表的收视行为组合在各第二收视行为序列中出现的频数之和为所述子节点的节点值;步骤40,将上述前缀树的子树里每一个分支的根节点代表的收视行为与除去底层子节点的各子节点代表的收视行为按照层顺序组成不同序列长度的多个第三收视行为序列;步骤50a,预测每一个第三收视行为序列下一次序的收视行为为所述第一收视行为序列中任一个收视行为的内部概率,所述内部概率按照下面的公式(1)和(2)计算,其中,i表示所述第一收视行为序列的前缀树的层数索引也表示第三收视行为序列的次序索引,y1表示所述第一收视行为序列的前缀树的子树分支的根节点,y2,...,yi表示所述根节点y1的一个分支的第2层到第i层的子节点,y1y2...yi表示所述分支对应的序列长度为i的第三收视行为序列,1≤i≤n-1,n表示所述分支的最高层数,pint(x)表示所述第一收视行为序列的前缀树的子树分支的根节点为x的内部概率,N(y1=x)表示所述第一收视行为序列的前缀树的子树的第一层根节点为x的节点值,∑N(y1)表示所述第一收视行为序列的前缀树的子树的第一层的所有根节点的节点值之和,pint(x|y1y2...yi)表示所述第三收视行为序列次序为i+1的收视行为为x的内部概率,N(yi+1=x)表示所述分支第i层节点yi的第i+1层的子节点为x的节点值,N(yi)表示所述分支的第i层的节点yi的节点值;步骤50b,根据与第三收视行为序列中每一个收视行为对应节点的下一层的子节点的节点值之和和所述下一层的子节点中收视行为的不同种类数预测所述收视行为对应的节点从所在层逃逸的逃逸概率,所述逃逸概率按照下面的公式(6)计算,其中,pesc′(i,yi)表示第三收视行为序列所在分支第i层节点为yi的逃逸概率,表示第三收视行为序列所在分支第i层节点为yi的第i+1层所有子节点中收视行为的不同种类数,表示所述第三收视行为序列所在分支第i层节点为yi的第i+1层所有子节点的节点值的加和;步骤60,根据上述内部概率和逃逸概率确定每一个第三收视行为序列下一次序为所述每一个第一收视行为序列中每一个收视行为的预测概率,所述预测概率按照公式(7)和(8)计算p′(x|y1y2...yi)=p′(i+1,x)=pint(x|y1y2...yi)+pesc′(i,yi)*p′(i,x)(7)p′(x)=pint(x)(8)其中,p′(x|y1y2…yi)和p′(i+1,x)表示序列长度i为的所述第三收视行为序列次序i+1的收视行为为x的预测概率,p′(i,x)表示所述第三收视行为序列次序为i的收视行为为x预测概率,p′(x)表示所述第三收视行为序列次序为1的收视行为为x预测概率;步骤70,上述各第三收视行为序列的下一次序收视行为的各预测概率的最大值对应的第三收视行为序列和下一次序收视行为组合成的第四收视行为序列为最佳收视行为序列。3.一种广播电视用户收视行为预测方法,其特征在于,包括:步骤100,采集广播电视用户设定时间段内收视行为数据组成第一收视行为序列,所述收视行为包括收视指标、收听节目的标示符和收听频道的标示符中的一种或多种;步骤200,采用至少一种序列长度将所述第一收视行为序列划分为多个第二收视行为序列,所述第二收视行为序列的序列长度短于所述第一收视行为序列的序列长度;步骤300,根据第二收视行为序列构建第一收视行为序列的前缀树,包括:设定所述前缀树的最高层数,以第一收视行为序列中出现的每一个收视行为作为一个根节点,不大于所述最高层数的各第二收视行为序列中各种收视行为组合作为各分支,每一根节点与该根节点相连的各分支构成每一个子树,根节点代表的收视行为在第一收视行为序列中出现的频数为所述根节点的节点值,从根节点到子节点代表的收视行为组合在各第二收视行为序列中出现的频数之和为所述子节点的节点值;步骤400,将上述前缀树的子树分支中的根节点代表的收视行为与除去底层子节点的各子节点代表的收视行为按照层顺序组成多个不同序列长度的第三收视行为序列;步骤500a,预测每一个第三收视行为序列下一次序的收视行为为所述第一收视行为序列中任一个收视行为的内部概率,所述内部概率按照下面的公式(9)计算,其中,i表示所述第一收视行为序列的前缀树的层数索引也表示第三收视行为序列的次序索引,1≤i≤n-1,n表示所述第三收视行为序列所在分支的最高层数,x表示要预测的收视行为,y1y2…yi表示根节点为y1,子节点依次为y2,…,yi的分支对应的序列长度为i的第三收视行为序列,pint′(x|y1y2…yi)表示所述序列长度为i的第三收视行为序列y1y2...yi下一次序收视行为为x的内部概率,pint′(x|y2…yi)表示根节点为y2,子节点依次为y3,…,yi的分支对应的序列长度为i-1的第三收视行为序列下一次序的收视行为为x的内部概率,pint′(x)表示根节点为x的内部概率,N(y1=x)表示所述第一收视行为序列的前缀树的子树的第一层中根节点为x的节点值,∑N(y1)表示所述第一收视行为序列的前缀树第一层的各子树根节点的节点值之和,N′(yi+1=x)表示各分支的底层的子节点为x的节点值,N′(yi)表示各分支的底层的上一层的节点yi的节点值;步骤500b,根据与第三收视行为序列中每一个收视行为作为根节点的各分支的底层子节点的节点值之和和所述底层子节点中收视行为的不同种类数预测所述每一个收视行为对应的节点从所在层逃逸的逃逸概率,所述逃逸概率按照下面的公式(10)计算,其中,pesc″(i,yi)表示根节点y1的分支y1y2…yi逃到根节点为y2的另一分支y2…yi的逃逸概率,表示根节点y1的分支y1y2…yi底层所有子节点中收视行为的不同种类数,表示根节点y1的分支y2…yi底层所有子节点的节点值的加和;步骤600,根据上述内部概率和逃逸概率确定每一个第三收视行为序列下一次序为所述第一收视行为序列中每一个收视行为的预测概率,所述预测概率按照公式(11)和(12)计算p″(x|y1y2…yi)=pint′(x|y1y2…yi)+pesc″(i,yi)*p″(x|y2y3…yi)(11)p″(x)=pint′(x)(12)其中,p″(x|y1y2...yi)表示根节点y1的分支y1y2...yi对应的第三收视行为序列下一次序的收视行为为x的预测概率,p″(x|y2y3...yi)表示根节点为y2的分支y2...yi对应的第三收视行为序列下一次序的收视行为为x的预测概率,p″(x)表示根节点为x的预测概率;步骤700,上述各第三收视行为序列的下一次序的收视行为的各预测概率的最大值对应的第三收视行为序列和下一次序收视行为组合成的第四收视行为序列为最佳收视行为序列。4.根据权利要求1或2或3所述的广播电视用户收视行为预测方法,其特征在于,所述步骤4或步骤40或步骤400还包括:将第一收视行为序列中每一个收视行为作为一个状态,即将每一个根节点作为一个状态,根据一个状态转移到另一个状态的转移概率构建立马尔科夫模型,其中,所述转移概率按照公式(13)计算其中,amn表示由状态m到状态n的转移概率也是根节点m到根节点n的转移概率,表示根节点为m的第二层子节点n的节点值也是第三收视序列mn在各第二收视频道序列中出现的频数之和,N(F2)表示所有只有两层分支F2的个数也是所有序列长度为2的第三收视序列的个数;选定任一个状态为起始状态q1,从所述起始状态位于马尔科夫模型的状态转移矩阵的第行中找到起始状态q0的最大转移概率值对应的状态q2;从所述状态位于所述马尔科夫模型的状态转移矩阵的第行找到状态q2的最大转移概率值对应的状态q3,依次循环,当其中任一个状态第二次出现时,将所述任一个状态第二次出现前各不同状态组成第五收视行为序列{q1,q2,q3,...};判断第五收视行为序列是否是非空集;如果是非空集,将所述第五收视行为序列作为最佳收视行为序列;如果是空集,则各第三收视行为序列执行步骤5a至步骤7或者步骤50a至步骤70或者步骤500a至步骤700,将所述第四收视行为序列作为最佳收视行为序列。5.根据权利要求1-4中任一权利要求所述的广播电视用户收视行为预测方法,其特征在于,在步骤3或步骤30或步骤300中,还包括:设定频数阈值,将节点值小于所述频数阈值的节点从前缀树中去除。6.一种广播电视用户收视行为预测系统,其特征在于,包括采集部、序列划分部、前缀树构建部、第一预测序列构建部、第一内部概率预测部、第一逃逸概率预测部、第一预测概率预测部和第一最佳收视行为序列确定部,其中:采集部,采集广播电视用户设定时间段内收视行为数据组成第一收视行为序列,并将第一收视行为序列发送给序列划分部和前缀树构建部,所述收视行为包括收视指标、收听节目的标示符和收听频道的标示符中的一种或多种;序列划分部,采用至少一种序列长度将采集部发送的第一收视行为序列划分为多个第二收视行为序列,所述第二收视行为序列的序列长度短于所述第一收视行为序列的序列长度,将第二收视行为序列发送给前缀树构建部;前缀树构建部,根据第二收视行为序列构建第一收视行为序列的前缀树,包括:设定所述前缀树的最高层数,以第一收视行为序列中出现的每一个收视行为作为一个根节点,不大于所述最高层数的各第二收视行为序列中各种收视行为组合作为各分支,每一根节点与该根节点相连的各分...

【专利技术属性】
技术研发人员:殷复莲白雪松苏沛
申请(专利权)人:中国传媒大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1