基于LDA主题模型与固定效应模型的直播效果的预测方法技术

技术编号:36402153 阅读:17 留言:0更新日期:2023-01-18 10:09
基于LDA主题模型与固定效应模型的直播效果的预测方法,属于数据分析技术领域。方法是:获取主播和每场直播的信息,得到原始数据集;对原始数据集中的弹幕文本进行数据预处理,得到初始数据集;根据初始数据集,构建LDA主题模型,并通过LDA主题模型从初始数据集中挖掘出主题词和每场直播的主题概率分布;依据每场直播互动模式的概率分布及其二次项,并分别加入直播时长、粉丝数量、该场直播的访问量及直播效果构建固定效应模型,从而探究多个自变量对直播效果的影响关系,并得到固定效应模型系数和残差项;根据二次项固定效应模型系数,探求该主播群体固定效应模型的极值点,探究针对直播的最佳互动模式。本发明专利技术用于直播效果的预测、分析与提升。分析与提升。分析与提升。

【技术实现步骤摘要】
基于LDA主题模型与固定效应模型的直播效果的预测方法


[0001]本专利技术属于数据分析
,具体涉及一种基于LDA主题模型与固定效应模型的直播效果的预测方法。

技术介绍

[0002]直播能更好的呈现商品,并让观众与主播能够实时互动,极大的促进观众的冲动消费。作为当下的重要网络购物购买渠道,主播新增数量也十分的巨大,导致的主播市场竞争加剧。每位主播和品牌方也都采取各种措施来提升自己直播间的销售量。同时,由于观众在直播间的购物往往属于冲动购买,学界关于直播的属性以及冲动购买影响因素的研究也取得了较为丰富的成果。然而,关于影响直播销售量的研究还有较大的增长空间,目前的研究更多使用实验法和问卷法,利用自然语言处理和计量经济模型来进行直播效果分析的文献相对较少,且数据采集的样本偏少,对文本内容的挖掘也不够充分,令主播难以真实了解到互动风格等多种要素对销售量的影响,平台方和品牌方也难以较好的预测主播的带货效果。而且,基于关系营销,关系型互动(聚焦于情感)和交易型(聚焦于产品和信息)互动在直播带货场景下的重要性并没有得到全面的探讨,较少有学者能从实证数据的角度来进行全面完整的分析和探索,因此,有必要研究一种可以将直播的多方因素纳入考虑,尤其将直播间的互动内容和其他多方要素同时纳入考量,构建对直播效果进行预测的模型,来探究对直播带货效果造成影响的要素的全面分析。同时,每位主播也有自己的独特情况和粉丝偏好,依据自身的直播互动特征、风格定位、粉丝偏好等往期情况,基于数据构建属于自己的直播带货影响因素模型也同样重要。依据分析模型结果,对自身带货的情况和风格做出调整,以达到最佳的直播效果。但此类模型目前并未在直播场景下,依据直播的特性进行充分的研究构建。

技术实现思路

[0003]本专利技术为解决现有技术存在的上述问题,提供一种基于LDA主题模型与固定效应模型的直播效果的预测方法。
[0004]实现上述目的,本专利技术采取的技术方案如下:
[0005]基于LDA主题模型与固定效应模型的直播效果的预测方法,利用LDA主题模型得到不同主题分布,利用固定效应模型探究直播的多种因素对直播销量的影响,并得出主播的最佳互动模式,所述方法包括以下步骤:
[0006]S1、获取主播和每场直播的信息,得到原始数据集;
[0007]S2、对原始数据集中的弹幕文本进行数据预处理,得到初始数据集;
[0008]S3、根据初始数据集,构建LDA主题模型,并通过LDA主题模型从初始数据集中挖掘出主题词和每场直播的主题分布,即每场直播互动模式的概率分布;
[0009]S4、依据每场直播互动模式的概率分布及其二次项,并分别加入直播时长、粉丝数量、该场直播的访问量及该场直播的效果构建固定效应模型,从而探究多个自变量对直播
效果的影响关系,并得到二次项固定效应模型系数和残差项;
[0010]S5、根据二次项固定效应模型系数,探求该主播群体固定效应模型的极值点,探究针对直播的最佳互动模式。
[0011]进一步的是,所述步骤S1中,获取主播和每场直播的信息,包括弹幕和销量信息。
[0012]进一步的是,所述步骤S2中,对原始数据集中的弹幕文本进行数据预处理,得到初始数据集的具体步骤如下:
[0013]S21、筛选掉含有缺失值、销售量为0、弹幕量为0的直播;
[0014]S22、在步骤S21基础上,对原始数据集进行文本分词,得到分词词汇集;
[0015]S23、根据停用词表收集停用词,去除分词词汇集中的停用词,得到初始数据集。
[0016]进一步的是,所述步骤S3中,构建LDA主题模型的具体步骤如下:
[0017]S31、根据初始数据集,确定LDA主题模型的主题数范围,为了保证合理的聚类效果,保证结果的解释度,将主题数范围定为K=2至K=10;
[0018]S32、在先验参数为α和β的狄利克雷分布中,抽样生成的每篇文档的主题分布θ和所有直播的主题词分布每篇文档也即每场直播;
[0019]α具体表示为每场直播中的主题分布的先验参数,每场直播的主题分布θ服从参数α的狄利克雷分布;
[0020]β具体表示为每个主题中的词分布的先验参数,所有直播的主题词分布服从参数β的狄利克雷分布;
[0021]S33、从主题分布θ中,抽样生成直播主题Z,LDA主题模型假设每场直播的弹幕都是由不同社会互动类型的比例组合组成的,反映了每场直播的一个独特的主题,组合比例服从多项式分布,表示为:
[0022]Z|θ=Multinomial(θ)
ꢀꢀꢀ
(1)
[0023]从所有直播的主题词分布中,抽样生成主题词W,每个主题都是由弹幕中的词语组成的,组合比例也服从多项式分布,表示为:
[0024][0025]其中,第i场直播中计算词语w
i
概率分布的计算公式为:
[0026][0027]P(w
i
|z=k)表示词语w
i
属于第k个主题的概率;P(z=k|i)表示一场直播i中第k个主题的概率,K为主题数;
[0028]S34、依据主题数K的范围,在每个主题数K下,重复S32至S33的步骤,构建LDA主题模型,并得到相应主题数K下不同主题k的主题词和每场直播的主题分布;
[0029]S35、计算主题强度;主题强度是指LDA主题模型构建后的每个主题k在语料库中占的相对分量,计算结果能够反映直播观众对某些领域的重视程度,主题强度高代表该领域为互动的重点内容;
[0030]主题强度计算公式为:
[0031][0032]其中:P
k
代表第k个主题的强度,能够体现主题的宏观均值;N表示直播的个数;θ
ki
表示第k个主题在第i场直播中的概率;
[0033]S36、根据主题强度的计算结果,以及主题的可解释性,确定最终主题数K及对应结果。
[0034]进一步的是,所述步骤S4中构建固定效应模型的具体步骤如下:
[0035]S41、依据关系营销理论和LDA主题模型分析得出的关于每场直播不同互动类型的概率分布,直播的互动内容分为情感型和交易型,同时两类互动在主题分析结果中存在共线性关系,将其中关系导向互动的概率分布作为自变量纳入固定效应模型中,进而全面探讨两类互动对直播效果的影响;
[0036]S42、除了关系导向互动的概率分布作为自变量纳入固定效应模型,也将直播时长、粉丝数量、该场直播的访问量作为自变量纳入固定效应模型,主播的固定效应和时间效应作为控制变量纳入固定效应模型分析;时间效应考虑以下两个部分,第一部分为该场直播是在星期几,构建虚拟变量进而作为控制变量纳入分析;第二部分依据直播是在上午、下午还是晚上,构建虚拟变量进而作为控制变量纳入分析;
[0037]S43、基于步骤S42提到的所有变量,构建固定效应模型:
[0038]y
ie
=g
ie
·
...

【技术保护点】

【技术特征摘要】
1.一种基于LDA主题模型与固定效应模型的直播效果的预测方法,其特征在于:利用LDA主题模型得到不同主题分布,利用固定效应模型探究直播的多种因素对直播销量的影响,并得出主播的最佳互动模式,所述方法包括以下步骤:S1、获取主播和每场直播的信息,得到原始数据集;S2、对原始数据集中的弹幕文本进行数据预处理,得到初始数据集;S3、根据初始数据集,构建LDA主题模型,并通过LDA主题模型从初始数据集中挖掘出主题词和每场直播的主题分布,即每场直播互动模式的概率分布;S4、依据每场直播互动模式的概率分布及其二次项,并分别加入直播时长、粉丝数量、该场直播的访问量及该场直播的效果构建固定效应模型,从而探究多个自变量对直播效果的影响关系,并得到二次项固定效应模型系数和残差项;S5、根据二次项固定效应模型系数,探求该主播群体固定效应模型的极值点,探究针对直播的最佳互动模式。2.根据权利要求1所述的基于LDA主题模型与固定效应模型的直播效果的预测方法,其特征在于:所述步骤S1中,获取主播和每场直播的信息,包括弹幕和销量信息。3.根据权利要求1所述的基于LDA主题模型与固定效应模型的直播效果的预测方法,其特征在于:所述步骤S2中,对原始数据集中的弹幕文本进行数据预处理,得到初始数据集的具体步骤如下:S21、筛选掉含有缺失值、销售量为0、弹幕量为0的直播;S22、在步骤S21基础上,对原始数据集进行文本分词,得到分词词汇集;S23、根据停用词表收集停用词,去除分词词汇集中的停用词,得到初始数据集。4.根据权利要求1所述的基于LDA主题模型与固定效应模型的直播效果的预测方法,其特征在于:所述步骤S3中,构建LDA主题模型的具体步骤如下:S31、根据初始数据集,确定LDA主题模型的主题数范围,为了保证合理的聚类效果,保证结果的解释度,将主题数范围定为K=2至K=10;S32、在先验参数为α和β的狄利克雷分布中,抽样生成的每篇文档的主题分布θ和所有直播的主题词分布每篇文档也即每场直播;α具体表示为每场直播中的主题分布的先验参数,每场直播的主题分布θ服从参数α的狄利克雷分布;β具体表示为每个主题中的词分布的先验参数,所有直播的主题词分布服从参数β的狄利克雷分布;S33、从主题分布θ中,抽样生成直播主题Z,LDA主题模型假设每场直播的弹幕都是由不同社会互动类型的比例组合组成的,反映了每场直播的一个独特的主题,组合比例服从多项式分布,表示为:Z|θ=Multinomial(θ)
ꢀꢀꢀꢀ
(1)从所有直播的主题词分布中,抽样生成主题词W,每个主题都是由弹幕中的词语组成的,组合比例也服从多项式分布,表示为:其中,第i场直播中计算词语w
i
概率分布的计算公式为:
P(w
i
|z=k)表示词语w
i
属于第k个主题的概率;P(z=k|i)表示一场直播i中第k个主题的概率,K为主题数;S34、依据主题数K的范围,在每个主题数K下,重复S32至S33的步骤,构建LDA主题模型,并得到相应主题数K下不同主题k的主题词和每场直播的主题分布;S35、计算主题强度;主题强度是指LDA主题模型构建后的每个主题k在语料库中占的相对分量,计算结果能够反映直播观众对某些领域的重视程度,主题强度高代表该领域为互动的重点内容;主题强度计算公式为:其中:P
k
代表第k个主题的强度,能够体现主题的宏观均值;N表示直播的个数;θ
ki
表示第k个主题在第i场直播中的概率;S36、根据主题强度的计算结果,以及主题的可解释性,确定最终主题数K及对应结果。5.根据权利要求1所述的基于LDA主题模型与固定效应模型的直播效果的预测方法,其特征在于:所述步骤S4中构建固定效应模型的具体步骤如下:S41、依据关系营销理论和LDA主题模型分析得出的关于每场直播不同互动类型的概率分...

【专利技术属性】
技术研发人员:吴少辉王洪珑谢晓东李国鑫
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1