基于LDA主题模型和kmeans聚类算法的主播画像分类方法技术

技术编号:37607085 阅读:13 留言:0更新日期:2023-05-18 11:59
基于LDA主题模型和kmeans聚类算法的主播画像分类方法,属于数据分析技术领域。步骤:S1、在指示终端设备中获取主播信息,得到原始数据集,并对获取的主播信息进行数据预处理,得到初始数据集;S2、根据初始数据集,构建LDA主题模型,从初始数据集中挖掘出主题词和每位主播文本信息的主题概率分布;S3、数据转换,将每位主播的数据信息进行对数处理和标准化;S4、确定聚类的类别数量,依据轮廓系数和簇内误差平方和确定聚类的类别数量;S5、依据kmeans聚类算法主播相关数值数据进行聚类,得到主播所属的不同类别,并依据结果分析主播特质,建立主播画像。本发明专利技术可将主播的文本数据与结构化数据同时进行聚类,建立主播画像,精细化营销。细化营销。细化营销。

【技术实现步骤摘要】
基于LDA主题模型和kmeans聚类算法的主播画像分类方法


[0001]本专利技术属于数据分析
,具体涉及一种基于LDA主题模型和kmeans聚类算法的主播画像分类方法。

技术介绍

[0002]随着移动网络的发展,越来越多的国人观看直播,抖音、快手等直播平台基于此迅速发展,也由于直播时带来的强大流量,越来越多的企业找到主播寻求合作,推广自己的产品和服务。但是,面对海量的主播群体,企业如何选择合适的主播进行合作,不同类型的主播都有哪些特质,能够产生哪些不同的营销效果,却不得而知。基于此,我们提出基于LDA主题模型和使用kmeans聚类算法对主播进行画像。同时,主播的文本数据(如直播介绍)等在现有研究中,无法以量化的形式纳入主播画像,但众所周知,这一重要数据类型在实际生活中却极大的影响观众和企业对主播的认知。
[0003]授权公告号为CN110689040B、授权公告日为2022年10月18日的专利技术专利公开了“一种基于主播画像的声音分类方法”,该专利也是对主播画像进行分类的。该专利的分类方法需要事先对音频内容进行定义分类,因而无法应对大数据做出广泛高效的分析,同时没有对音频的文本数据进行自动化分析和挖掘。

技术实现思路

[0004]本专利技术的目的是为解决现有技术存在的上述问题,提供一种基于LDA主题模型和kmeans聚类算法的主播画像分类方法。
[0005]本专利技术对主播进行自动分类,基于LDA主题模型能够分析主播的文本数据,并将其转化为数值数据。在此基础上通过kmeans聚类算法将主播的数值数据进行聚类分析,基于机器学习而不用人工的办法,从而能够保证分类结果的客观性与分类的便捷性,同时能够释放占据的人力资源。
[0006]实现上述目的,本专利技术采取的技术方案如下:
[0007]基于LDA主题模型和kmeans聚类算法的主播画像分类方法,利用LDA主题模型将主播的文本数据转化为数值数据,利用kmeans聚类算法将主播的相关数值数据进行聚类,建立主播画像;所述方法包括以下步骤:
[0008]S1、在指示终端设备中获取主播信息,得到原始数据集,并对信息进行数据预处理,得到初始数据集;
[0009]S2、根据初始数据集,构建LDA主题模型,从初始数据集中挖掘出主题词和每位主播文本数据的不同主题概率分布;
[0010]S3、数据转换,将每位主播的数值数据进行对数处理和标准化;
[0011]S4、确定聚类的类别数量,依据轮廓系数和簇内误差平方和确定聚类的类别数量;
[0012]S5、依据kmeans聚类算法将主播的相关数值数据进行聚类,得到主播所属的不同类别,并依据结果分析主播特质,建立主播画像。
[0013]进一步的是,所述步骤S1中,在指示终端设备中获取主播信息,得到原始数据集,并对信息进行数据预处理,得到初始数据集的具体步骤如下:
[0014]S11、获取主播的文本数据和数值数据,并筛选掉含有缺失值的直播,得到原始数据集;
[0015]S12、在步骤S11基础上,对原始数据集进行文本分词,得到分词词汇集;
[0016]S13、根据停用词表收集停用词,构建相关词典,去除分词词汇的停用词,得到初始数据集。
[0017]进一步的是,所述步骤S2中,构建LDA主题模型的具体步骤如下:
[0018]S21、根据初始数据集,确定LDA主题模型的主题数K,采用困惑度评价法求得最优主题数K,困惑度计算公式为:
[0019][0020]其中,M为主播文本数据的个数;N
i
为第i位主播的文本数据中出现的词语总数;w
i
为构成第i位主播相关文本数据的词语;p(w
i
)为w
i
产生的概率;
[0021]为了保证聚类效果,得出主题数K为10以内的所有主题数K的困惑度,并依据手肘法,选择困惑度的拐点作为最佳主题数K;
[0022]S22、在先验参数为α和β的狄利克雷分布中,抽样生成每位主播在主题数K条件下文本数据的主题分布θ和所有主播文本数据的主题词分布
[0023]α具体表示为每位主播文本数据在主题上的分布的狄利克雷先验参数;
[0024]β具体表示为所有主播文本数据的主题词分布的狄利克雷先验参数;
[0025]S23、从每位主播文本数据的主题分布θ中,抽样生成每位主播文本数据的主题Z,LDA主题模型假设每位主播文本数据都是由不同比例的词语组合组成的,反映了每位主播文本数据的独特的主题,组合比例服从多项式分布,表示为:
[0026]Z|θ=Multinomial(θ)
[0027]从所有主播文本数据的主题词分布中,抽样生成主题词W,每个主题都是由主播文本数据中的词语组成的,组合比例也服从多项式分布,表示为:
[0028][0029]其中,w
i
为构成第i位主播相关文本数据的词语,其概率分布的计算公式为:
[0030][0031]其中,P(w
i
|z=s)表示词语w
i
属于第s个主题的概率;P(z=s|i)表示第i位主播文本数据中第s个主题的概率;K为最佳主题数;
[0032]S24、LDA主题模型结果含有每个主题k下的高频词,以及每位主播文本数据的主题分布,分析最佳主题数K下,每个主题k的前20个高频词,同时对每个主题k进行定义与解释;
[0033]S25、LDA主题模型结果也含有每个主题在每个主播文本数据中的概率分布,后续以此为主播文本数据的数据变量,纳入聚类分析中。
[0034]进一步的是,所述步骤S3中数据转换的具体步骤如下:
[0035]S31、将需要聚类的主播的数值数据标准化,用公式表示为:
[0036]z=(x

μ)/σ
[0037]其中,x为该数值数据的某一具体数;μ为该数值数据的平均数;σ为该数值数据的标准差;Z值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算,在原始分数低于平均值时Z则为负数,反之则为正数。
[0038]进一步的是,步骤S4的具体步骤如下:
[0039]S41、依据轮廓系数和簇内误差平方和确定聚类的类别数量,轮廓系数计算公式如下:
[0040][0041]其中,a
i
表示第i个样本与其同一簇群中所有其他数据之间的平均距离,即为量化簇内的凝聚度;b
i
表示第i个样本与最近一个聚簇的平均距离,用于量化簇内的分离度;n表示主播总数,数量上等于主播文本信息的个数M;f为全部样本的轮廓系数;不难发现,若f小于0,说明f与其簇内元素的平均距离大于最近的其他簇,表示聚类效果不好;如果ai趋于0,或者bi大于ai,那么f趋近于1,说明聚类效果最好;
[0042]误差平方和计算如下:
[0043][0044]其中,Cq为第q个簇;mq为Cq的簇质心;p为Cq中的样本点;SSE为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于LDA主题模型和kmeans聚类算法的主播画像分类方法,其特征在于:利用LDA主题模型将主播的文本数据转化为数值数据,利用kmeans聚类算法将主播的相关数值数据进行聚类,建立主播画像;所述方法包括以下步骤:S1、在指示终端设备中获取主播信息,得到原始数据集,并对信息进行数据预处理,得到初始数据集;S2、根据初始数据集,构建LDA主题模型,从初始数据集中挖掘出主题词和每位主播文本数据的不同主题概率分布;S3、数据转换,将每位主播的数值数据进行对数处理和标准化;S4、确定聚类的类别数量,依据轮廓系数和簇内误差平方和确定聚类的类别数量;S5、依据kmeans聚类算法将主播的相关数值数据进行聚类,得到主播所属的不同类别,并依据结果分析主播特质,建立主播画像。2.根据权利要求1所述的基于LDA主题模型和kmeans聚类算法的主播画像分类方法,其特征在于:所述步骤S1中,在指示终端设备中获取主播信息,得到原始数据集,并对信息进行数据预处理,得到初始数据集的具体步骤如下:S11、获取主播的文本数据和数值数据,并筛选掉含有缺失值的直播,得到原始数据集;S12、在步骤S11基础上,对原始数据集进行文本分词,得到分词词汇集;S13、根据停用词表收集停用词,构建相关词典,去除分词词汇的停用词,得到初始数据集。3.根据权利要求1所述的基于LDA主题模型和kmeans聚类算法的主播画像分类方法,其特征在于:所述步骤S2中,构建LDA主题模型的具体步骤如下:S21、根据初始数据集,确定LDA主题模型的主题数K,采用困惑度评价法求得最优主题数K,困惑度计算公式为:其中,M为主播文本数据的个数;N
i
为第i位主播的文本数据中出现的词语总数;w
i
为构成第i位主播相关文本数据的词语;p(w
i
)为w
i
产生的概率;为了保证聚类效果,得出主题数K为10以内的所有主题数K的困惑度,并依据手肘法,选择困惑度的拐点作为最佳主题数K;S22、在先验参数为α和β的狄利克雷分布中,抽样生成每位主播在主题数K条件下文本数据的主题分布θ和所有主播文本数据的主题词分布α具体表示为每位主播文本数据在主题上的分布的狄利克雷先验参数;β具体表示为所有主播文本数据的主题词分布的狄利克雷先验参数;S23、从每位主播文本数据的主题分布θ中,抽样生成每位主播文本数据的主题Z,LDA主题模型假设每位主播文本数据都是由不同比例的词语组合组成的,反映了每位主播文本数据的独特的主题,组合比例服从多项式分布,表示为:Z|D=Multinomial(θ)从所有主播文本数据的主题词分布中,抽样生成主题词W,每个主题都是由主播文本数据中的词语组成的,组合比例也服从多项式分布,表示为:
其中,w
i
为构成第i位主播相关文本数据的词语,其概率分布的计算公式为:其中,P(w
i
|z=s)表示词语w
i

【专利技术属性】
技术研发人员:吴少辉王洪珑谢晓东李国鑫
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1