【技术实现步骤摘要】
基于LDA主题模型和kmeans聚类算法的主播画像分类方法
[0001]本专利技术属于数据分析
,具体涉及一种基于LDA主题模型和kmeans聚类算法的主播画像分类方法。
技术介绍
[0002]随着移动网络的发展,越来越多的国人观看直播,抖音、快手等直播平台基于此迅速发展,也由于直播时带来的强大流量,越来越多的企业找到主播寻求合作,推广自己的产品和服务。但是,面对海量的主播群体,企业如何选择合适的主播进行合作,不同类型的主播都有哪些特质,能够产生哪些不同的营销效果,却不得而知。基于此,我们提出基于LDA主题模型和使用kmeans聚类算法对主播进行画像。同时,主播的文本数据(如直播介绍)等在现有研究中,无法以量化的形式纳入主播画像,但众所周知,这一重要数据类型在实际生活中却极大的影响观众和企业对主播的认知。
[0003]授权公告号为CN110689040B、授权公告日为2022年10月18日的专利技术专利公开了“一种基于主播画像的声音分类方法”,该专利也是对主播画像进行分类的。该专利的分类方法需要事先对音频内容进行定义分类,因而无法应对大数据做出广泛高效的分析,同时没有对音频的文本数据进行自动化分析和挖掘。
技术实现思路
[0004]本专利技术的目的是为解决现有技术存在的上述问题,提供一种基于LDA主题模型和kmeans聚类算法的主播画像分类方法。
[0005]本专利技术对主播进行自动分类,基于LDA主题模型能够分析主播的文本数据,并将其转化为数值数据。在此基础上通过kmeans聚 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于LDA主题模型和kmeans聚类算法的主播画像分类方法,其特征在于:利用LDA主题模型将主播的文本数据转化为数值数据,利用kmeans聚类算法将主播的相关数值数据进行聚类,建立主播画像;所述方法包括以下步骤:S1、在指示终端设备中获取主播信息,得到原始数据集,并对信息进行数据预处理,得到初始数据集;S2、根据初始数据集,构建LDA主题模型,从初始数据集中挖掘出主题词和每位主播文本数据的不同主题概率分布;S3、数据转换,将每位主播的数值数据进行对数处理和标准化;S4、确定聚类的类别数量,依据轮廓系数和簇内误差平方和确定聚类的类别数量;S5、依据kmeans聚类算法将主播的相关数值数据进行聚类,得到主播所属的不同类别,并依据结果分析主播特质,建立主播画像。2.根据权利要求1所述的基于LDA主题模型和kmeans聚类算法的主播画像分类方法,其特征在于:所述步骤S1中,在指示终端设备中获取主播信息,得到原始数据集,并对信息进行数据预处理,得到初始数据集的具体步骤如下:S11、获取主播的文本数据和数值数据,并筛选掉含有缺失值的直播,得到原始数据集;S12、在步骤S11基础上,对原始数据集进行文本分词,得到分词词汇集;S13、根据停用词表收集停用词,构建相关词典,去除分词词汇的停用词,得到初始数据集。3.根据权利要求1所述的基于LDA主题模型和kmeans聚类算法的主播画像分类方法,其特征在于:所述步骤S2中,构建LDA主题模型的具体步骤如下:S21、根据初始数据集,确定LDA主题模型的主题数K,采用困惑度评价法求得最优主题数K,困惑度计算公式为:其中,M为主播文本数据的个数;N
i
为第i位主播的文本数据中出现的词语总数;w
i
为构成第i位主播相关文本数据的词语;p(w
i
)为w
i
产生的概率;为了保证聚类效果,得出主题数K为10以内的所有主题数K的困惑度,并依据手肘法,选择困惑度的拐点作为最佳主题数K;S22、在先验参数为α和β的狄利克雷分布中,抽样生成每位主播在主题数K条件下文本数据的主题分布θ和所有主播文本数据的主题词分布α具体表示为每位主播文本数据在主题上的分布的狄利克雷先验参数;β具体表示为所有主播文本数据的主题词分布的狄利克雷先验参数;S23、从每位主播文本数据的主题分布θ中,抽样生成每位主播文本数据的主题Z,LDA主题模型假设每位主播文本数据都是由不同比例的词语组合组成的,反映了每位主播文本数据的独特的主题,组合比例服从多项式分布,表示为:Z|D=Multinomial(θ)从所有主播文本数据的主题词分布中,抽样生成主题词W,每个主题都是由主播文本数据中的词语组成的,组合比例也服从多项式分布,表示为:
其中,w
i
为构成第i位主播相关文本数据的词语,其概率分布的计算公式为:其中,P(w
i
|z=s)表示词语w
i
技术研发人员:吴少辉,王洪珑,谢晓东,李国鑫,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。