基于LDA主题模型的主播形象分类与关键特质分析方法技术

技术编号:38041346 阅读:7 留言:0更新日期:2023-06-30 11:07
基于LDA主题模型的主播形象分类与关键特质分析方法,属于数据分析技术领域。方法是:S1、在指示终端设备中获取每位主播的介绍文本,得到原始数据集;S2、对原始数据集中的介绍文本进行数据预处理,得到初始数据集;S3、根据初始数据集,构建LDA主题模型;S4、通过LDA主题模型从初始数据集中挖掘出主题高频词和每位主播自我介绍的主题分布,确定主题数,依据主题分布的最高值作为该主播形象分类;S5、使用方差分析,得到不同主播群体之间的差异性特质,了解不同主播群体的直播效果差异;S6、基于不同主播群体之间的差异性特质和直播效果差异,使用回归分析,得到每个主播群体内的影响直播效果的关键特质。本发明专利技术用于主播形象分类与关键特质分析。与关键特质分析。与关键特质分析。

【技术实现步骤摘要】
基于LDA主题模型的主播形象分类与关键特质分析方法


[0001]本专利技术涉及数据分析
,具体涉及一种基于LDA主题模型的主播形象分类与关键特质分析方法。

技术介绍

[0002]主播介绍是指在当前直播购物环境中,主播通过直播购物平台的个人信息界面向消费者和公司展现自我特征,明确直播内容,发布声明并提醒观众与公司相关直播信息的重要文本。随着信息技术和电子商务的飞速发展,越来越多的观众通过主播介绍进一步了解主播信息与其直播内容,从而关注主播、实现购买等。主播介绍作为主播风格与品牌特质的重要呈现方式,被主播们极大使用从而突出自身,推销自己,指导观众进行购买。但是,在现有的主播群体中存在哪些主播人设或者主播画像?这些不同类型的主播究竟是如何介绍自己?除此以外,这些不同类型主播的直播效果是否有差异,同时,不同类主播之间影响其直播效果差异的特质有哪些,需要哪些资源或者行为来提升某类主播的直播效果?无法明确主播介绍的相关元素与其占比,就无法对主播介绍方式进行指导,从而导致主播自我呈现、内容发布与用户偏好产生偏差,最终无法实现精准营销与个人品牌构建。不结合直播效果进行主播特质的对比分析,更无法了解到不同人设主播的努力方向。目前对此问题的研究更多使用实验法和定性的研究方法,无法对大量的文本数据进行深入的研究。同时现有的可针对大数据的主播画像往往需要人工编码,对信息的处理和挖掘依赖于人工标签(如《一种基于主播画像的声音分类方法》等)。且利用自然语言处理个人介绍并研究直播效果的文献相对较少,数据采集的样本也偏少,对文本内容的挖掘也不够充分,令公司难以真实快速地了解主播及个人形象,主播也难以精确有效的自我介绍,后续根据主播介绍特征的相关研究也无法深入开展,对其直播效果及关键特质更无法挖掘。
[0003]通过自然语言处理和机器学习,针对大量文本数据(主播介绍)迅速提炼核心内容,提炼主播介绍的侧重点与类别,研究介绍内容与其分类,迅速挖掘主播介绍中不同话题点的比例,依据主播介绍中占比最大比例的主题分布对该类主播进行分类并依据主题词分布进行画像(即不同类型的主播会有哪些特征),同时对比不同类型主播的直播效果及独特特征进行分析。此方法对实现主播与观众的精准介绍与内容呈现,挖掘并对比关键特征,提升直播参与方的沟通效率和直播的沉浸体验,具有显著意义。

技术实现思路

[0004]本专利技术为解决现有技术存在的上述问题,提供一种基于LDA主题模型的主播形象分类与关键特质分析方法,能够对主播的介绍内容进行分析和归类(即能对主播形象分类与关键特质分析)。
[0005]实现上述目的,本专利技术采取的技术方案如下:
[0006]基于LDA主题模型的主播形象分类与关键特质分析方法,利用LDA主题模型得到不同主题群体,了解不同主播群体的直播效果差异,挖掘影响该类群体直播效果的关键特质,
所述方法包括以下步骤:
[0007]S1、在指示终端设备中获取每位主播的介绍文本,得到原始数据集;
[0008]S2、对原始数据集中的介绍文本进行数据预处理,得到初始数据集;
[0009]S3、根据初始数据集,构建LDA主题模型;
[0010]S4、通过LDA主题模型从初始数据集中挖掘出主题高频词和每位主播自我介绍的主题分布,确定主题数K,依据主题分布的最高值作为该主播形象分类;
[0011]S5、使用方差分析,得到不同主播群体之间的差异性特质,了解不同主播群体的直播效果差异;
[0012]S6、基于步骤S5中的不同主播群体之间的差异性特质和直播效果差异,使用回归分析,得到每个主播群体内的影响直播效果的关键特质。
[0013]进一步的是,所述步骤S2中,对原始数据集中的介绍文本进行数据预处理的具体步骤如下:
[0014]S21、筛选掉主播介绍内容为空的主播;
[0015]S22、在步骤S21基础上,对原始数据集进行文本分词,得到分词词汇集;
[0016]S23、根据停用词表收集停用词,去除分词词汇集中的停用词,得到初始数据集。
[0017]进一步的是,所述步骤S3中,构建LDA主题模型的具体步骤如下:
[0018]S31、根据初始数据集,确定LDA主题模型的主题数K,采用困惑度评价法求得最佳主题数K,困惑度计算公式为:
[0019][0020]其中,M为主播介绍的个数,N
i
为第i位主播的主播介绍中出现的词语总数,w
i
为构成第i位主播的主播介绍的词语,p(w
i
)表示基于主题数K的w
i
产生的概率;
[0021]为了保证聚类效果,得出主题数K为10以内的所有主题数K的困惑度;并依据手肘法,选择困惑度的拐点作为最佳主题数K;
[0022]S32、在先验参数为α和β的狄利克雷分布中,抽样生成基于最佳主题数K条件下的每位主播介绍的主题分布θ和所有主播介绍的主题词分布
[0023]α表示为每位主播介绍在主题上分布的狄利克雷先验参数;
[0024]β表示为所有主播介绍的主题词分布的狄利克雷先验参数;
[0025]S33、从每位主播介绍的主题分布θ中,抽样生成每位主播介绍的主题Z,LDA主题模型假设每位主播介绍都是由不同比例的词语组合组成的,反映了每位主播介绍的独特的主题,组合比例服从多项式分布,表示为:
[0026]Z|θ=Multinomial(θ)
[0027]从所有主播介绍的主题词分布中,抽样生成主题词W,每个主题k都是由主播介绍中的词语组成的,组合比例也服从多项式分布,表示为:
[0028][0029]其中,构成第i位主播的主播介绍的词语w
i
概率分布的计算公式为:
[0030][0031]其中,P(w
i
|z=s)表示词语w
i
属于第s个主题的概率;P(z=s|i)表示第i位主播介绍中第s个主题的概率;K为最佳主题数;P(w
i
|i)表示概率分布;
[0032]进一步的是,所述步骤S4中,通过LDA主题模型从初始数据集中挖掘出主题高频词和每位主播自我介绍的主题分布,确定主题数K,依据主题分布的最高值作为该主播形象分类,具体步骤是:
[0033]S41、LDA主题模型结果含有每个主题k下的高频词以及每位主播介绍的主题分布θ,分析最佳主题数K下,每个主题k的前20个高频词,同时对每个主题k进行定义与解释;
[0034]S42、为了避免不同主题k下相同高频词的出现,影响主题k的解释结果,采用主题

词语关联度,以控制显示某一主题k的不同的下位词项;
[0035][0036]其中,w表示语料库中的词语;k表示主题;P(w)表示词语w在所有主播介绍的主题词分布中的边际概率;表示词语w与主题k的相关度,λ=0时,显示主题k下特有的、相对独立的下位词项,即这些词项往往只出现在该主题;λ=1时,显示分布概率更高的下位词项,但是这本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于LDA主题模型的主播形象分类与关键特质分析方法,其特征在于:利用LDA主题模型得到不同主题群体,了解不同主播群体的直播效果差异,挖掘影响该类群体直播效果的关键特质,所述方法包括以下步骤:S1、在指示终端设备中获取每位主播的介绍文本,得到原始数据集;S2、对原始数据集中的介绍文本进行数据预处理,得到初始数据集;S3、根据初始数据集,构建LDA主题模型;S4、通过LDA主题模型从初始数据集中挖掘出主题高频词和每位主播自我介绍的主题分布,确定主题数K,依据主题分布的最高值作为该主播形象分类;S5、使用方差分析,得到不同主播群体之间的差异性特质,了解不同主播群体的直播效果差异;S6、基于步骤S5中的不同主播群体之间的差异性特质和直播效果差异,使用回归分析,得到每个主播群体内的影响直播效果的关键特质。2.根据权利要求1所述的基于LDA主题模型的主播形象分类与关键特质分析方法,其特征在于:所述步骤S2中,对原始数据集中的介绍文本进行数据预处理的具体步骤如下:S21、筛选掉主播介绍内容为空的主播;S22、在步骤S21基础上,对原始数据集进行文本分词,得到分词词汇集;S23、根据停用词表收集停用词,去除分词词汇集中的停用词,得到初始数据集。3.根据权利要求1或2所述的基于LDA主题模型的主播形象分类与关键特质分析方法,其特征在于:所述步骤S3中,构建LDA主题模型的具体步骤如下:S31、根据初始数据集,确定LDA主题模型的主题数K,采用困惑度评价法求得最佳主题数K,困惑度计算公式为:其中,M为主播介绍的个数;N
i
为第i位主播的主播介绍中出现的词语总数;w
i
为构成第i位主播的主播介绍的词语;p(w
i
)表示基于主题数K的w
i
产生的概率;为了保证聚类效果,得出主题数K为10以内的所有主题数K的困惑度;并依据手肘法,选择困惑度的拐点作为最佳主题数K;S32、在先验参数为α和β的狄利克雷分布中,抽样生成基于最佳主题数K条件下的每位主播介绍的主题分布θ和所有主播介绍的主题词分布α表示为每位主播介绍在主题上分布的狄利克雷先验参数;β表示为所有主播介绍的主题词分布的狄利克雷先验参数;S33、从每位主播介绍的主题分布θ中,抽样生成每位主播介绍的主题Z,LDA主题模型假设每位主播介绍都是由不同比例的词语组合组成的,反映了每位主播介绍的独特的主题,组合比例服从多项式分布,表示为:Z|θ=Multinomial(θ)从所有主播介绍的主题词分布中,抽样生成主题词W,每个主题k都是由主播介绍中的词语组成的,组合比例也服从多项式分布,表示为:
其中,构成第i位主播的主播介绍的词语w
i
概率分布的计算公式为:其中,P(w
i
|z=)s表示词语w
i
...

【专利技术属性】
技术研发人员:吴少辉谢晓东王洪珑李子菲
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1