【技术实现步骤摘要】
基于LDA主题模型的主播形象分类与关键特质分析方法
[0001]本专利技术涉及数据分析
,具体涉及一种基于LDA主题模型的主播形象分类与关键特质分析方法。
技术介绍
[0002]主播介绍是指在当前直播购物环境中,主播通过直播购物平台的个人信息界面向消费者和公司展现自我特征,明确直播内容,发布声明并提醒观众与公司相关直播信息的重要文本。随着信息技术和电子商务的飞速发展,越来越多的观众通过主播介绍进一步了解主播信息与其直播内容,从而关注主播、实现购买等。主播介绍作为主播风格与品牌特质的重要呈现方式,被主播们极大使用从而突出自身,推销自己,指导观众进行购买。但是,在现有的主播群体中存在哪些主播人设或者主播画像?这些不同类型的主播究竟是如何介绍自己?除此以外,这些不同类型主播的直播效果是否有差异,同时,不同类主播之间影响其直播效果差异的特质有哪些,需要哪些资源或者行为来提升某类主播的直播效果?无法明确主播介绍的相关元素与其占比,就无法对主播介绍方式进行指导,从而导致主播自我呈现、内容发布与用户偏好产生偏差,最终无法实现精准营销与个人品牌构建。不结合直播效果进行主播特质的对比分析,更无法了解到不同人设主播的努力方向。目前对此问题的研究更多使用实验法和定性的研究方法,无法对大量的文本数据进行深入的研究。同时现有的可针对大数据的主播画像往往需要人工编码,对信息的处理和挖掘依赖于人工标签(如《一种基于主播画像的声音分类方法》等)。且利用自然语言处理个人介绍并研究直播效果的文献相对较少,数据采集的样本也偏少,对文本内容的挖掘也不 ...
【技术保护点】
【技术特征摘要】
1.一种基于LDA主题模型的主播形象分类与关键特质分析方法,其特征在于:利用LDA主题模型得到不同主题群体,了解不同主播群体的直播效果差异,挖掘影响该类群体直播效果的关键特质,所述方法包括以下步骤:S1、在指示终端设备中获取每位主播的介绍文本,得到原始数据集;S2、对原始数据集中的介绍文本进行数据预处理,得到初始数据集;S3、根据初始数据集,构建LDA主题模型;S4、通过LDA主题模型从初始数据集中挖掘出主题高频词和每位主播自我介绍的主题分布,确定主题数K,依据主题分布的最高值作为该主播形象分类;S5、使用方差分析,得到不同主播群体之间的差异性特质,了解不同主播群体的直播效果差异;S6、基于步骤S5中的不同主播群体之间的差异性特质和直播效果差异,使用回归分析,得到每个主播群体内的影响直播效果的关键特质。2.根据权利要求1所述的基于LDA主题模型的主播形象分类与关键特质分析方法,其特征在于:所述步骤S2中,对原始数据集中的介绍文本进行数据预处理的具体步骤如下:S21、筛选掉主播介绍内容为空的主播;S22、在步骤S21基础上,对原始数据集进行文本分词,得到分词词汇集;S23、根据停用词表收集停用词,去除分词词汇集中的停用词,得到初始数据集。3.根据权利要求1或2所述的基于LDA主题模型的主播形象分类与关键特质分析方法,其特征在于:所述步骤S3中,构建LDA主题模型的具体步骤如下:S31、根据初始数据集,确定LDA主题模型的主题数K,采用困惑度评价法求得最佳主题数K,困惑度计算公式为:其中,M为主播介绍的个数;N
i
为第i位主播的主播介绍中出现的词语总数;w
i
为构成第i位主播的主播介绍的词语;p(w
i
)表示基于主题数K的w
i
产生的概率;为了保证聚类效果,得出主题数K为10以内的所有主题数K的困惑度;并依据手肘法,选择困惑度的拐点作为最佳主题数K;S32、在先验参数为α和β的狄利克雷分布中,抽样生成基于最佳主题数K条件下的每位主播介绍的主题分布θ和所有主播介绍的主题词分布α表示为每位主播介绍在主题上分布的狄利克雷先验参数;β表示为所有主播介绍的主题词分布的狄利克雷先验参数;S33、从每位主播介绍的主题分布θ中,抽样生成每位主播介绍的主题Z,LDA主题模型假设每位主播介绍都是由不同比例的词语组合组成的,反映了每位主播介绍的独特的主题,组合比例服从多项式分布,表示为:Z|θ=Multinomial(θ)从所有主播介绍的主题词分布中,抽样生成主题词W,每个主题k都是由主播介绍中的词语组成的,组合比例也服从多项式分布,表示为:
其中,构成第i位主播的主播介绍的词语w
i
概率分布的计算公式为:其中,P(w
i
|z=)s表示词语w
i
...
【专利技术属性】
技术研发人员:吴少辉,谢晓东,王洪珑,李子菲,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。