一种基于Labeled-LDA模型的用户音乐偏好分类方法技术

技术编号：21034441 阅读：108 留言：0更新日期：2019-05-04 05:29

本发明专利技术公开了一种基于Labeled‑LDA模型的用户音乐偏好分类方法，该方法利用音乐社交平台的文本信息作为训练数据，结合了TF‑IDF算法(词频‑逆文档频率)，低频专属名词库以及卡方检验算法形成一种混合型文本主题分类模型，克服了普通Labeled‑LDA模型受文档无意义高频词汇干扰，难以突出关键特征词汇等缺陷，在精确度，召回率以及Macro‑F1指标上都有较大的提升，非常适用于分析用户的音乐风格，对后续个性化提供音乐推荐方案具有重大意义。

A User Music Preference Classification Method Based on Labeled-LDA Model

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Labeled-LDA模型的用户音乐偏好分类方法
本专利技术涉及自然语言处理领域，尤其涉及一种基于Labeled-LDA模型的用户音乐偏好分类方法。
技术介绍
近几年在线音乐平台如网易云音乐等将“音乐社交”的理念植入平台，通过歌单、评论、分享等多种互动方式，形成其独具特色的社交生态。因此利用用户的社交信息来分析用户的音乐喜好，个性化地给用户推荐音乐变得尤为重要。本专利技术主要应用于音乐社交网络上用户的音乐喜好。集合某一用户在平台创建的歌单的所有介绍信息，组织形成一份专属于该用户的音乐风格描绘文档。对该文档进行分析后得出该用户的音乐风格倾向。音乐平台中部分用户对自己的歌单介绍带上标签而部分用户并未带上标签，此专利技术可应用于未带上标签的用户的音乐偏好，向其推送更多的相关风格音乐。近些年研究者针对大规模，动态增长的语料库进行了建模，促使了文本分类技术的迅速发展和广泛应用。D.Blei等人提出了一个重要的无监督主题模型，LDA(LatentDirichletAllocation)，克服了以往模型例如PLSI(ProbabilisticLatentSemanticAnalysis)中本文档来自技高网...

【技术保护点】
1.一种基于Labeled‑LDA模型的用户音乐偏好分类方法，其特征在于，包括以下步骤：步骤1获取数据及预处理：步骤1.1使用网络爬虫技术爬取大量音乐平台用户的歌单数据，存入数据库中，所述歌单数据包括用户名，用户对自己创建的歌单的相关介绍，以及歌单的标签；步骤1.2选定九大音乐风格：电子，古典，古风，爵士，民谣，轻音乐，说唱，摇滚，流行；取数据库中用户的歌单数据进行预处理，通过中文分词系统进行分词、常见停用词过滤处理，形成词袋；步骤2建立混合型文本主题分类模型：步骤2.1对不同风格的音乐建立一份低频专属名词库，将出现频率低但能够代表一类音乐风格的词汇收录其中；步骤2.2根据公式(1)将已经过步...

【技术特征摘要】
1.一种基于Labeled-LDA模型的用户音乐偏好分类方法，其特征在于，包括以下步骤：步骤1获取数据及预处理：步骤1.1使用网络爬虫技术爬取大量音乐平台用户的歌单数据，存入数据库中，所述歌单数据包括用户名，用户对自己创建的歌单的相关介绍，以及歌单的标签；步骤1.2选定九大音乐风格：电子，古典，古风，爵士，民谣，轻音乐，说唱，摇滚，流行；取数据库中用户的歌单数据进行预处理，通过中文分词系统进行分词、常见停用词过滤处理，形成词袋；步骤2建立混合型文本主题分类模型：步骤2.1对不同风格的音乐建立一份低频专属名词库，将出现频率低但能够代表一类音乐风格的词汇收录其中；步骤2.2根据公式(1)将已经过步骤1.2初步预处理的歌单数据通过TF-IDF算法计算每个词的权重，将TF-IDF值大于阈值的词作为待分类文本的特征值，而小于该阈值的词添加到停用词列表中再一次进行过滤处理；其中：ni，j表示关键词j在文档i中出现的次数，q表示文档中的任意词汇；|D|表示语料库中的文档总数；|j：ti∈dj|表示包含词语ti的文档dj的个数，+1是为了防止分母为0；步骤2.3根据公式(2)对步骤2.2处理后的歌单数据进行卡方检验，计算每个词的卡方值：其中t代表词汇，k代表主题，A是包含词t且属于主题k的文档数量，B是包含词t但不属于主题k的文档数量，C是不包含词t且属于...

【专利技术属性】
技术研发人员：陈德富，张峰铭，何通能，张伟锋，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人