一种基于Labeled-LDA模型的用户音乐偏好分类方法技术

技术编号:21034441 阅读:91 留言:0更新日期:2019-05-04 05:29
本发明专利技术公开了一种基于Labeled‑LDA模型的用户音乐偏好分类方法,该方法利用音乐社交平台的文本信息作为训练数据,结合了TF‑IDF算法(词频‑逆文档频率),低频专属名词库以及卡方检验算法形成一种混合型文本主题分类模型,克服了普通Labeled‑LDA模型受文档无意义高频词汇干扰,难以突出关键特征词汇等缺陷,在精确度,召回率以及Macro‑F1指标上都有较大的提升,非常适用于分析用户的音乐风格,对后续个性化提供音乐推荐方案具有重大意义。

A User Music Preference Classification Method Based on Labeled-LDA Model

【技术实现步骤摘要】
一种基于Labeled-LDA模型的用户音乐偏好分类方法
本专利技术涉及自然语言处理领域,尤其涉及一种基于Labeled-LDA模型的用户音乐偏好分类方法。
技术介绍
近几年在线音乐平台如网易云音乐等将“音乐社交”的理念植入平台,通过歌单、评论、分享等多种互动方式,形成其独具特色的社交生态。因此利用用户的社交信息来分析用户的音乐喜好,个性化地给用户推荐音乐变得尤为重要。本专利技术主要应用于音乐社交网络上用户的音乐喜好。集合某一用户在平台创建的歌单的所有介绍信息,组织形成一份专属于该用户的音乐风格描绘文档。对该文档进行分析后得出该用户的音乐风格倾向。音乐平台中部分用户对自己的歌单介绍带上标签而部分用户并未带上标签,此专利技术可应用于未带上标签的用户的音乐偏好,向其推送更多的相关风格音乐。近些年研究者针对大规模,动态增长的语料库进行了建模,促使了文本分类技术的迅速发展和广泛应用。D.Blei等人提出了一个重要的无监督主题模型,LDA(LatentDirichletAllocation),克服了以往模型例如PLSI(ProbabilisticLatentSemanticAnalysis)中计算复杂度随文档数量线性增长的问题,且具有有效的训练方法。但LDA仅仅是一个数据降维和聚类的算法,不能对人工标记的主题信息加以利用,将它实际运用在文本中会出现目标文本在不是自己的类别上处理分类时导致隐性主题被迫分类的困境,因此后续提出了Labeled-LDA模型,它比LDA多了一项通过伯努利分布产生的文档的标签集,在训练时将标签信息嵌入到模型中,实现了将文档所属的隐含类别和文档集合的标签相关联。Labeled-LDA虽然可以较为准确的将文本进行分类,但是文本数据的杂乱性以及文档中无用词的过多干扰,往往不能突出关键词的权重,对算法的分类结果造成了一定的影响。
技术实现思路
本专利技术的目的在于针对普通Labeled-LDA容易受文档本身数据的杂乱性以及文档中无用词的干扰的缺点,提出一种混合型主题文本分类方法。本专利技术的目的是通过以下技术方案来实现的:一种基于Labeled-LDA模型的用户音乐偏好分类方法,包括以下步骤:步骤1获取数据及预处理:步骤1.1使用网络爬虫技术爬取大量音乐平台用户的歌单数据,存入数据库中,所述歌单数据包括用户名,用户对自己创建的歌单的相关介绍,以及歌单的标签;步骤1.2选定九大音乐风格:电子,古典,古风,爵士,民谣,轻音乐,说唱,摇滚,流行;取数据库中用户的歌单数据进行预处理,通过中文分词系统进行分词、常见停用词过滤处理,形成词袋;步骤2建立混合型文本主题分类模型:步骤2.1对不同风格的音乐建立一份低频专属名词库,将出现频率低但能够代表一类音乐风格的词汇收录其中,如摇滚音乐有代表性的乐队,“黑豹”,“披头士”,人名如“崔健”,古典音乐中的英文词汇,如“ModestMussorgsky”,“Nocturne”,说唱音乐中的“MC”等;步骤2.2根据公式(1)将已经过步骤1.2初步预处理的歌单数据通过TF-IDF算法计算每个词的权重,将TF-IDF值大于阈值的词作为待分类文本的特征值,而小于该阈值的词添加到停用词列表中再一次进行过滤处理;其中:ni,j表示关键词j在文档i中出现的次数,q表示文档中的任意词汇;|D|表示语料库中的文档总数;|j:ti∈dj|表示包含词语ti的文档dj的个数,+1是为了防止分母为0;步骤2.3根据公式(2)对步骤2.2处理后的歌单数据进行卡方检验,计算每个词的卡方值,卡方检验的基本思想就是观察并检验数据的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合;其中t代表词汇,k代表主题,A是包含词t且属于主题k的文档数量,B是包含词t但不属于主题k的文档数量,C是不包含词t且属于主题k的文档数量,D是不包含词t且不属于主题k的文档数量,N是语料库中文档的总数;步骤2.4Labeled-LDA模型采用目前较为主流的吉布斯采样(GibbsSampling)算法;这种算法的主要思想是不断地用条件分布进行采样,使每次采样的结果更接近全概率分布,即每次保持其他分量的值不变,只对一个分量进行采样;Gibbs采样公式如下:其中,p(zi=k|z-i,w)表示当前词wi在已知其他词各自所属主题的条件下,属于主题k的概率,zi表示文档第i个特征词对应的主题,z-i表示除去第i个词汇后剩余词汇的主题,m代表文档,αk,βt是两个超参数,代表主题k中词汇t的数量,代表文档m中主题k的数量,K是主题向量,V是词汇向量;结合步骤2.1,步骤2.2,步骤2.3,现改进Gibbs采样公式如下:其中,zi表示文档第i个特征词对应的主题,z-i表示除去第i个词汇后剩余词汇的主题,k是当前文档所标记的主题,若当前词汇w存在于低频专属名词库中,则将该词的权重μ设为μ>2,否则μ<1,CHI(t,k)是词t对主题k的卡方值,W(t)是词t的TF-IDF值;步骤3训练数据与测试:步骤3.1将歌单训练数据经过步骤2,即通过改进的Gibbs采样公式进行计算,最终统计歌单数据中的主题-词频率矩阵,得到k个主题中每个主题下的词的分布概率,从而完成混合型文本主题分类模型的训练;步骤3.2将歌单测试数据输入到步骤3.1中已经训练好的混合型文本主题分类模型中,其中采样公式的主题-词概率分布不再改变,由步骤3.1的训练结果提供,得到歌单测试数据的主题概率分布,即完成用户音乐偏好的分类。进一步地,所述步骤1.2中,常见停用词过滤处理包括去除歌单介绍中的<br>标签。本专利技术的有益效果是:本专利技术方法利用音乐社交平台的文本信息作为训练数据,结合了TF-IDF算法(词频-逆文档频率),低频专属名词库以及卡方检验算法形成一种混合型文本主题分类模型,克服了普通Labeled-LDA模型受文档无意义高频词汇干扰,难以突出关键特征词汇等缺陷,在精确度,召回率以及Macro-F1指标上都有较大的提升,非常适用于分析用户的音乐风格,对后续个性化提供音乐推荐方案具有重大意义。附图说明图1为本专利技术基于Labeled-LDA模型的用户音乐偏好分类方法的流程图;图2为Labeled-LDA模型示意图;图3为混合型文本主题分类模型示意图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步详细说明。如图1所示,本专利技术提供的一种基于Labeled-LDA模型的用户音乐偏好分类方法,包括以下步骤:步骤1获取数据及预处理:步骤1.1使用网络爬虫技术爬取大量的网易云用户的歌单数据,存入数据库中,所述歌单数据包括用户名,用户对自己创建的歌单的相关介绍,以及歌单的标签,部分用户数据如表1所示;表1歌单数据步骤1.2选定九大音乐风格:电子,古典,古风,爵士,民谣,轻音乐,说唱,摇滚,流行;取数据库中用户的歌单数据进行预处理,通过中文分词系统进行分词、常见停用词过滤处理(例:去掉歌单介绍中的<br>标签等),形成词袋;步骤2建立混合型文本主题分类模型:步骤2.1通过对用户音乐风格文本的分析,发现有很多出现频率很低但能代本文档来自技高网
...

【技术保护点】
1.一种基于Labeled‑LDA模型的用户音乐偏好分类方法,其特征在于,包括以下步骤:步骤1获取数据及预处理:步骤1.1使用网络爬虫技术爬取大量音乐平台用户的歌单数据,存入数据库中,所述歌单数据包括用户名,用户对自己创建的歌单的相关介绍,以及歌单的标签;步骤1.2选定九大音乐风格:电子,古典,古风,爵士,民谣,轻音乐,说唱,摇滚,流行;取数据库中用户的歌单数据进行预处理,通过中文分词系统进行分词、常见停用词过滤处理,形成词袋;步骤2建立混合型文本主题分类模型:步骤2.1对不同风格的音乐建立一份低频专属名词库,将出现频率低但能够代表一类音乐风格的词汇收录其中;步骤2.2根据公式(1)将已经过步骤1.2初步预处理的歌单数据通过TF‑IDF算法计算每个词的权重,将TF‑IDF值大于阈值

【技术特征摘要】
1.一种基于Labeled-LDA模型的用户音乐偏好分类方法,其特征在于,包括以下步骤:步骤1获取数据及预处理:步骤1.1使用网络爬虫技术爬取大量音乐平台用户的歌单数据,存入数据库中,所述歌单数据包括用户名,用户对自己创建的歌单的相关介绍,以及歌单的标签;步骤1.2选定九大音乐风格:电子,古典,古风,爵士,民谣,轻音乐,说唱,摇滚,流行;取数据库中用户的歌单数据进行预处理,通过中文分词系统进行分词、常见停用词过滤处理,形成词袋;步骤2建立混合型文本主题分类模型:步骤2.1对不同风格的音乐建立一份低频专属名词库,将出现频率低但能够代表一类音乐风格的词汇收录其中;步骤2.2根据公式(1)将已经过步骤1.2初步预处理的歌单数据通过TF-IDF算法计算每个词的权重,将TF-IDF值大于阈值的词作为待分类文本的特征值,而小于该阈值的词添加到停用词列表中再一次进行过滤处理;其中:ni,j表示关键词j在文档i中出现的次数,q表示文档中的任意词汇;|D|表示语料库中的文档总数;|j:ti∈dj|表示包含词语ti的文档dj的个数,+1是为了防止分母为0;步骤2.3根据公式(2)对步骤2.2处理后的歌单数据进行卡方检验,计算每个词的卡方值:其中t代表词汇,k代表主题,A是包含词t且属于主题k的文档数量,B是包含词t但不属于主题k的文档数量,C是不包含词t且属于...

【专利技术属性】
技术研发人员:陈德富张峰铭何通能张伟锋
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1