一种自动采集并处理生成音乐情感数据库的方法技术

技术编号：34510156 阅读：20 留言：0更新日期：2022-08-13 20:55

本发明专利技术公开了一种自动采集并处理生成音乐情感数据库的方法，该方法：采集网络中已公开的音乐数据，对采集到的音乐数据进行分析处理后，再基于音乐文本数据和用户行为数据生成包含音乐相似度和情感标签的音乐数据库。本发明专利技术通过自动化的音乐数据采集与处理工具，再结合自然语言处理相关方法，自动构建可广泛应用于基于情感推荐的音乐情感数据库。于基于情感推荐的音乐情感数据库。于基于情感推荐的音乐情感数据库。

全部详细技术资料下载

【技术实现步骤摘要】
一种自动采集并处理生成音乐情感数据库的方法

[0001]本专利技术涉及一种自动采集并处理生成音乐情感数据库的方法，属于数据挖掘、机器学习领域。

技术介绍

[0002]基于标签的推荐作为当前主流的音乐推荐方法，其优势在于针对标签的索引查询其查询速度极快，满足大部分商业推荐系统的需求，其次是标签特征与用户行为数据和个人信息更易联结对应构成特征矩阵进行分析，满足使用已有的机器学习方法进行数据处理的要求。音乐数据本身的复杂度决定了在音乐分类相关任务中需要使用多模态进行处理，然而在实际应用场景中面对海量的音乐数据采用复杂的分析方法无法满足用户需求。
[0003]当前的音乐数据库对于情感的分类检索尚处于摸索阶段，商业音乐软件中的音乐标签多为手动添加，其分类方法较为粗糙，学术界对于音乐情感分类的研究多采用小型音乐数据集，对音频的相关研究成果难以在海量音乐数据分析中应用。
[0004]综上所述，构建一个全自动的采集并处理生成音乐情感库的方法不仅可以节省大量的人力成本以及解决海量音乐数据的标签选择问题，而且可以对用户行为与音乐...

【技术保护点】

【技术特征摘要】
1.一种自动采集并处理生成音乐情感数据库的方法，其特征在于，具体步骤如下：步骤1，构建稳定的网络音乐数据采集系统；步骤2，音乐标签生成和分类排序；步骤3，音乐相似度计算；步骤4，多种数据格式读写接口。2.如权利要求1所述的一种自动采集并处理生成音乐情感数据库的方法，其特征在于，步骤1，构建稳定的网络音乐数据采集系统，具体如下：1.1，采集系统每次启动首先获取网络中公共的代理IP，对获得的IP进行测试筛选，构建代理IP池；1.2，设置IP单个访问频率，及时清除失效IP，随机抽取IP和随机时间访问；1.3，针对使用ajax动态加载内容的网页使用PhantomJS+Selenium模拟浏览器行为，获取经过js渲染后的页面数据；1.4，以用户音乐歌单为采集入口，获取当前歌单中所有音乐相关信息；1.5，数据清洗，对采集到的数据进行去重、去特殊符号、同义词替换等，处理成音乐文本数据和用户行为数据。3.如权利要求2所述的一种自动采集并处理生成音乐情感数据库的方法，其特征在于，步骤2，音乐标签生成和分类排序，具体如下，2.1，根据1.5处理完成的数据，从音乐自带标签和音乐所在歌单名称中分析筛选标签；2.2，音乐自带标签保留，对所有音乐歌单进行进一步处理，分词、去停用词、词频统计并排序等，去除低频关键词，基于情感词库筛选出情感标签；2.3，音乐标签生成，情感标签保留出现频次前二的标签，同时去除情感冲突的标签，恐惧和轻松只取其出现频次高的一个，其他标签为音乐自带标签和不重叠的高频关键词；2.4，对音乐的用户行为数据如播放量、收藏数、订阅量进行加权计算，获得可用于呈现该音乐受欢迎程度的数值表示，即初始评分，基于该数值进行各标签的分类排序。4.如权利要求3所述的...

【专利技术属性】
技术研发人员：伍家松，王正青，舒华忠，孔佑勇，杨冠羽，杨淳沨，姜龙玉，章品正，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人