【技术实现步骤摘要】
一种细粒度电台音频内容个性化组织推荐方法
本专利技术专利涉及一种细粒度的电台音频内容个性化组织推荐方法,依据语义将电台的音频节目自动切分标注,并基于互联网大数据挖掘用户喜好,自动编排个性化节目单以及进行实时节目推送,涉及音频处理、机器学习、大数据分析、推荐系统、数据挖掘等领域。
技术介绍
广播的优势在于声音,用声音传递信息,用声音传递价值。传统广播电台通过采、编、制作的工作模式,利用无线电波向一定区域的受众传送声音节目;受限于传播机制,在传统媒体转型的巨大浪潮中,受到了前所未有的冲击。然而,借助大数据、新媒体技术,又给广播电台提供了前所未有的空间与潜力。就目前国内较热门的手机电台APP而言:蜻蜓FM,打破了地域限制,通过新闻、音乐、经济等不同风格的分类,用户可以通过手机收听大陆、香港、台湾等几乎所有主要电台,但就其节目内容而言,仅仅是各电台的聚合,并没有内容上的创新;考拉FM,在线电台按照不同方式分类,如类型(新闻/搞笑/相声等)、艺人(周杰伦/孙燕姿等)、流派(民谣/校园等),可以根据用户的喜好自动编排推荐节目,但节目内容并非来自传统广播台,而多是网络播客;豆瓣FM,外观简洁,用户互操作简单,但该电台的播放源为音乐,并非广播节目。而部分国内传统电台提供互联网或手机广播,但大多数是直接将传统电台AM/FM的节目内容平移到互联网和手机上。目前电台在制作节目或录制直播节目时,通常一段独立的音频长度较大,内容标记和查找极为不便。例如一个时长30分钟的新闻节目,是由十几条独立的新闻组成,类型包括国内新闻、国际新闻、体育新闻、社会新闻、娱乐新闻等等,然而想为用户推荐 ...
【技术保护点】
一种细粒度电台音频内容个性化组织推荐方法,其特征在于:首先,对音频进行分帧;第二步,进行预处理,消除趋势项和直流分量第三步,进行降噪;第四步,进行预加重;第五步,然后进行特征提取,特征提取是基于帧处理的;第六步,采用端点检测方法检测出语音的端点,从包含语音的一段信号中确定出语音的起始点和结束点的位置;通过端点检测,把音频切分成一个个句子;第七步,经过端点检测的音频首先经过SVM1,将帧分为语音/非语音/静音,对语音帧通过SVM1分成纯语音帧以及带噪语音帧,对纯语音帧再通过SVM3分为男声/女声;对非语音帧通过SVM4分为音乐以及噪声;第八步,对纯人声分离出的男声/女声以及现场报道通过说话人分割与聚类技术,将说话人相同的顺序音频段进行合并;分析出最多音频段的男性声音和女性声音,即为男主持人和女主持人;第九步,对分离完成的说话人段进行语音识别并存储;最后,构建广播语义网,使用文本分析技术对相邻的说话人段进行分析处理,对有相似语义的说话人段进行合并并提取摘要进行标注;个性化节目组织推荐系统的节目推荐方法包括以下四大类:(1)提出一种解决冷启动的新用户节目推荐方法:采集登录用户的新浪微博内容构 ...
【技术特征摘要】
1.一种细粒度电台音频内容个性化组织推荐方法,其特征在于:首先,对音频进行分帧;第二步,进行预处理,消除趋势项和直流分量第三步,进行降噪;第四步,进行预加重;第五步,然后进行特征提取,特征提取是基于帧处理的;第六步,采用端点检测方法检测出语音的端点,从包含语音的一段信号中确定出语音的起始点和结束点的位置;通过端点检测,把音频切分成一个个句子;第七步,经过端点检测的音频首先经过SVM1,将帧分为语音/非语音/静音,对语音帧通过SVM1分成纯语音帧以及带噪语音帧,对纯语音帧再通过SVM3分为男声/女声;对非语音帧通过SVM4分为音乐以及噪声;第八步,对纯人声分离出的男声/女声以及现场报道通过说话人分割与聚类技术,将说话人相同的顺序音频段进行合并;分析出最多音频段的男性声音和女性声音,即为男主持人和女主持人;第九步,对分离完成的说话人段进行语音识别并存储;最后,构建广播语义网,使用文本分析技术对相邻的说话人段进行分析处理,对有相似语义的说话人段进行合并并提取摘要进行标注;个性化节目组织推荐系统的节目推荐方法包括以下四大类:(1)提出一种解决冷启动的新用户节目推荐方法:采集登录用户的新浪微博内容构建“博文内容-兴趣主题-节目”模型,并结合注册信息进行用户画像,生成新用户的节目单;(2)提出一种结合时间上下文的个性化节目单推荐生成方法:采集电台用户的显式和隐式行为数据构建“用户-时间上下文-节目偏好”模型和“用户-节目-评分矩阵”模型,结合时间上下文和基于物品的协同过滤算法进行个性化节目单生成;(3)实时节目切换功能:对正在收听的节目提供“换一换”机制,根据用户兴趣进行实时节目切换;(4)节目实时推送功能:利用Storm技术实现基于在线节目收听量等进行实时节目推送提醒。2.根据权利要求1所述的方法,其特征在于:步骤(1)为解决新用户的冷启动问题,需要建立如下两种用户模型:(1.1)“博文内容-兴趣主题-节目”模型;(1.2)基于注册信息的用户初始画像模型;为构建(1.1)中的用户模型,步骤如下:(1.1.1)用户选择社交账号登录方式,输入新浪微博账号密码进行认证并授权登录;(1.1.2)调用新浪微博的用户接口API获取该用户的微博UID,该UID对于微博用户唯一;(1.1.3)利用微博用户的UID从http://www.weibo.cn网站上爬取该用户的微博博文内容,经预处理后,保存在以uid命名的文件中;(1.1.4)对(1.1.3)处理后的文件内容分条调用文本分类API,获取内容的主题分类;对所有微博内容的兴趣主题进行过滤后汇总,以[主题:次数]的形式标识该用户该兴趣主题的偏好值;为构建(1.2)中的基于注册信息的用户初始画像模型,首先需要确定系统需要填写的注册信息包括:选择偏好收听的节目类型,用户的性别,年龄和职业类型,共四部分。3.根据权利要求1所述的方法,其特征在于:步骤(2)结合时间上下文的个性化节目单推荐生成方法,包括如下几个模块:(2.1)电台用户显式和隐式行为数据的采集;(2.2)“用户-时间上下文-节目偏好”模型的构建;(2.3)“用户-节目-评分矩阵”模型的构建;(2.4)结合时间上下文和基于物品的协同过滤算法产生用户的个性化节目单;模块(2.1)要采集的显式和隐式行为包括如下内容:(2.1.1)显式行为:用户对节目的操作信息,包括收藏、评分、分享;(2.1.2)隐式行为:收听时长,包括用户ID,节目ID,收听开始时间,收听结束时间),收听次数包括用户ID,节目ID,收听次数;模块(2.2)“用户-时间上下文-节目偏好”模型的构建步骤如下:(2.2.1)采集用户收听的隐式行为,收集指标是某用户U对某节目P的收听时长;对于某用户U对于某节目P的某次收听行为表示为:{(U,P,start_time,end_time,id,No.),num=1,2,......}(1)其中id标识表达式(1)属于某节目P的第几次收听,No.表示id次收听的第几段收听记录,id和No.均从1递增;(2.2.2)根据表达式(1)来进行统计,得出用户U对于节目P的单次收听的收听时长占比表示如下:N为No.的最大值(2)其中duration是节目P的总时长;(2.2.3)综合表达式(1)和(2),将用户U某时段T在时间上下文(对于节目P的偏好表示为:(2.2.4)节目的特征包括类型和主题;用户对于单个节目的偏好程度即表达式(3)计算出来后,依据该节目所属的类型或主题,...
【专利技术属性】
技术研发人员:宋明丽,曹轶臻,王琦,张小平,
申请(专利权)人:北京中瑞鸿程科技开发有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。