一种细粒度电台音频内容个性化组织推荐方法技术

技术编号:15825534 阅读:29 留言:0更新日期:2017-07-15 06:51
一种细粒度的电台音频内容个性化组织推荐方法,依据语义将电台的音频节目自动切分标注,并基于互联网大数据挖掘用户喜好,自动编排个性化节目单以及进行实时节目推送,涉及音频处理、机器学习、大数据分析、推荐系统、数据挖掘等领域。本发明专利技术给出一种将传统广播音频节目按语义自动切分并标注的算法过程,并给出基于互联网大数据进行个性化内容推荐的技术方案,实现细粒度的音频内容个性化组织推荐方法。本发明专利技术综合考虑了冷启动问题、结合用户收听时间的节目单组织生成、实时节目切换以及实时推送节目等因素,改变当下电台地将FM直播移植到互联网流媒体播出的简单模式,从受众用户角度而言,满足了用户在恰当的时间收听到自己感兴趣节目的内容。

【技术实现步骤摘要】
一种细粒度电台音频内容个性化组织推荐方法
本专利技术专利涉及一种细粒度的电台音频内容个性化组织推荐方法,依据语义将电台的音频节目自动切分标注,并基于互联网大数据挖掘用户喜好,自动编排个性化节目单以及进行实时节目推送,涉及音频处理、机器学习、大数据分析、推荐系统、数据挖掘等领域。
技术介绍
广播的优势在于声音,用声音传递信息,用声音传递价值。传统广播电台通过采、编、制作的工作模式,利用无线电波向一定区域的受众传送声音节目;受限于传播机制,在传统媒体转型的巨大浪潮中,受到了前所未有的冲击。然而,借助大数据、新媒体技术,又给广播电台提供了前所未有的空间与潜力。就目前国内较热门的手机电台APP而言:蜻蜓FM,打破了地域限制,通过新闻、音乐、经济等不同风格的分类,用户可以通过手机收听大陆、香港、台湾等几乎所有主要电台,但就其节目内容而言,仅仅是各电台的聚合,并没有内容上的创新;考拉FM,在线电台按照不同方式分类,如类型(新闻/搞笑/相声等)、艺人(周杰伦/孙燕姿等)、流派(民谣/校园等),可以根据用户的喜好自动编排推荐节目,但节目内容并非来自传统广播台,而多是网络播客;豆瓣FM,外观简洁,用户互操作简单,但该电台的播放源为音乐,并非广播节目。而部分国内传统电台提供互联网或手机广播,但大多数是直接将传统电台AM/FM的节目内容平移到互联网和手机上。目前电台在制作节目或录制直播节目时,通常一段独立的音频长度较大,内容标记和查找极为不便。例如一个时长30分钟的新闻节目,是由十几条独立的新闻组成,类型包括国内新闻、国际新闻、体育新闻、社会新闻、娱乐新闻等等,然而想为用户推荐一段有关于“CBA总决赛”的体育新闻,则很难查找到精确的音频内容段落。使用人工对音频打散标注的方式耗时耗力,限制了音频媒体资产的重组利用。同时,现有的手机音频电台APP虽然各有侧重,但用户的体验还仅限于:收听同一频道的同类节目,简单连播同主题节目,或者电台的实时直播等。如何在节目单编排上面,既保留传统广播节目的形式,又能针对不同用户的个性化需求,在不同的时间,为用户播放用户该时段感兴趣的节目内容或片段,即结合现有APP的长处,并体现传统广播电台节目的优势,盘活珍贵的用户数据,设置切实合理的用户兴趣采集方式及用户行为建模方式,并最终体现在节目单编排组织上面,亟待研究解决。
技术实现思路
本专利技术给出一种将传统广播音频节目按语义自动切分并标注的算法过程,并给出基于互联网大数据进行个性化内容推荐的技术方案,从而实现细粒度的音频内容个性化组织推荐方法。本专利技术综合考虑了冷启动问题、结合用户收听时间的节目单组织生成、实时节目切换以及实时推送节目等因素,创新一种广播业务模式,改变当下电台地将FM直播移植到互联网流媒体播出的简单模式,从受众用户角度而言,满足了用户在恰当的时间收听到自己感兴趣节目额内容。本专利技术首先给出一种对给定语音类节目音频分析自动切分标注的技术方案。本专利技术综合语音类节目的特点以及音频的特征规律,采用基于阈值的端点检测方法、SVM分类器以及说话人分割聚类的技术方案进行自动切分,并通过文本分析实现相似内容的聚类以及标注。该技术方案系统框图如附图1所示。系统将音频首先经过端点检测,找到静音段。然后通过SVM把音频分为男性声音、女性声音、现场报道(嘉宾采访)、噪声、音乐、静音六种不同的类别。再通过说话人分割聚类技术将男性声音、女性声音、现场报道(嘉宾采访)进行分割聚类。然后对每个说话人的内容进行语音识别,将识别的结果进行文本分析,对内容相似的说话人段进行合并,这一段就是具有具体意义的一段。最后通过文本分析对段进行标注。本专利技术的训练数据均为电台实际播出的音频,标注为专业人员进行标注。首先,对音频进行分帧,分帧可使用的窗函数有矩形窗、海宁窗、汉明窗。第二步,进行预处理,消除趋势项和直流分量,在采集语音信号数据的过程中,由于测试系统的某些原因在时间序列中会产生的一个线性的或者慢变的趋势误差,例如放大器随温度变化产生的零漂移,传声器低频性能的不稳定或传声器周围的环境干扰。,总之使语音信号的零线偏离基线,甚至偏离基线的大小还会随时间变化。零线随时间的偏离极限被称为信号的趋势项。趋势项误差的存在,会使相关函数、功率谱函数在处理计算中出现变形,甚至可能使低频段的谱估计完全失去真实性和正确性,所以必须去除。第三步,进行降噪,由于广播音频的噪声大多为外出采访的噪音,所以本专利技术使用多窗谱估计的改进谱减法进行新闻音频的降噪。第四步,进行预加重,声门脉冲的频率响应曲线接近于一个二阶低通滤波器,而口腔的辐射相应也接近于一个一阶高通滤波器。预加重的目的是为了补偿高频分量的损失,提升高频分量。第五步,然后进行特征提取,特征提取是基于帧处理的。第六步,采用端点检测方法检测出语音的端点,从包含语音的一段信号中确定出语音的起始点和结束点的位置。通过端点检测,把音频切分成一个个句子。本专利技术中端点检测中的阈值选取要较大,目的为快速找到句子之间的停顿点。第七步,经过端点检测的音频首先经过SVM1,将帧分为语音/非语音/静音,对语音帧通过SVM1分成纯语音帧以及带噪语音帧,对纯语音帧再通过SVM3分为男声/女声。对非语音帧通过SVM4分为音乐以及噪声。第八步,对纯人声分离出的男声/女声以及现场报道(带噪语音)通过说话人分割与聚类技术,将说话人相同的顺序音频段进行合并。分析出最多音频段的男性声音和女性声音,即为男主持人和女主持人。第九步,对分离完成的说话人段进行语音识别并存储。最后,构建广播语义网,使用文本分析技术对相邻的说话人段进行分析处理,对有相似语义的说话人段进行合并并提取摘要进行标注。该技术方案的优点在于(1)可以快速对语音类节目音频进行基于语义的自动切分;(2)构建广播语义网,可提高文本分析精准度(3)对于细粒度的音频内容个性化组织推荐起到关键性作用。本专利技术中个性化节目组织推荐系统的节目推荐方法分为四大类:(1)提出一种解决冷启动的新用户节目推荐方法:采集登录用户的新浪微博内容构建“博文内容-兴趣主题-节目”模型,并结合注册信息进行用户画像,生成新用户的节目单;(2)提出一种结合时间上下文的个性化节目单推荐生成方法:采集电台用户的显式和隐式行为数据构建“用户-时间上下文-节目偏好”模型和“用户-节目-评分矩阵”模型,结合时间上下文和基于物品的协同过滤算法进行个性化节目单生成;(3)实时节目切换功能:对正在收听的节目提供“换一换”机制,根据用户兴趣进行实时节目切换;(4)节目实时推送功能:利用Storm技术实现基于在线节目收听量等进行实时节目推送提醒。进一步的,方法(1)为解决新用户的冷启动问题,需要建立如下两种用户模型:(1.1)“博文内容-兴趣主题-节目”模型;(1.2)基于注册信息的用户初始画像模型。更进一步的,为构建(1.1)中的用户模型,步骤如下:(1.1.1)用户选择社交账号登录方式,输入新浪微博账号密码进行认证并授权登录;(1.1.2)调用新浪微博的用户接口API获取该用户的微博UID,该UID对于微博用户唯一;(1.1.3)利用微博用户的UID从http://www.weibo.cn网站上爬取该用户的微博博文内容,经预处理后,保存在以uid命名的文件中;(1.1.4)对(1本文档来自技高网
...
一种细粒度电台音频内容个性化组织推荐方法

【技术保护点】
一种细粒度电台音频内容个性化组织推荐方法,其特征在于:首先,对音频进行分帧;第二步,进行预处理,消除趋势项和直流分量第三步,进行降噪;第四步,进行预加重;第五步,然后进行特征提取,特征提取是基于帧处理的;第六步,采用端点检测方法检测出语音的端点,从包含语音的一段信号中确定出语音的起始点和结束点的位置;通过端点检测,把音频切分成一个个句子;第七步,经过端点检测的音频首先经过SVM1,将帧分为语音/非语音/静音,对语音帧通过SVM1分成纯语音帧以及带噪语音帧,对纯语音帧再通过SVM3分为男声/女声;对非语音帧通过SVM4分为音乐以及噪声;第八步,对纯人声分离出的男声/女声以及现场报道通过说话人分割与聚类技术,将说话人相同的顺序音频段进行合并;分析出最多音频段的男性声音和女性声音,即为男主持人和女主持人;第九步,对分离完成的说话人段进行语音识别并存储;最后,构建广播语义网,使用文本分析技术对相邻的说话人段进行分析处理,对有相似语义的说话人段进行合并并提取摘要进行标注;个性化节目组织推荐系统的节目推荐方法包括以下四大类:(1)提出一种解决冷启动的新用户节目推荐方法:采集登录用户的新浪微博内容构建“博文内容‑兴趣主题‑节目”模型,并结合注册信息进行用户画像,生成新用户的节目单;(2)提出一种结合时间上下文的个性化节目单推荐生成方法:采集电台用户的显式和隐式行为数据构建“用户‑时间上下文‑节目偏好”模型和“用户‑节目‑评分矩阵”模型,结合时间上下文和基于物品的协同过滤算法进行个性化节目单生成;(3)实时节目切换功能:对正在收听的节目提供“换一换”机制,根据用户兴趣进行实时节目切换;(4)节目实时推送功能:利用Storm技术实现基于在线节目收听量等进行实时节目推送提醒。...

【技术特征摘要】
1.一种细粒度电台音频内容个性化组织推荐方法,其特征在于:首先,对音频进行分帧;第二步,进行预处理,消除趋势项和直流分量第三步,进行降噪;第四步,进行预加重;第五步,然后进行特征提取,特征提取是基于帧处理的;第六步,采用端点检测方法检测出语音的端点,从包含语音的一段信号中确定出语音的起始点和结束点的位置;通过端点检测,把音频切分成一个个句子;第七步,经过端点检测的音频首先经过SVM1,将帧分为语音/非语音/静音,对语音帧通过SVM1分成纯语音帧以及带噪语音帧,对纯语音帧再通过SVM3分为男声/女声;对非语音帧通过SVM4分为音乐以及噪声;第八步,对纯人声分离出的男声/女声以及现场报道通过说话人分割与聚类技术,将说话人相同的顺序音频段进行合并;分析出最多音频段的男性声音和女性声音,即为男主持人和女主持人;第九步,对分离完成的说话人段进行语音识别并存储;最后,构建广播语义网,使用文本分析技术对相邻的说话人段进行分析处理,对有相似语义的说话人段进行合并并提取摘要进行标注;个性化节目组织推荐系统的节目推荐方法包括以下四大类:(1)提出一种解决冷启动的新用户节目推荐方法:采集登录用户的新浪微博内容构建“博文内容-兴趣主题-节目”模型,并结合注册信息进行用户画像,生成新用户的节目单;(2)提出一种结合时间上下文的个性化节目单推荐生成方法:采集电台用户的显式和隐式行为数据构建“用户-时间上下文-节目偏好”模型和“用户-节目-评分矩阵”模型,结合时间上下文和基于物品的协同过滤算法进行个性化节目单生成;(3)实时节目切换功能:对正在收听的节目提供“换一换”机制,根据用户兴趣进行实时节目切换;(4)节目实时推送功能:利用Storm技术实现基于在线节目收听量等进行实时节目推送提醒。2.根据权利要求1所述的方法,其特征在于:步骤(1)为解决新用户的冷启动问题,需要建立如下两种用户模型:(1.1)“博文内容-兴趣主题-节目”模型;(1.2)基于注册信息的用户初始画像模型;为构建(1.1)中的用户模型,步骤如下:(1.1.1)用户选择社交账号登录方式,输入新浪微博账号密码进行认证并授权登录;(1.1.2)调用新浪微博的用户接口API获取该用户的微博UID,该UID对于微博用户唯一;(1.1.3)利用微博用户的UID从http://www.weibo.cn网站上爬取该用户的微博博文内容,经预处理后,保存在以uid命名的文件中;(1.1.4)对(1.1.3)处理后的文件内容分条调用文本分类API,获取内容的主题分类;对所有微博内容的兴趣主题进行过滤后汇总,以[主题:次数]的形式标识该用户该兴趣主题的偏好值;为构建(1.2)中的基于注册信息的用户初始画像模型,首先需要确定系统需要填写的注册信息包括:选择偏好收听的节目类型,用户的性别,年龄和职业类型,共四部分。3.根据权利要求1所述的方法,其特征在于:步骤(2)结合时间上下文的个性化节目单推荐生成方法,包括如下几个模块:(2.1)电台用户显式和隐式行为数据的采集;(2.2)“用户-时间上下文-节目偏好”模型的构建;(2.3)“用户-节目-评分矩阵”模型的构建;(2.4)结合时间上下文和基于物品的协同过滤算法产生用户的个性化节目单;模块(2.1)要采集的显式和隐式行为包括如下内容:(2.1.1)显式行为:用户对节目的操作信息,包括收藏、评分、分享;(2.1.2)隐式行为:收听时长,包括用户ID,节目ID,收听开始时间,收听结束时间),收听次数包括用户ID,节目ID,收听次数;模块(2.2)“用户-时间上下文-节目偏好”模型的构建步骤如下:(2.2.1)采集用户收听的隐式行为,收集指标是某用户U对某节目P的收听时长;对于某用户U对于某节目P的某次收听行为表示为:{(U,P,start_time,end_time,id,No.),num=1,2,......}(1)其中id标识表达式(1)属于某节目P的第几次收听,No.表示id次收听的第几段收听记录,id和No.均从1递增;(2.2.2)根据表达式(1)来进行统计,得出用户U对于节目P的单次收听的收听时长占比表示如下:N为No.的最大值(2)其中duration是节目P的总时长;(2.2.3)综合表达式(1)和(2),将用户U某时段T在时间上下文(对于节目P的偏好表示为:(2.2.4)节目的特征包括类型和主题;用户对于单个节目的偏好程度即表达式(3)计算出来后,依据该节目所属的类型或主题,...

【专利技术属性】
技术研发人员:宋明丽曹轶臻王琦张小平
申请(专利权)人:北京中瑞鸿程科技开发有限公司
类型:发明
国别省市:北京,11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1