一种基于节目串联单的广播节目音频智能拆条方法及装置制造方法及图纸

技术编号:24576339 阅读:80 留言:0更新日期:2020-06-21 00:26
一种基于节目串联单的广播节目音频智能拆条方法及装置。本发明专利技术提出了一种基于语音转写文本的半监督音频拆条方法和装置,所述音频拆条方法包括:步骤一、语音转写;步骤二、构建串联单主题集合;步骤三、备选匹配;步骤五、精确匹配;以及步骤六、头尾校验,分别设置相似度阈值Thh和Tht来评估拆条的准确度,当头部校验计算所得相似度大于Thh且尾部校验计算所得相似度大于Tht时,将拆条结果输出,否则放弃该主题拆条。本发明专利技术仅需要广播节目串联单作为模版即可完成拆条,不需要额外的标注数据,相比于基于深度学习的拆条算法人工成本比较低。

A method and device of audio intelligent striping of broadcast program based on program serial list

【技术实现步骤摘要】
一种基于节目串联单的广播节目音频智能拆条方法及装置
本专利技术所属
为人工智能领域中的自然语言处理技术,特别涉及一种基于节目串联单的广播节目音频智能拆条方法及装置。
技术介绍
目前音频智能拆条技术主要分为两类:一类是基于音频特征的拆条技术,利用音频分类器识别音频数据中的音乐、语音、噪声等,并根据需要进行拆分。具体而言,就是利用短时傅立叶变换将声波图转换为声谱图,再通过ReNet、DNN、CNN、RCNN等网络提取声谱图的特征,从而对不同类别的声音信号进行分类,不同类别的声音信号的转折点即可确定为拆条时间点。这一类算法不能对音频的内容进行理解,因此只能粗粒度地将音频数据切分为音乐、语音、噪声等类别,不能满足精细的音频数据拆分需求。另一类是基于语音转写文本的拆条技术,先利用文本分类算法对由音频转写的文本数据进行拆条,再根据文本与音频的时间对齐信息实现音频拆条。随着自然语言推理技术的发展,优秀的文本分类算法(如:Bert、ERNIE等)可以从语义上理解内容,从而实现基于内容的细粒度音频拆分。然而拆条准确率仍然难以满足实际需求,难以脱离人本文档来自技高网...

【技术保护点】
1.一种基于节目串联单的广播节目音频智能拆条方法,其特征在于包括以下步骤:/n步骤一、语音转写;/n利用语音转写算法,将广播音频转写为文本数据,利用文本数据中的标点符号将文本分割成短句集合S={s

【技术特征摘要】
1.一种基于节目串联单的广播节目音频智能拆条方法,其特征在于包括以下步骤:
步骤一、语音转写;
利用语音转写算法,将广播音频转写为文本数据,利用文本数据中的标点符号将文本分割成短句集合S={s0,...,sw},并提取每个短句在音频中对应的播放点位信息;
步骤二、构建串联单主题集合;
广播节目串联单在制作的时候会将不同的主题单独编排,将这些主题对应的文字内容分别读入数组中,构建主题集合B={b0,...,bm};
步骤三、备选匹配;
利用选定的相似度计算方法,计算短句集合S与主题集合B中所有元素的字符串相似度;对于每个短句si∈S找到与其相似度最高的n(1≦n≦m)个主题,作为该主题的备选句,直到每个si都被分配到n个主题中作为备选句为止,每个主题bj∈B都对应一个备选句集合
步骤四、将备选句连接成备选段落;
按照时间连续性原则,将备选句连接成多个备选段,备选段落集合为P={p1,...,pz};
步骤五、精确匹配;
对于每个主题bj,利用选定的相似度计算方法,计算bj与P中每一个备选段落的相似度,选出相似度最大的备选段落pk;
步骤六、头尾校验;
头部校验:计算步骤五中给出的备选段落pk前y个字符与主题bj前y字符之间的字符串相似度;
尾部校验:按照同样的方法计算pk与bj尾部y个字符之间的相似度;
分别设置相似度阈值Thh和Tht来评估拆条的准确度,当头部校验计算所得相似度大于Thh且尾部校验计算所得相似度大于Tht时,将拆条结果输出,否则放弃该主题拆条。


2.一种如权利要求1所述的基于节目串联单的广播节目音频智能拆条方法,其特征在于:所述步骤四将备选句连接成备选段落的方法是:首先将Dj中所有备选句按照播出的时间先后排序,选取最早播出的备选句s1,计算此备选句的结束时间和下一句备选句s2的开始时间间隔,如果时间间隔小于T,那么继续计算s2的结束时间和s3开始时间的间隔,直到sn与sn+1之间的时间间隔大于T,那么将s1到sn之间所有短句按照播出时间顺序首尾相接组成备选段d1,接下来继续计算sn+1与sn+2之间的时间间隔,直到sk与sk+1的时间间隔大于T,连接sn+1到sk之间所有短句,组成备选段d2,以此类推,除了时间外,没有其他的判断因素。对于每个主题bj,其备选句都记录着播放点位信息,利用播放点位信息将Dj中的备选句按照播放时间顺序从小到大排列,并计算相邻备选句之间的时间间隔t,设定阈值T,找出备选句集合中所有满足条件t<T的子集,将子集中的短句顺次连接组成备选段落,得到bj的备选段落集合P={p1,...,pz}。


3.一种如权利要求2所述的基于节目串联单的广播节目音频智能拆条方法,其特征在于:T的取值范围在0-5秒之间。


4.一种如权利要求1所述的基于节目串联单的广播节目音频智能拆条方法,其特征在于:所述的相似度计算方法选自以下方法之一:基于jaccard系数、汉明距离、字符串编辑距离、cosin相似度、曼哈顿距离或欧式距离及其它用于衡量语义相似度的算法。


5.一种如权利要求1所述的基于节目串联单的广播节目音频智能拆条方法,其特征在于:y的取值范围为5-50。


6.一种如权利要求1所述的基于节目串联单的广播节目音频智能拆条方法,其特征在于:所述的标点符号包括逗号、句号、问号、感叹号。


7.一种如权利要求1所述的基于节目串联单的广播节目音频智能拆条方法,其特征在于:所述的语音转写算法包括:基于循环神经网络、卷积神经网络、深度神经网络、Transformer网络及残差网络的语音转写算...

【专利技术属性】
技术研发人员:白子龙
申请(专利权)人:阿基米德上海传媒有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1