测量内容一致性的方法和设备、测量相似度的方法和设备技术

技术编号:8387593 阅读:212 留言:0更新日期:2013-03-07 08:16
描述了用于测量内容一致性的实施例和用于测量内容相似度的实施例。测量第一音频部分与第二音频部分之间的内容一致性。针对第一音频部分中的每个音频分段,确定第二音频部分中预定数目的音频分段。第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度高于该音频分段与第二音频部分中的所有其它音频分段之间的内容相似度。计算第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度的平均值。将内容一致性计算为,针对第一音频部分中的各音频分段而计算的各平均值的平均值、最大值或最小值。可以基于狄里克雷分布计算内容相似度。

【技术实现步骤摘要】
测量内容一致性的方法和设备
本专利技术一般涉及音频信号处理。更具体地,本专利技术的实施例涉及用于测量音频部分之间的内容一致性的方法和设备,以及用于测量音频分段之间的内容相似度的方法和设备。
技术介绍
内容一致性度量用于测量音频信号内或音频信号间的内容一致性。该度量涉及计算两个音频分段之间的内容一致性(contentcoherence)(内容相似度(contentsimilarity)或内容一致性(contentconsistence)),并用作判断这些分段是否属于相同的语义聚类或这两个分段之间是否存在真实的边界的基础。已经提出了测量两个长窗口之间的内容一致性的方法。根据这种方法,将每个长窗口划分为多个短音频分段(音频元素),并且基于交叠相似度链接的整体思路,通过计算从左窗口和右窗口获得的所有分段对之间的语义相似性而获得内容一致性度量。可通过测量音频分段之间的内容相似度或通过其对应的音频元素类来计算语义相似性(例如,参见L.Lu及A.Hanjalic.“Text-LikeSegmentationofGeneralAudioforContent-BasedRetrieval,”IEEETrans.onMultimedia,vol.11,no.4,658-669,2009,其通过引用合并于此以用于全部目的)。可以基于两个音频分段之间的特征比较来计算内容相似度。已经提出了诸如K-L散度(Kullback-Leiblerdivergence,KLD)的各种度量,以测量两个音频分段之间的内容相似度。这一部分描述的方案是可能请求保护的方案,而不一定是先前已构思或已请求保护的方案。因此,除非另行表明,否则不应只是由于这些方案被包括在这一部分中就假定这一部分中描述的任何方案只能作为现有技术。类似地,除非另行表明,否则不应基于这一部分而假定任何现有技术中已经意识到相对于一个或多个方案而确定的问题。
技术实现思路
根据本专利技术一个实施例,提供一种测量第一音频部分与第二音频部分之间的内容一致性的方法。针对第一音频部分中的每个音频分段,确定第二音频部分中预定数目的音频分段。第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度高于第一音频部分中的该音频分段与第二音频部分中的所有其它音频分段之间的内容相似度。计算第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度的平均值。将第一内容一致性计算为,针对第一音频部分中的各音频分段而计算的各平均值的平均值、最小值或最大值。根据本专利技术一个实施例,提供一种用于测量第一音频部分与第二音频部分之间的内容一致性的设备。设备包含相似度计算器和一致性计算器。针对第一音频部分中的每个音频分段,相似度计算器确定第二音频部分中预定数目的音频分段。第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度高于第一音频部分中的该音频分段与第二音频部分中的所有其它音频分段之间的内容相似度。相似度计算器也计算第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度的平均值。一致性计算器将第一内容一致性计算为,针对第一音频部分中的各音频分段而计算的各平均值的平均值、最小值或最大值。根据本专利技术一个实施例,提供一种测量两个音频分段之间的内容相似度的方法。从所述音频分段中提取第一特征向量。第一特征向量中的每一个中的所有特征值都是非负的并被归一化,使得特征值的和为1。根据特征向量,基于狄里克雷分布生成用于计算内容相似度的统计模型。基于所生成的统计模型计算内容相似度。根据本专利技术一个实施例,提供一种用于测量两个音频分段之间的内容相似度的设备。设备包含特征生成器、模型生成器和相似度计算器。特征生成器从音频分段中提取第一特征向量。第一特征向量中的每一个中的所有特征值都是非负的并被归一化,使得特征值的和为1。模型生成器根据特征向量,基于狄里克雷分布生成用于计算内容相似度的统计模型。相似度计算器基于所生成的统计模型计算内容相似度。下面参考附图描述本专利技术的进一步特征及优点以及本专利技术各个实施例的结构及操作。应注意,本专利技术不限于在此描述的具体实施例。在此呈现这些实施例仅用于说明性目的。基于这里包含的教导,对本领域技术人员而言,另外的实施例将是明显的。附图说明在附图的各图中通过示例来图解本专利技术,但这些示例不对本专利技术产生限制,附图中类似的附图标记表示类似的元件,其中:图1是图示根据本专利技术实施例的用于测量内容一致性的示例设备的框图;图2是用于图示第一音频部分中的音频分段与第二音频部分中的音频分段的子集之间的内容相似度的示意图;图3是图示根据本专利技术实施例的测量内容一致性的示例方法的流程图;图4是图示根据图3方法的进一步实施例的测量内容一致性的示例方法的流程图;图5是图示根据本专利技术实施例的相似度计算器的示例的框图;图6是用于图示通过采用统计模型来计算内容相似度的示例方法的流程图;图7是图示用于实施本专利技术的各实施例的示例性系统的框图。具体实施方式下面参考附图描述本专利技术实施例。应注意,为清楚起见,在附图和描述中省略了关于本领域技术人员已知但是对理解本专利技术而言并非必需的组件和过程的陈述和描述。本领域的技术人员可以理解,本专利技术的各方面可以被实施为系统(例如在线数字媒体商店、云计算服务、流媒体服务、电信网络等)、装置(例如蜂窝电话、便携媒体播放器、个人计算机、电视机顶盒、或数字录像机、或任意其它媒体播放器)、方法或计算机程序产品。因此,本专利技术的各方面可以采取以下形式:完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合软件部分与硬件部分的实施例,本文可以一般地称之为“电路”、“模块”或“系统”。此外,本专利技术的各方面可以采取体现为一个或多个计算机可读介质的计算机程序产品的形式,该计算机可读介质上体现有计算机可读程序代码。可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是(但不限于)电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下:有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中,计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的、其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式,包括但不限于电磁的、光的或其任何适当的组合。计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。体现在计算机可读介质中的程序代码可以采用任何适当的介质传输,包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。用于执行本专利技术各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/21/201110243107.html" title="测量内容一致性的方法和设备、测量相似度的方法和设备原文来自X技术">测量内容一致性的方法和设备、测量相似度的方法和设备</a>

【技术保护点】
一种测量第一音频部分与第二音频部分之间的内容一致性的方法,包括:针对所述第一音频部分中的每个音频分段,确定所述第二音频部分中预定数目的音频分段,其中所述第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度高于所述第一音频部分中的该音频分段与所述第二音频部分中的所有其它音频分段之间的内容相似度;以及计算所述第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度的平均值;以及将第一内容一致性计算为,针对所述第一音频部分中的各音频分段而计算的各平均值的平均值、最小值或最大值。

【技术特征摘要】
1.一种测量第一音频部分与第二音频部分之间的内容一致性的方法,包括:针对所述第一音频部分中的每个音频分段,确定所述第二音频部分中预定数目的音频分段,其中所述第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度高于所述第一音频部分中的该音频分段与所述第二音频部分中的所有其它音频分段之间的内容相似度;以及计算所述第一音频部分中的该音频分段与所确定的音频分段之间的内容相似度的平均值;以及将第一内容一致性计算为,针对所述第一音频部分中的各音频分段而计算的各平均值的平均值、最小值或最大值。2.根据权利要求1所述的方法,进一步包括:针对所述第二音频部分中的每个音频分段,确定所述第一音频部分中预定数目的音频分段,其中所述第二音频部分中的该音频分段与所确定的音频分段之间的内容相似度高于所述第二音频部分中的该音频分段与所述第一音频部分中的所有其它音频分段之间的内容相似度;以及计算所述第二音频部分中的该音频分段与所确定的音频分段之间的内容相似度的平均值;将第二内容一致性计算为针对所述第二音频部分中的各音频分段而计算的各平均值的平均值、最小值或最大值;基于所述第一内容一致性和所述第二内容一致性计算对称内容一致性。3.根据权利要求1或2所述的方法,其中,将所述第一音频部分中的音频分段si,l与所确定的音频分段sj,r之间的内容相似度S(si,l,sj,r)中的每一个计算为所述第一音频部分中的序列[si,l,…,si+L-1,l]与所述第二音频部分中的序列[sj,r,…,sj+L-1,r]之间的内容相似度,L>1。4.根据权利要求3所述的方法,其中,通过应用动态时间规整方案或动态规划方案来计算所述序列之间的内容相似度。5.根据权利要求1或2所述的方法,其中,通过以下步骤来计算两个音频分段之间的内容相似度:从所述音频分段中提取第一特征向量;根据所述特征向量生成用于计算所述内容相似度的统计模型;以及基于所生成的统计模型计算所述内容相似度,其中所述第一特征向量中的每一个中的所有特征值都是非负的且所述特征值的和为1,并且所述统计模型基于狄里克雷分布。6.根据权利要求5所述的方法,其中,所述提取包括:从所述音频分段中提取第二特征向量;以及针对所述第二特征向量中的每一个,计算用于测量该第二特征向量与参考向量中的每一个之间的关系的量,其中与所述第二特征向量相对应的所有量形成所述第一特征向量中的一个。7.根据权利要求6所述的方法,其中,通过以下方法之一确定所述参考向量:随机产生法,其中随机生成所述参考向量;无监督聚类法,其中提取自训练样本的训练向量被分组为聚类,并计算所述参考向量以分别代表所述聚类;监督建模法,其中根据提取自训练样本的训练向量来人工定义和学习所述参考向量;以及特征分解法,其中将所述参考向量计算为以提取自训练样本的训练向量作为行的矩阵的特征向量。8.根据权利要求6所述的方法,其中,通过以下各量之一测量所述第二特征向量与所述参考向量中的每一个之间的关系:所述第二特征向量与该参考向量之间的距离;所述第二特征向量与该参考向量之间的相关;所述第二特征向量与该参考向量之间的内积;以及该参考向量的以所述第二特征向量作为相关证据的后验概率。9.一种用于测量第一音频部分与第二音频部分之间的内容一致性的设备,包括:相似度计算器,其针对所述第一音频...

【专利技术属性】
技术研发人员:芦烈胡明清
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1