生成音频的图形表示的方法和设备、音频搜索方法和设备技术

技术编号:11171692 阅读:37 留言:0更新日期:2015-03-19 12:57
公开了一种生成音频内容的图形化表示的方法和设备。所述方法包括:获取有关音频内容中要图形化表示的对象的元数据;分析元数据以确定要图形化表示的对象之间的关联关系;从图形化表示元素的集合中选择分别与感兴趣的要图形化表示的对象以及关联关系对应的图形化表示元素;基于所选择的图形化表示元素,生成所述音频内容的图形化表示。通过所述方法和设备,用户能够快速了解音频的具体内容。还公开了在音频内容库中搜索音频内容的方法和设备,通过该方法和设备,用户能够了解特定话题的谈论历史,跟踪话题的演进。

【技术实现步骤摘要】
生成音频的图形表示的方法和设备、音频搜索方法和设备
本专利技术涉及音频处理领域,更具体地,涉及一种生成音频内容的图形化表示的方法和设备、以及在音频内容库中搜索音频内容的方法和设备。
技术介绍
现阶段,音频的可视化已经有了一些研究。常见的音频可视化表示例如图2 (a)中所示的波形图以及如图2 (b)所示的可视化效果图。然而,这些可视化表示示出的往往都是声音强度、音乐节奏等的图谱,其并不能表示音频中的具体内容,例如该音频是关于什么具体话题的、音频中有多少参与者、每个参与者谈论了哪些具体的话题等等。目前,人们如果希望了解音频中的上述具体内容信息,需要听完整个音频或者阅读从该音频转述得到的文字表示,这是非常麻烦并且耗时的。
技术实现思路
鉴于以上问题而提出了本专利技术。本专利技术的目的是提供一种生成音频内容的图形化表示的方法和设备,用户通过观看该图形化表示能够快速了解包括音频中的说话者、谈论的话题、说话者之间的谈话模式等等的具体音频内容。本专利技术的另一目的是提供一种在音频内容库中搜索音频内容的方法,其使得用户能够从音频内容库中搜索出有关预定说话者关于某一话题的谈论的所有音频内容,由此能够了解该话题的谈论历史,跟踪该话题的演进。 根据本专利技术的一个方面,提供了一种生成音频内容的图形化表示的方法,包括:获取有关音频内容中的要图形化表示的对象的元数据;分析所述元数据以确定要图形化表示的对象之间的关联关系;从图形化表示元素的集合中选择分别与感兴趣的要图形表示的对象对应的图形化表示元素以及关联关系对应的图形化表示元素;以及基于所选择的图形化表示元素,生成所述音频内容的图形化表示。 根据本专利技术的另一个方面,提供了一种生成音频内容的图形化表示的设备,包括:获取装置,被配置为获取有关音频内容中的要图形化表示的对象的元数据;分析装置,被配置为分析所述元数据以确定要图形化表示的对象之间的关联关系;选择装置,被配置为从图形化表示元素的集合中选择分别与感兴趣的要图形化表示的对象以及关联关系对应的图形化表示元素;以及生成装置,被配置为基于所选择的图形化表示元素,生成所述音频内容的图形化表示。 根据本专利技术的又一个方面,提供了一种在音频内容库中搜索音频内容的方法,包括:在与音频内容库中的音频内容对应的图形化表示中搜索具有预定特征的音频片段的子图形化表示,其中音频内容库中的音频内容具有对应的图形化表示,该图形化表示由用于表示音频内容中被图形化表示的对象的图形化表示元素以及用于表示被图形化表示的对象之间的关联关系的图形化表示元素组成,所述子图形化表示是具有预定特征的音频片段所属于的音频内容的图形化表示的一部分;呈现与搜索到的子图形化表示对应的音频片段所属于的音频内容。 根据本专利技术的再一个方面,提供了一种在音频内容库中搜索音频内容的设备,包括:搜索装置,被配置为在与音频内容库中的音频内容对应的图形化表示中搜索具有预定特征的音频片段的子图形化表示,其中音频内容库中的音频内容具有对应的图形化表示,该图形化表示由用于表示音频内容中被图形化表示的对象的图形化表示元素以及用于表示被图形化表示的对象之间的关联关系的图形化表示元素组成,所述子图形化表示是具有预定特征的音频片段所属于的音频内容的图形化表示的一部分;呈现装置,被配置为呈现与搜索到的子图形化表示对应的音频片段所属于的音频内容。 根据本专利技术上述生成音频内容的图形化表示的方法和设备可以通过呈现由表示音频中的说话者、讨论的话题、说话者之间的谈话模式、话题之间的关联关系等的图形化表示元素组成的图形化表示,使得用户快速了解音频中的具体内容,从而节省时间同时提高便利性。另外,根据本专利技术上述在音频内容库中搜索音频内容的方法和设备,可以通过从音频内容库中搜索出有关预定说话者关于某一话题的谈论的所有音频片段,使得用户能够了解该话题的谈论历史,跟踪该话题的演进。 【附图说明】 通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。 图1示出了适于用来实现本专利技术实施方式的示例性计算机系统/服务器12的框图。 图2 Ca)和2 (b)示出了现有技术中音频可视化表示的示例。 图3示出了根据本专利技术实施例的生成音频内容的图形化表示的方法的流程图。 图4示意性地示出了根据本专利技术实施例所生成的音频内容的图形化表示的一个示例。 图5 (a)-5 (c)示出了根据本专利技术实施例的生成音频内容的图形化表示的方法生成的图形化表示的示例。 图6示出了根据本专利技术实施例的选择图形化表示元素以生成音频内容的图形化表示的过程的流程图。 图7示出了根据本专利技术实施例的生成音频内容的图形化表示的方法的示例性应用。 图8示出了根据本专利技术实施例的生成音频内容的图形化表示的方法的一个变型的示例性应用。 图9示出了根据本专利技术实施例的、在音频内容库中搜索包含有具有预定特征的音频片段的音频内容的方法的流程图。 图10例示了根据本专利技术实施例的搜索包含有具有预定特征的音频片段的音频内容的方法的示例性应用情景。 图11示出了根据本专利技术实施例的生成音频内容的图形化表示的设备的结构框图。 图12示出了图11中的生成装置的结构框图。 图13示出了根据本专利技术实施例的搜索包含有具有预定特征的音频片段的音频内容的设备的结构框图。 【具体实施方式】 下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。 所属
的技术人员知道,本专利技术可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本专利技术还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。 可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一但不限于——电、磁、光、电磁、红外线、或半导体的系统、设备或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPR0M或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、设备或者器件使用或者与其结合使用。 计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、本文档来自技高网
...

【技术保护点】
一种生成音频内容的图形化表示的方法,包括:获取有关音频内容中的要图形化表示的对象的元数据;分析所述元数据以确定要图形化表示的对象之间的关联关系;从图形化表示元素的集合中选择分别与感兴趣的要图形化表示的对象以及关联关系对应的图形化表示元素;以及基于所选择的图形化表示元素,生成所述音频内容的图形化表示。

【技术特征摘要】
1.一种生成音频内容的图形化表示的方法,包括: 获取有关音频内容中的要图形化表示的对象的元数据; 分析所述元数据以确定要图形化表示的对象之间的关联关系; 从图形化表示元素的集合中选择分别与感兴趣的要图形化表示的对象以及关联关系对应的图形化表示元素;以及 基于所选择的图形化表示元素,生成所述音频内容的图形化表示。2.如权利要求1所述的方法,所述要图形化表示的对象包括音频内容中的说话者和谈论的话题中的至少一种。3.如权利要求1所述的方法,其中所述要图形化表示的对象之间的关联关系是说话者之间的谈话模式、说话者说话的先后顺序和谈论的话题之间的承接关系中的至少一种。4.如权利要求3所述的方法,其中所述要图形化表示的对象的元数据包括以下至少一种:谈论的话题的基本属性信息;说话者的基本属性信息和说话者的语音特性信息。5.如权利要求4所述的方法,其中, 响应于所述要图形化表示的对象是谈论的话题,分析所述元数据以确定要图形化表示的对象之间的关联关系包括:根据谈论的话题的基本属性信息中的时间信息,确定各个谈论的话题之间的承接关系; 响应于所述要图形化表示的对象是说话者,分析所述元数据以确定要图形化表示的对象之间的关联关系包括:根据谈论的话题,将所述音频内容划分为音频片段;对每个音频片段,分析其中的说话者的语音特性信息,确定说话者之间的谈话模式和说话者说话的先后顺序中的至少一个。6.如权利要求1所述的方法,其中所述从图形化表示元素的集合中选择分别与感兴趣的要图形化表示的对象以及关联关系对应的图形化表示元素包括: 读取存储在本地数据文件中的所获取到的元数据中的静态数据; 根据存储在本地数据文件中的所获取到的元数据中的动态数据和大数据的统一资源标识符,读取对应的动态数据和大数据; 根据所述静态数据、动态数据、大数据和关联关系,从图形化表示元素的集合中选择分别与感兴趣的要图形化表示的对象以及关联关系对应的图形化表示元素。7.如权利要求1-6中任一项所述的方法,其中从图形化表示元素的集合中选择分别与感兴趣的要图形化表示的对象以及关联关系对应的图形化表示元素还包括: 响应于某一关联关系在所述图形化表示元素的集合中不存在对应的图形化表示元素,选择所述图形化表示元素的集合中用于表示与该某一关联关系类似的关联关系的图形化表示元素,作为与该某一关联关系对应的图形化表示元素。8.如权利要求1-6中任一项所述的方法,其中从图形化表示元素的集合中选择分别与感兴趣的要图形化表示的对象以及关联关系对应的图形化表示元素还包括: 响应于某一关联关系在所述图形化表示元素的集合中不存在对应的图形化表示元素:向用户呈现该关联关系;并响应于用户为该关联关系定义的新的图形化表示元素,将该新的图形化表示元素作为与该关联关系对应的图形化表示元素。9.如权利要求1-6中任一项所述的方法,还包括:显示所述音频内容的图形化表示。10.如权利要求1-6中任一项所述的方法,其中所述音频内容可以划分为一个或多个音频片段,该音频片段具有与其对应的子图形化表示,该子图形化表示是所述音频内容的图形化表不的一部分。11.一种生成音频内容的图形化表示的设备,包括: 获取装置,被配置为获取有关音频内容中的要图形化表示的对象的元数据; 分析装置,被配置为分析所述元数据以确定要图形化表示的对象之间的关联关系; 选择装置,被配置为从图形化表示元素的集合中选择分别与感兴趣的要图形化表示的对象和关联关系对应的图形化表不兀素;以及 生成装置,被配置为基于所选择的图形化表示元素,生成所述音频内容的图形化表示。12.如权利要求11所述的设备,所述要图形化表示的对象包括音频内容中的说话者和谈论的话题中的至少一种。13.如权利要求11所述的设...

【专利技术属性】
技术研发人员:廖勤樱张世磊刘文钱伟红
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1