一种对音、视频内容进行语义描述的方法和系统技术方案

技术编号:7759270 阅读:164 留言:0更新日期:2012-09-14 01:25
一种对音、视频内容进行语义描述的方法和系统,其首先把音、视频内容拆分成多个片断,并为每个片断赋予用于标出每个片断的先后顺序及嵌套关系的结构属性,生成一个具有先后顺序及嵌套关系的XML文件;其次在所述XML文件中分别对每个片断根据构字典与语义字典进行语义描述,形成一个新的XML文件;最后对新的XML文件添加XML?Schema声明、版权声明,并将其加入原音视频文件中,产生一个包含该XML文件的音视频文件,同时也可以在该新的XML文件中加入相应音视频文件片断的位置,生成与原音视频文件对应的XML文件。由此可以实现基于音视频文件本身或者基于与原音视频文件对应的XML文件对音视频进行更精确的检索。

【技术实现步骤摘要】

本专利技术涉及音视频数字 出版
,特别是涉及一种对音视频内容进行语义描述的方法及系统。
技术介绍
随着人类社会的发展,人们获取知识与信息的方式正在发生着变化,出版、IT企业目前正在把大量音视频文件进行多种格式的加工,投放到网络、电纸书、平板电脑上。很多人更希望精准地获取一段音视频的部分内容,甚至是很少一部分内容,但是,目前这些格式的音视频文件的检索方式仅能够基于音视频文件的文件名、作者、标题、关键词等基于音视频文件自身的基本属性进行检索,由于视频文件涵盖的内容比较多,一个音视频文件中的大多数内容可能并不是读者所需要的。现有的检索方式无法定位到单个音视频文件中更具体的位置,由此而导致不能精确检索到读者真正想要的内容。
技术实现思路
鉴于现有技术的缺陷,本专利技术提供一种对音视频内容进行语义描述的方法,其特征在于包括如下步骤(I)定义一种结构字典与语义字典,并用XML语言按照其中规定了音视频内容中对结构及语义描述的规则与赋值范围的结构字典与语义字典写一个XMLSchema文件;(2)导入音视频文件并把音视频内容拆分成多个片断;(3)为每个片断赋予用于标出其在音视频文件中的先后顺序及嵌套关系的结构属性,生成一个具有先后顺序及嵌套关系的XML文件;(4)在所述XML文件中分别对每个片断进行语义描述赋值,形成一个新的XML文件;(5)对新的XML文件添加XML Schema声明、版权声明、音视频文件的位置,最终形成的描述音视频内容的XML文件或者对新的XML文件添加XML Schema声明、版权声明,并存入原音视频文件中,产生一个新的音视频文件。此外,本专利技术还提供一种对音视频内容进行语义描述的系统,其特征在于包括(I)定义一种结构字典与语义字典,并用XML语言按照其中规定了音视频内容中对结构及语义描述的规则与赋值范围的结构字典与语义字典写一个XML Schema文件的装置;(2)用于导入音视频文件并把音视频文件拆分成多个片断的装置;(3)用于为每个片断赋予用于标出其在音视频文件中的先后顺序及嵌套关系的结构属性,生成一个具有先后顺序及嵌套关系的XML文件的装置;(4)用于在所述XML文件中分别对每个片断进行语义描述赋值,形成一个新的XML文件的装置;(5)用于对新的XML文件添加XML Schema声明、版权声明、音视频文件的位置,最终形成的描述音视频内容的XML文件或者对新的XML文件添加XMLSchema声明、版权声明,并存入原音视频文件中,产生一个新的音视频文件的装置。本专利技术能够实现音视频文件的片断内容的语义描述,音视频内容不再是完整的一部,而是被有目的地分成若干个片断,每一个片断都对应着读者的一个或多个诉求,海量的音视频文件最终形成了海量的音视频知识库,而不是简单的数据库。读者的每一个问题都能从知识库中检索到一个或多个答案,这完全高于目前音视频的检索效率,这在垃圾数据日益膨胀的未来更加重要与迫切。附图说明图I是本专利技术对音视频内容进行语义描述的方法的数据处理流程图。具体实施例方式本专利技术就是要通过音视频内容分割与内容语义描述两种手段相结合的方式来解决音视频内容的检索效率的问题。所谓语义描述就是对音视频文件中的某一段内容进行一些概括性的解释,这些解释的目的就是设法把读者的诉求与音视频文件的内容连接在一起,比如,读者的诉求往往是“万有引力的定律”这类问题,如果要让 工具在海量的音视频文件中快速而又精准地检索到这些片断内容,那么就要对这些音视频文件的某段内容进行“万有引力的定理”这样的概括性的语义描述。要实现音视频内容的语义描述的目标,就必须解决好两个问题一是要有一个很好的方法来分割音视频内容,使分割的片断内容可以任意大小,同时保持一定的层次关系。目前已有的分割方法不能实现任意大小的分割,以视频为例就不能实现跨节目、片断、场景、镜头的分割,完全是按传统结构来分割的;二是建立一种方法来对每一个片断内容进行多角度的语义描述,使之与读者多种诉求相联系。目前对音视频的语义描述仅仅是关键词,没有完整的语义,更没有与某种市场需求对应起来。为使本专利技术的上述目的、特征和优点更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。图I是本专利技术对音视频内容进行语义描述的方法的步骤流程图,该方法包括如下步骤(I)定义一种结构字典与语义字典,并用XML语言按照其中规定了音视频内容中对结构及语义描述的规则与赋值范围的结构字典与语义字典写一个XML Schema文件;这一步一般是在拆分与标注前做的准备工作,在具体标注过程中要不断更新字典与XMLSchema 文件。举例来说,本专利技术建立的结构字典如下BID.属性名=音视频文件ID号;BID.取值范围=字符;BID.说明=音视频文件的唯一识别码SID.属性名=片断ID号;SID.取值范围=字符;SID.取值规则=XXX. XXX. XXX. XXXSID.说明=每个片断的唯一识别码;N.属性名=片断的序号;N.取值范围=整数;N.说明=片断在原音视频文件中的先后位置P.属性名=时间范围;P.取值范围=二元整数组;P.说明=原音视频文件的时间范围F.属性名=帧频率;F.取值范围=N; F.说明=原音视频文件的频率。该结构与电子图书结构的描述方法基本相同,不同点在于(I)描述对象不同,一个是电子图书(PDF\D0C\INDD等),一个是音视频文件(MP3\MP4\AVI等),(2)描述方法中的P元素的属性不同,电子图书P元素的属性是页码相关信息,音视频的P元素属性是时间范围。第三方软件工具根据该时间信息、频率信息来定位到具体的帧,但本方法不描述帧,只描述片断,如果片断的时间属性为1,频率为I时,那么该片断就是一个帧。如果时间为场景的时间长度,频率为25时,该片断可能就是一个场景。此外,为了让其它工具更好识别本专利技术对音视频内容所作的语义描述,我们可以对语义描述中所用到的一些词可以做一个规范,形成一个语义字典。例如,对OP i = (O i, A i, AK i,C i)中的每个取值做如下说明属性名、取值范围、详细说明O.属性名=主体词;O.取值范围=任意名词;O.说明=语义所描述的对象A.属性名=谓体词;A.取值范围=任意动词或系动词+名词;A.说明=语义所描述的对象的功能性说明;AK.属性名=谓体词的补充说明;AK.取值范围=任意词;AK.说明=语义所描述的对象的功能性说明的进一步补充C.属性名=约束条件;C.取值范围=多元词组;C.说明=从多个方面来说明对象功能的条件本专利技术中的结构字典和语义字典均通过XML Schema声明发布,并且在具体标注过程中要不断更新字典与XML Schema文件,音视频文件中的片断结构与语义是通过XML语言来描述的,这时就需要一个Schema文件对该描述是否规范、是否存在语法错误、是否符合自定义的字典要求等内容进行这些语法验证,这个Schema文件就是字典的发布形式。(2)导入音视频文件并把音视频内容拆分成多个片断;在该步骤中,可以开发一个结构拆分的计算机辅助程序,实现把音视频文件按一定的规则,这个规则可以由用户根据自己的应用需求来确定,比如,按帧来细分视频;或者按镜头来细分;或者按内容来细分。分解成若干个内容连续的片断,每个片断可以是传统意义的结构本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:张训军
申请(专利权)人:北京中科希望软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1