当前位置: 首页 > 专利查询>徐信专利>正文

一种音视频语音处理与检索的系统技术方案

技术编号:8122207 阅读:227 留言:0更新日期:2012-12-22 12:27
本实用新型专利技术提供了一种音视频语音处理与检索的系统,包括采集设备、音视频信息处理计算机、音视频信息检索计算机,所述系统通过安装音视频采集设备来即时记录音视频信息,并将所述信息提供给所述音视频信息处理计算机进行处理。该实用新型专利技术的有益效果是能够快速处理音视频语音信息并将其转换为文本,并能够通过文本信息检索原始对应的音视频信息,达到音、视、文信息一体化。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本技术涉及音视频语音信息处理和计算机速记领域,特别是一种音视频语音信息同步处理与检索的系统。技术背景目前在速记领域手写速记除个别场合已很少应用,而计算机速记有专业速记机(如亚伟速录机、华夏速记机等)、普通计算机键盘速记(如 全音通、双文速记等)。均依靠人工(速记员)听打录入的高技能和计算机编码来实现,这是当前计算机速记的主体。但这种速记方法存在的问题有高投入低产出,将一名具有大专以上中文水平的人(年龄不超过25岁)培养成合格的速记师需要再经过专业技能培训I年(约1500学吋)及I年以上的实际工作锻炼,成才周期为2年。而且成才率低,最多不超过30%,难于普及;速记人员工作时高度紧张,劳动強度大和同声翻译雷同;行业整体素质低,工作质量难以保证,和行业要求差距较大。真正能胜任速记师工作的速记人员在本行业内是少数约占10%,多数或技能水平低或文化素质低,大专和本科生只有极少数人愿意投入到速记行业,速记行业大部分从业人员为高中、中专、中技的毕业生,约占70%以上,文化底蕴远不能满足速记行业的要求。所以速记专业人才队伍的建设非常困难。在计算机速记领域,以计算机语音识别为主体的新技术取代以人工技能为主体的(专业速记机或计算机键盘)速记是亟待解决的,也是计算机科学技术发展的必然。音视频语音信息目前尚无有效的办法进行快速精确的检索定位,基本上凭借具体工作人员的个人经验,对一般人员只能依靠播放音像资料带进行原始的人工查找,费时费力。远不能满足信息化社会对信息时效和信息规范化管理的要求
技术实现思路
本技术所要解决的技术问题是能够快速处理音视频语音信息并将其转换为文本,并能够通过文本信息检索原始对应的音视频信息,达到音、视、文信息一体化。本技术的技术方案提供了ー种音视频语音处理与检索的系统,包括采集设备、音视频信息处理计算机、音视频信息检索计算机,其特征在于,所述系统通过安装音视频采集设备来即时记录音视频信息,并将所述信息提供给所述音视频信息处理计算机进行处理,其处理结果传递给所述音视频语音信息检索计算机进行浏览、检索和打印。进ー步地,所述采集设备采用音视频语音采集设备或采用数码摄像机、并使用1394采集卡或USB接ロ,同时进行视频与语音音频的采集。进ー步地,所述采集设备采用声卡与网络摄像头相结合方式。进ー步地,所述采集设备将采集到的音视频信号通过USB接ロ或AV/S端子接ロ传入所述音视频信息处理计算机进行处理。进ー步地,所述采集设备和所述音视频信息处理计算机之间通过TCP/IP进行通τΗ ο进ー步地,所述音视频信息处理计算机的CPU为Intel双核E6300 I. 68GHz或以上,内存2G或以上,硬盘80G或以上;所述音视频信息检索计算机的CPU为P4 2.4或以上,RAM为IG或以上,硬盘为40G或以上。本技术的有益效果是计算机语音识别和计算机速记在更深层面的应用,同时也填补了我国在音视频语音精确定位与检索领域的ー项空白,这项技术的成功问世将是音视频语音处理及计算机速记领域的ー场革命,具有良好它的市场前景,具有巨大的社会效益与经济效益。附图说明图I是实施例中同步处理与检索的系统的结构框图。图2是实施例中首视频/[目息处通系统框图。图3是实施例中首视频信息检索系统框图。 具体实施例本系统的结构框图如附图I所示,包括采集设备、音视频语音信息处理计算机(即前端处理平台)、和音视频信息检索计算机(即后端检索应用平台)。其中前端处理平台的要求是CPU为Intel双核E6300 I. 68GHz或以上,内存2G或以上,硬盘80G或以上,OS为Windows XP Professional/Windows 2003 . Net Framework 3.5。后端检索应用平台的要求是CPU:为P4 2. 4或以上,RAM为IG 或以上,硬盘为40G或以上,OS为Windows XP/Windows 2000 . Net Framework 3.5。其中采集设备采集的是音视频信号,本系统支持现场即时信息采集,通过计算机系统所安装的定制的音视频采集设备(视频编码器、摄像头、麦克风等)来即时记录音视频语音信息,提供给系统进行处理。系统也支持通过非现场录制的方式采集的满足系统要求的音视频语音信息。系统支持目前流行的常用多媒体文件格式WMV、WAV、DAT、ASF、RM、AVI、WMA。这些媒体格式覆盖了当今计算机多媒体音视频文件的绝大部分格式,可以很好的满足用户对系统的需要。而对于其它系统所不支持的格式,则需要通过本系统提供的专用格式转换软件转换为本系统所支持的格式。对于录音笔等高压缩录音设备,也需要通过其专门的转换软件转换后再录入系统。系统所支持的视频采集设备包括系统定制的视频采集设备(视频编码器、摄像头),除此外,还支持DirectShow调用的视频采集卡;支持DirectShow调用的摄像头。采集的方案可以是一体化采集、独立式采集的方案,也可以是传统摄像机加AV/S端子视频采集卡的方案。系统所支持的音频采集设备包括系统定制的声卡、麦克风。除此外,还支持DirectSound调用技术的声卡麦克风输入;支持DirectSound调用技术的声卡Line in输入。系统定制的视频采集设备包括视频编码器、降噪器、声卡和电源转换器,统ー集成在系统前置盒内。其输入ロ为麦克风电平输入端ロ,输出ロ为线路电平输出至音视频语音信息处理计算机(即前端处理平台)。其中一体化采集解决方案采用DV (数码摄像机)作为采集设备,使用1394采集卡或USB接ロ,同时进行视频与音频采集,是ー种方便高效的方式。使用1394中继器可以中继信号,使信号放大延长信号传输距离,最大支持16级串联,每ー级根据使用信号线质量最远可以达到20米传输距离,总计可达200米以上的传输距离。其中独立式采集采用声卡与网络摄像头相结合方式,使用网络摄像头与麦克风结合的输入。在使用该方案的时候,采集用的计算机应配备双声卡,使用一个声卡上的麦克作为现场采集用麦克,另ー个声卡上的麦克做为跟读方式采集用麦克。选定其中任意ー个声卡做为声音回放声卡既可。而传统摄像机加AV/S端子视频采集卡方案使用传统摄像机AV/S端子输出至视频采集卡方式,使用传统摄像机做为音频与视频采集的载体,将采集到的音视频信号通过AV/S端子接ロ传入计算机进行处理、转换与记录。采集设备和前端处理平台之间通过TCP/IP进行通讯。采集设备采集的音视频数据,每隔一定时间存储ー个片段文件,同时将保存好的片段音视频文件传输给处理端,前端处理平台接收完文件后开始对音频文件处理,处理完后通知采集设备端,整个采集数据处 通完成后合并成Iv完整文件。音视频语音处理计算机(前端处理平台)包括音视频语音信息处理系统,參见附图2,该系统包括音频抽取模块、音频流采样频率转换模块、语音分节处理模块、音视频流编码压缩模块、速记模式选择与处理模块、目标文件校对模块以及目标文件后续处理模块。其中音频抽取模块针对输入的音视频信息,抽取音视频文件的语音信息,保留和视频时序对应信息,视频流保持原有样式。音频(语音)流采样频率转换模块进行音频流采样频率转换,对于不同的设备拥有不同的音频采样频率与编码速率,而后面的语音分节处理模块所使用的采样本文档来自技高网...

【技术保护点】
一种音视频语音处理与检索的系统,包括采集设备、音视频信息处理计算机、音视频语音信息检索计算机,其特征在于,所述系统通过安装音视频采集设备来即时记录音视频语音信息,并将所述信息提供给所述音视频语音信息处理计算机进行处理,其处理结果传递给所述音视频语音信息检索计算机进行浏览、检索和打印。

【技术特征摘要】
1.一种音视频语音处理与检索的系统,包括采集设备、音视频信息处理计算机、音视频语音信息检索计算机,其特征在于,所述系统通过安装音视频采集设备来即时记录音视频语音信息,并将所述信息提供给所述音视频语音信息处理计算机进行处理,其处理结果传递给所述音视频语音信息检索计算机进行浏览、检索和打印。2.根据权利要求I所述的音视频语音处理与检索的系统,其特征在于,所述采集设备采用音视频语音采集设备或采用数码摄像机、并使用1394采集卡或USB接口,同时进行视频与语音音频的采集。3.根据权利要求I所述的音视频语音处理与检索的系统,其特征在于,所述采集设备采用声卡与网络摄像头相结合方式。4.根据权利要求I所述的音视频...

【专利技术属性】
技术研发人员:徐信
申请(专利权)人:徐信
类型:实用新型
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1