用于提高音频质量的听写客户端反馈制造技术

技术编号:8327723 阅读:200 留言:0更新日期:2013-02-14 13:47
提供了一种音频质量反馈系统和方法。该系统经由诸如麦克风的通信装置从客户端接收音频。该音频质量反馈系统将接收到的音频与关于反馈质量的一个或多个参数进行比较。这些参数包括例如:限幅、静音时间、信噪比。基于该比较,生成反馈以允许对通信装置或通信装置的使用进行调整,以改善音频质量。

【技术实现步骤摘要】
【国外来华专利技术】根据35 U.S.C§§119和120要求优先权本申请要求提交于2010年3月30日的第61/319,078序列号,名称为“DICTATION CLIENT FEEDBACK TO FACILITATE AUDIO QUALITY”的美国临时专利申请的利益,在此结合其全文作为参考。对其他共同待审的专利申请的参考无。
本申请的技术一般涉及听写系统,更具体而言,涉及向听写用户提供关于所听写的音频的质量的反馈,以允许在进行听写的同时进行校正。
技术介绍
原本听写是一种由一个人口述同时另一个人将口述内容记录下来的练习。记录员收听并写下口述的内容。使用现代化技术,听写已经进步到这样一个阶段,其中话音辨识和语音到文本技术使得计算机和处理器能够起到记录员的作用。当前的技术已经产生基本上两种基于听写和转录的计算机风格。一种风格包括将软件加载到机器上,以接收和转录口述内容,其通常被称为客户侧听写。机器实时或接近实时地转录口述内容。另一种风格包括保存口述音频文件,并将口述音频文件发送到中央服务器,其通常被称为服务器侧批处理听写。中央服务器转录音频文件并返回转录脚本。这种转录经常是在几小时,或类似时间之后完成,此时服务器具有较少的处理需求。在客户端侧听写或服务器侧听写这两种情况中的任一种中,必须由系统来捕捉音频。将该音频文件提供给语音到文本引擎,其将该音频文件转录成文本数据文件。该文本数据文件的质量(即,转录音频文件的精确度)部分取决于由该系统接收到并流入或上载到转录引擎的音频信号的质量。然而,除了提供转录地较差的音频文件以外,目前现有的听写和转录系统并不向听写客户端提供任何关于音频文件质量的反馈。但是,在某些情况下,低劣的转录质量是由于捕捉饱和声、限幅声、乱码声音等等的音频文件引起的。因此,希望能向听写客户端提供关于音频文件质量的信息(换句话说就是反馈)。因此,依据这样的背景,期望开发出听写客户端反馈来改善音频文件质量。
技术实现思路
本专利技术的技术的各方面,提供了远程客户机,其仅需要能够经由流式连接将音频文件发送给听写管理器或听写服务器。听写服务器可依据系统的配置,经由听写管理器或经由直接连接返回转录结果。在一些实施例中,设备被提供成包括被耦合到第一网络的听写管理器,第一网络从客户站接收音频文件。该听写管理器被配置成将从客户站接收到的音频文件发送给听写服务器,该听写服务器将音频文件转录成文本文件的。与该管理器相关联的存储器被配置成按需要存储音频文件。音频质量管理器从存储器获取音频并将音频信号与涉及信号质量的至少一个参数进行比较。基于该比较,音频质量管理器发送配置调整,该配置调整一旦被实施,将起到改善转录质量的作用。在另一些实施例中,在至少一个处理器上执行评估从客户站接收到的用于听写的音频文件的质量的方法。该方法包括从客户站接收音频文件,以及将从客户站接收的音频文件与至少一个关于音频质量的预定参数进行比较。基于该比较,发送关于如何改善所接收到的音频质量的信息。在又另一些实施例中,提供了一种系统。该系统包括客户站,其具有例如麦克风的通信装置。客户站被耦合到听写管理器,该听写管理器被配置成从客户站接收音频,并向听写服务器发送音频。该音频可以流式处理或批处理。该听写服务器包括语音到文本引擎,其将音频转换成文本文件。音频质量管理器被耦合到听写管理器以及至少一个存储器,该存储器包含可用于确定听写管理器接收到的音频的质量的参数数据。在本技术的一些方面,参数数据涉及在话语之前的静音(silence)或在话语之后的静音(silence)中的至少一个,以确保语音到文本引擎正在接收的是完整的话语。不能提供足够的静音可能导致话语被截断。在本技术的另一些方面,参数数据包括至少一个限幅。限幅与使得放大器饱和的音频信号的音量或振幅相关,这造成了音频的失真。在本技术的又另一方面,参数数据涉及信噪比。信噪比越低(即,背景噪声越高),音频将越可能被不正确地转换。在考虑了本文中的详细说明和附图之后,本系统和方法这些以及其它方面将变得显而易见。然而,将要理解的是,本专利技术的范围将由权利要求书来确定,而不是通过所给出的主题是否解决了在
技术介绍
中所提出的任何的或所有的问题或包括在
技术实现思路
中所记述的任意特征或方面所确定的。附图说明图1是符合本申请技术的示范性系统的功能框图;图2是符合本申请技术的示范性系统的功能框图;图3是说明符合本申请技术的方法的功能框图;图4是符合本申请技术的示范性图形用户界面的功能框图;以及图5是示范性波形。具体实施方式现在将参考图1至图5说明本申请的技术。虽然本申请的技术是参考远程听写服务器进行说明的,该远程听写服务器经由网络或互联网连接被连接至听写客户端以使用常规的流式协议通过互联网连接提供流式音频,但是本领域普通技术人员在阅读公开内容之后将认识到其它配置也是可能的。例如,本申请的技术是相对于瘦客户站(thin client station)来说明的,但是更多处理器强化选项可在厚的或胖客户端中利用。此外,本申请的技术是相对于某些示范性实施例来说明的。在此使用的措辞“示范性”意思是“起到举例、实例,或说明的作用”。在此描述为“示范性”的任何实施例均无需被解释成比其它实施例更优选或有利。在此所描述的所有实施例都应被认为是示范性的,除非另外声明。首先参考图1,提供了一种分布式听写系统100。分布式听写系统100可提供对听写的实时的或接近实时的转录,其中接近实时的方式允许有与传输时间、处理等相关联的延迟。当然,可以将延迟加入到系统中,以允许例如用户能够选择是使用实时的还是批处理的转录服务。例如,允许批处理的转录服务,系统100可将音频文件缓存在客户端装置、服务器、转录引擎或类似装置中,以允许在以后将该音频文件转录成可返回到客户站或在以后由客户机重新取回的文本。正如分布式听写系统100所示出的,一个或多个的客户站102通过第一网络连接106连接到听写管理器104。第一网络连接106可以是任意编号的协议,以允许使用标准互联网协议进行音频信息的传输。客户站102将经由客户端通信装置108从用户接收音频(即,口述内容),这在本示例中被示出为头戴式耳机108h和麦克风108m,或类似装置。麦克风108m起到常规麦克风的作用,并向客户站102提供音频信号。该音频可被保存在与客户站102相关联的存储器中,或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.03.30 US 61/319,0781.一种装置,包括:
听写管理器,其被耦合到从客户站接收音频文件的第一网络,所述听写
管理器被配置成将从所述客户站接收的所述音频文件发送给听写服务器,该
听写服务器将所述音频文件转录成文本文件;
存储器,其被耦合到所述听写管理器,所述存储器被配置成存储通过所
述听写管理器接收的所述音频文件;以及
音频质量管理器,其被耦合到所述听写管理器,以提供关于所述音频文
件中的音频的质量的信息,所述音频质量管理器包括处理器,以比较来自所
述客户站的所述音频文件与至少一个参数,该参数影响被存储在耦合到所述
音频质量管理器的存储器中的音频质量,并发送将要被接收的配置调整,其
中,所述配置调整的实现起到改善接收到的音频文件的质量的作用,这将改
善转录的质量。
2.如权利要求1所述的装置,其中,所述第一和第二网络相同。
3.如权利要求2所述的装置,其中,所述第一和第二网络是总线协议。
4.如权利要求1所述的装置,其中,所述第一网络选自于以下网络构成
的组:互联网、本地网、广域网、无线局域网、wifi网络、蓝牙网络、wimax、
以太网、蜂窝式网络或者其组合。
5.如权利要求1所述的装置,其中,使用短消息服务、email或语音邮
件发送所述配置调整。
6.如权利要求1所述的装置,其中,所述至少一个参数包括确定所述音
频文件是否至少具有在首次话语之前的一个前端静音时间段,在最后的话语
之后的末端静音时间段或者它们的组合。
7.如权利要求1所述的装置,其中,所述配置调整包括要求所述客户在
具有足够的时间用于将被接收的话语的情况下激活或去激活所述记录。
8.如权利要求1所述的装置,其中,所述至少一个参数包括确定所述音
频文件是否被限幅。
9.如权利要求8所述的装置,其中,所述配置调整包括要求所述客户减
小说话音量。
10.如权利要求1所述的装置,其中,所述至少一个参数包括确定所述
音频文件的信噪比是否...

【专利技术属性】
技术研发人员:P福克斯M克拉克J福尔廷斯基
申请(专利权)人:NVOQ股份有限公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1