电信网络中的语音处理制造技术

技术编号:8981123 阅读:165 留言:0更新日期:2013-07-31 23:12
本发明专利技术涉及电信网络中的语音处理。描述了用于在电信网络中进行语音处理的系统和方法。在某些实施例中,一种方法可以包括接收通过网络传输的语音,使该语音转换为文本以及响应于匹配于与预定语音相关联的存储文本的文本,将该语音标识为预定语音。例如通过使预定语音遭受网络损害条件而获得存储文本。该方法还可以包括标识与存储文本内的术语匹配的文本内的术语(例如,尽管不是彼此相同),计算文本与存储文本之间的分数以及响应于符合阈值的分数来确定文本匹配于存储文本。在某些情况中,该方法还可以基于多个存储文本中选择的一个来标识多个语音之一。

【技术实现步骤摘要】

本说明书一般地涉及语音处理,并且更特别地涉及用于在电信网络中处理语音的系统和方法。
技术介绍
存在如下各种情况,在这些情况中,可以在电信网络的两个端点之间传输口头句(verbal sentence)或提示。被配置为传输音频或语音信号的电信设备的示例包括但不限于交互话音响应(IVR)服务器和自动通告系统。此外,存在其中电信公司、运营商或其他实体可能希望验证和/或标识此类设备播放的音频的实例。出于示范的原因,银行可能期望测试适当的问候消息是否根据呼叫时间被提供给入站主叫。在该情况中,银行可能需要核实例如当在营业时间期间接收到电话呼叫时播放第一自动消息(例如,“感谢您致电;请从以下菜单选项中选择…”),以及当在那些时间之外接收到呼叫时播放不同的消息(例如,“我们的办公时间是星期一至星期五上午9点至下午4点;请在该时间期间回电…”)。由于本专利技术人已经认识到,然而这些口头句和提示例行地跨不同类型的网络(例如,计算机网络和无线电话网络)传播。而且,网络通常在不同和改变的损害、条件、停机等之下操作,因此不经意地改变传输的音频信号。在这些类型的环境中,否则将在正常条件下被识别的音频信号可能变得完全无法辨认。因此,本专利技术人除其他事物之外已经认识到需要验证和/或标识音频信号,音频信号例如包括遭受各种网络条件和/或损害的不同网络设备播放的语音信号
技术实现思路
在此描述了用于在电信网络中处理语音的系统和方法的实施例。在示范性非限制性实施例中,一种方法可以包括接收通过网络传输的语音,使该语音转换为文本以及响应于匹配于与预定语音相关联的存储文本的文本,将该语音标识为预定语音。例如通过使预定语音遭受网络损害条件而获得存储文本。在某些实现中,语音可以包括交互话音响应(IVR)系统生成的信号。此外或替代地,语音可以包括关于一个或多个计算机系统远程定位的用户提供的音频命令,该音频命令被配置为控制一个或多个计算机系统。而且,网络损害条件可以包括以下至少一个:噪声、丢包率、延迟、抖动、拥塞、低带宽编码或低带宽解码。在某些实施例中,将语音标识为预定语音可以包括标识匹配于存储文本内一个或多个术语的文本内的一个或多个术语,至少部分地基于一个或多个术语的标识计算文本与存储文本之间的匹配分数,以及响应于符合阈值的匹配分数确定文本与存储文本匹配。而且,标识匹配于存储文本内的一个或多个术语的文本内的一个或多个术语可以包括将模糊逻辑应用于文本和存储文本中的术语。在某些情况中,应用模糊逻辑可以包括将文本中的第一术语与存储文本中的第二术语比较而无关第一或第二文本中术语的排序。此外或替代地,应用模糊逻辑可以包括确定文本中的任何术语最多与存储文本中的另一术语匹配。在某些实现中,该方法可以包括响应于(a)第一和第二术语中在前数量(leadingnumber)的字符彼此匹配;以及(b)第一和第二术语中的不匹配字符的数量小于预定值来确定文本中的第一术语和存储文本中的第二术语匹配,尽管彼此不相同。此外或替代地,可以响应于(a)第一和第二术语中在前数量(leading number)的字符彼此匹配;以及(b)在前数量的字符大于预定值来进行此类确定。而且,计算文本与存储文本之间的匹配分数可以包括计算匹配于存储文本内的一个或多个术语的文本内的一个或多个术语的第一数量的字符与匹配于文本内的一个或多个术语的存储文本内的一个或多个术语的第二数量的字符的第一和,计算文本和存储文本中的字符的总数量的第二和,以及将第一和除以第二和。在将语音信号标识为预定语音之前,该方法还可以包括通过使预定语音遭受网络损害条件来创建相异语音信号并且使相异语音信号被转换为相异文本。然后,该方法继而可以包括将相异文本存储为存储文本,该存储文本与网络损害条件相关联。在另一示范性非限制性实施例中,方法可以包括标识源自通过电信网络接收的语音信号的语音到文本转换的文本。该方法还可以包括针对多个存储文本中的每个计算指示给定存储文本与接收文本之间的匹配度的分数,多个存储文本中的每个对应于遭受电信网络的损害条件的预定语音的语音到文本转换。该方法还可以包括在多个存储文本中选择具有最高分数的存储文本作为匹配于接收文件。在又一示范性非限制性实施例中,一种方法可以包括通过使原始语音遭受电信网络的实际或仿真的损害条件来创建相异语音,将相异语音信号改写(transcribe)为相异文本,并且存储相异文本。例如,可以与损害条件的指示相关联地存储相异文本。该方法还可以包括将通过网络接收的语音信号改写为文本并且响应于文本匹配于相异文本来将语音信号标识为匹配原始语音。 在某些实施例中,在此描述的一个或多个方法可以由一个或多个计算机系统执行。在其他实施例中,有形计算机可读存储介质可以具有存储于其上的程序指令,在一个或多个计算机或网络监视系统执行时,程序指令使一个或多个计算机系统执行在此公开的一个或多个操作。在又一实施例中,系统可以包括至少一个处理器和耦合至至少一个处理器的存储器,该存储器被配置为存储可由至少一个处理器执行用于执行在此公开的一个或多个操作的程序指令。附图说明现在将参考附图,其中: 图1是根据某些实施例的语音处理系统的框图。图2是根据某些实施例的语音处理软件程序的框图。图3A和3B是根据某些实施例的基于网络损害条件创建相异或期望文本的方法的流程图。图4是根据某些实施例的语音处理数据库中存储的元素的框图。图5和6是根据某些实施方式的在损害网络条件下标识语音的方法的流程图。图7是根据某些实施例的基于接收语音标识网络损害的方法的流程图。图8是根据某些实施例的被配置为实现在此描述的某些系统和方法的计算机系统的框图。虽然该说明书提供了若干实施例和示范性图,但是本领域技术人员将认识到本说明书不仅限于描述的实施例或图。应该理解,图和详细的描述不旨在将说明书限制为公开的特定形式,但是,相反,目的是覆盖落在权利要求书的精神和范围内的所有修改、等同和替代方案。而且,在此使用的任何标题仅出于组织目的并且不旨在限制描述的范围。如在此使用的,词语“可以”意味着传达容许意义(即,意味着“具有潜在性”),而不是强制意义(即,意味着“必须”)。类似地,词语“包括”、“包含”和“包容”意味着“包括但不限于”。具体实施方式转到图1,根据某些实施例示出了语音处理系统的框图。如图所示,语音探测器100可以连接至网络140并且被配置为连接至(一个或多个)测试单元110、IVR服务器120或(一个或多个)通告端点130中的一个或多个。在某些实施例中,语音探测器100可以被配置为监视(一个或多个)测试单元110与IVR服务器120或(一个或多个)通告端点130之间的通信。在其他实施例中,语音探测器100可以被配置为发起与IVR服务器120或(一个或多个)通告端点130的通信。在又一实施例中,语音探测器100可以被配置为从(一个或多个)测试单元110接收一个或多个命令。例如,响应于接收一个或多个命令,语音探测器100可以发起、终止、改变或否则控制网络测试处理等。可以例如基于传送的内容类型、网络140的类型和/或设备100-130的功能来选择用于实现图1中发生的通信的协议。一般而言,(一个或多个)测试单元110可以包括固定线电话、无线电话、计算机系统(例如,个人计算本文档来自技高网...

【技术保护点】
一种方法,包括:一个或多个计算机系统执行:接收通过网络传输的语音;使所述语音转换为文本;以及响应于匹配于与预定语音相关联的存储文本的文本来将语音标识为所述预定语音,通过使所述预定语音遭受网络损害条件来获得所述存储文本。

【技术特征摘要】
1.一种方法,包括: 一个或多个计算机系统执行: 接收通过网络传输的语音; 使所述语音转换为文本;以及 响应于匹配于与预定语音相关联的存储文本的文本来将语音标识为所述预定语音,通过使所述预定语音遭受网络损害条件来获得所述存储文本。2.根据权利要求1所述的方法,其中所述语音包括交互性话音响应(IVR)系统生成的信号。3.根据权利要求1所述的方法,其中所述语音包括关于所述一个或多个计算机系统远程定位的用户提供的音频命令,所述音频命令被配置为控制所述一个或多个计算机系统。4.根据权利要求1所述的方法,其中所述网络损害条件包括至少一个:噪声、丢包率、延迟、抖动、拥塞、低带宽编码或低带宽解码。5.根据权利要求1所述的方法,其中将所述语音标识为所述预定语音还包括: 标识匹配于所述存储文本内的一个或多个术语的所述文本内的一个或多个术语; 至少部分地基于所述一个或多个术语的标识来计算所述文本与所述存储文本之间的匹配分数;以及 响应于符合阈值的所述匹配分数来确定所述文本匹配于所述存储文本。6.根据权利要求5所述的方法,其中标识匹配于所述存储文本内的一个或多个术语的所述文本内的一个或多个术语还包括: 将模糊逻辑应用于所述文本和所述存储文本中的术语。7.根据权利要求6所述的方法,其中应用所述模糊逻辑还包括: 将所述文本中的第一术语与所述存储文本中的第二术语比较而无关第一或第二文本中术语的排序。8.根据权利要求7所述的方法,其中应用所述模糊逻辑还包括: 确定所述文本中的任何术语最多与所述存储文本中的另一术语匹配。9.根据权利要求6所述的方法,其中应用所述模糊逻辑还包括响应于 第一和第二术语中在前数量的字符彼此匹配;以及 第一和第二术语中的未匹配字符的数量小于预定值; 来确定所述文本中的第一术语和所述存储文本中的第二术语匹配,尽管彼此不相同。10.根据权利要求6所述的方法,其中应用所述模糊逻辑还包括响应于 第一和第二术语中在前数量的字符彼此匹配;以及 在前数量的字符大于预定值; 来确定所述文本中的第一术语和所述存储文本中的第二术语匹配,尽管彼此不相同。11.根据权利要求5所述的方法,其中计算所述文本与所述存储文本之间的匹配分数还包括: 计算匹配于所述存储文本内的一个或多个术语的所述文本内的一个或多个术语的第一数量的字符与匹配于所述文本内的一个或多个术语的所述存储文本内的一个或多个术语的第二数量的字符的第一和; 计算所述文本和所述存储文本中的字符的总数量的第二和;以及将所述第一和除以所述第二和。12.根据权利要求1所述的方法,还包括在将语音信号标识为所述预定语音之前: 通过使所述预定语音遭受所述网络损害条件来创建相异语音信号; 使所述相异语音信号被转换为相异文本;以及 将所述相异文本存储为所述存储文本,所述存储文本与所述网络损害...

【专利技术属性】
技术研发人员:钟济浩S普兰特陈蓁蓁谢集平
申请(专利权)人:特克特朗尼克公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1