当前位置: 首页 > 专利查询>微软公司专利>正文

基于话音特征自动标识电话呼叫者制造技术

技术编号:3560600 阅读:201 留言:0更新日期:2012-04-11 18:40
提供对从呼叫者到接收者的呼叫的呼叫者进行标识的一种方法和装置。从所述呼叫者接收话音输入,并将所述话音输入的特征应用到多个声学模型,以得到多个对应的声学得分,其中,所述多个声学模型包括一通用声学模型和任何先前被标识的呼叫者的声学模型。基于所述多个声学得分,所述呼叫者被标识为先前被标识的呼叫者之一或新的呼叫者。如果呼叫者被标识为新的呼叫者,就为所述新的呼叫者生成一新的声学模型,它对所述新的呼叫者是专用的。

【技术实现步骤摘要】

本专利技术涉及基于话音特征对呼入电话呼叫的呼叫者进行自动标识的计算机实现的方法和装置,尤其涉及路由和筛选呼入电话呼叫的计算机化语音识别技术。
技术介绍
在电话通信系统中,呼叫中心通常被用于基于呼叫者对自动提示的响应来路由和预筛选呼叫。这种提示—响应机制通常非常耗时,因为呼叫者在被路由到所期望的呼叫接收者或信息数据库前必须通过大量提示。另外,这种机制依赖呼叫者以正确地遵循提示命令。如果呼叫者不和提示命令合作,则呼叫就不能被准确地路由。类似地,呼叫筛选机制依赖于呼叫者真实地响应筛选命令的合作。这使呼叫者和接收者难以准确且有效地路由和筛选呼叫。所以,已提出了语音识别系统以辅助呼叫路由过程。但是,这种语音识别系统也依赖于提示—响应机制,其中,呼叫者必须响应预定提示。例如,系统可能要求呼叫者陈述呼叫者的名字和/或陈述表示该呼叫的主题或所期望的接收者的身份的预定的单词或单词序列。再一次,这些系统只有在呼叫者真实地响应预定提示时才有效。另外,对不同呼叫者的话音输入特征的广泛范围,用来确定语音的内容的语音识别模型必须能够准确对这些内容进行分段。所以,这种系统可能还保持耗时或不准确,并可能被不合作的呼叫者毫不费力地绕过。所以,需要基于话音特征对呼入电话呼叫进行自动预筛选和路由的改进的方法和装置。
技术实现思路
本专利技术的一个实施例针对一种对从呼叫者到接收者的呼叫的呼叫者进行标识的方法。从呼叫者接收话音输入,并将话音输入的特征应用到多个声学模型,以得到多个相应的声学得分。多个声学模型包括通用声学模型和任何先前被标识的呼叫者的声学模型。基于多个声学得分,呼叫者被标识为先前被标识的呼叫者之一或新的呼叫者。如果呼叫者被标识为新的呼叫者,就为该新的呼叫者生成一新的声学模型,它对该新的呼叫者是专用的。本专利技术的另一个实施例针对一种对从呼叫者到接收者的呼叫的呼叫者进行标识的系统。该系统包括接收来自呼叫者的话音输入的接收器,和存储多个声学模型的声学模型库。多个声学模型包括通用声学模型和任何先前被标识的呼叫者的声学模型。该系统还包括用于把话音输入的特征应用到多个声学模型以产生多个对应的声学得分,并用于基于多个声学得分把呼叫者标识为先前被标识的呼叫者之一或新的呼叫者的模块。如果通用声学模型的声学得分好于多个先前被标识的呼叫者的声学模型的声学得分,则声学模型发生器就为新的呼叫者生成新的声学模型。本专利技术的又一实施例针对一种包含计算机可执行的指令的计算机可读媒质,当由计算机执行指令时,执行标识呼叫的呼叫者的方法。该方法包括接收来自呼叫者的话音输入,和把话音输入的特征应用到多个声学模型,以得到多个对应的声学得分。多个声学模型包括通用声学模型和任何先前被标识的呼叫者的声学模型。基于多个声学得分,呼叫者被标识为先前被标识的呼叫者之一或新的呼叫者。如果呼叫者被标识为新的呼叫者,就为这个新的呼叫者生成新的声学模型,它对新的呼叫者是专用的。本专利技术的再一实施例针对一种对呼叫者进行标识的方法,其中,从呼叫者接收话音输入。使用呼叫者不相关的通用声学模型,话音输入被分割成一已识别语音单元序列。话音输入的特征被应用到在多个声学模型中的已识别语音单元的语音单元模型序列,其中,多个声学模型包括通用声学模型和任何先前被标识的呼叫者的声学模型。基于话音输入的特征吻合多个声学模型的程度,呼叫者被标识为先前被标识的呼叫者之一或新的呼叫者。附图说明图1是按照本专利技术的一个实施例以常规个人计算机形式实现本专利技术的示例性系统的方框图。图2是按照本专利技术的一个实施例标识呼叫者的模块的系统的更详细的方框图。图3所示是作为时间的函数的从呼叫者接收的声学输入“波”的波形图。图4所示是为图3所示的声学输入生成的一组特征矢量的图。图5所示是一个语音单元的基本隐马尔可夫模型(HMM)的状态图。图6所示是可以用在本专利技术的一个实施例中的简化语言模型的例子的图。图7所示是按照本专利技术的一个实施例对到接收者的电话呼叫的呼叫者进行标识的计算机执行的过程的流程图。图8所示是按照本专利技术的一个实施例在图7所示的过程中检测新的呼叫者或先前被标识的呼叫者的流程图。图9所示是按照本专利技术的一个实施例训练呼叫者专用语言模型以按呼叫的内容检测呼叫者的流程图。具体实施例方式图1和相关的论述是为了提供可以在其中实现本专利技术的合适的计算环境的简短概括的描述。虽然并非所需,本专利技术将至少部分地在例如由个人计算机或其它计算设备执行的程序模块等计算机可执行指令的通用环境中被描述。一般而言,程序模块包括完成特定任务或实现特定抽象数据类型的例行程序、对象、组件、数据结构等。另外,本领域的技术人员会理解,本专利技术可以在其它计算机系统配置中被实现,包括手持设备、多处理器系统、基于微处理器或可编程的消费电子设备、网络PC、小型机和大型计算机等等。本专利技术也可以在由通过通信网络连接的远程处理设备完成任务的分布式计算环境中被实现。在分布式计算环境中,程序模块可以位于本地和远程存储器存储设备两者中。参考图1,实现本专利技术的示例性系统包括常规个人计算机20形式的通用计算设备,包括处理单元(CPU)21、系统存储器22和把包括系统存储器22在内的各种系统元件耦合到处理单元21的系统总线23。系统总线23可以是任何几种总线结构的一种,包括存储器总线或存储器控制器、外围总线和使用任何各种总线结构的局部总线。系统存储器22包括只读存储器(ROM)24和随机存取存储器(RAM)25。基本输入/输出(BIOS)26,包含例如在启动时帮助在个人计算机20中的元件之间传输信息的基本例程,被存储在ROM 24中。个人计算机20还包括用于对硬盘(未示出)进行读写的硬盘驱动器27、用于对可移动磁盘29进行读写的磁盘驱动器28、以及用于对诸如CD ROM或其它光媒质等可移动光盘31进行读写的光盘驱动器30。硬盘驱动器27、磁盘驱动器28和光盘驱动器30分别通过硬盘驱动器接口32、磁盘驱动器接口33和光盘驱动器接口34连接到系统总线23。驱动器和关联的计算机可读媒质为个人计算机20提供计算机可读指令、数据结构、程序模块和其它数据的非易失性存储。虽然这里描述的示例性环境使用了硬盘、可移动磁盘29和可移动光盘31,本领域的技术人员应当理解,能够存储计算机能够存取的数据的其它类型的计算机可读媒质也可以被使用在示例性操作环境中,例如磁带盒、闪存卡、数字视频盘、柏努利盒式磁带、随机存取存储器(RAM)和只读存储器(ROM)等。许多程序模块可以被存储在硬盘、磁盘29、光盘31、ROM 24或RAM 25中,包括操作系统35、一个或多个应用程序36、其它程序模块37和程序数据38。用户可以通过诸如键盘40、定位设备42和麦克风43等本地输入设备向个人计算机20输入命令和信息。其它输入设备包括操纵杆、游戏垫、圆盘式卫星天线和扫描仪等。这些和其它输入设备通常通过被耦合到系统总线23的串行端口接口46被连接到处理单元21,但也可以通过其它接口,例如声卡、并行端口、游戏端口或通用串行总线(USB)连接。监视器47或其它类型的显示设备通过诸如视频适配器48等接口被连接到系统总线23。除了显示器47之外,个人计算机通常可包括其它外围输出设备,例如扬声器45和打印机(未示出)。个人计算机20可以在使用逻辑连接到例如远程本文档来自技高网...

【技术保护点】
一种标识从呼叫者到接收者的呼叫的呼叫者的方法,其特征在于,所述方法包括:    (a)从所述呼叫者接收话音输入;    (b)把所述话音输入的特征应用到多个声学模型以获得多个对应的声学分数,所述多个声学模型包括一通用声学模型和任何先前标识的呼叫者的声学模型;    (c)基于所述多个声学分数,把所述呼叫者标识为所述先前标识的呼叫者之一或新的呼叫者;以及    (d)如果在步骤(c)中所述呼叫者被标识为新的呼叫者,则为所述新的呼叫者生成一新的声学模型,该模型对所述新的呼叫者是专用的。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:A帕斯科维西
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利