当前位置: 首页 > 专利查询>微软公司专利>正文

语音索引删减制造技术

技术编号:2823142 阅读:251 留言:0更新日期:2012-04-11 18:40
通过标识语音段的至少两个替换词语序列来索引该语音段。对于该替换序列中的每个词语,信息被置于该索引中该词语的条目中。基于该词语出现在该语音段中的概率与阈值的比较来从该索引中的条目删去语音单元。

【技术实现步骤摘要】
【国外来华专利技术】语音索引删减背景本专利技术涉及索引口语文档,尤其涉及删减口语文档的索引。在大量文档集合中搜索感兴趣的特定文档在计算环境中变得普通。具体 地,对在因特网上找到的网页执行的搜索是由大量的搜索服务来执行的。为了执行这些基于文本的搜索,搜索服务通常构建倒排索引,所述倒排索 引对于搜索服务所覆盖的文档中的找到的每个词语有单独的条目。每个条目列 出可以找到词语的所有文档和文档中可以找到词语的所有位置。许多这些搜索 服务使用位置信息来确定文档是否包含特定顺序和/或彼此在特定距离内的词 语。该顺序和距离信息接着可用于基于输入査询来排列文档,具有与査询相同 顺序的查询词语的文档比其他文档排位更高。没有位置信息,这种基于词语顺 序的文档排序是不可能的。试图对口语文档构建索引,其中口语文档是一个语音信号或者被组合在一 起作为单个实体的多个语音信号。例如,与特定会议或演讲相关联的语音信号 可以被组合成单个口语文档。同样,可以将诸如电影或动画等多媒体文档视为 语音文档。为了索引口语文档,首先必须将语音信号转换成文本。这是通过使用语音 识别系统来解码语音信号来完成的。这种语音识别系统使用声学模型和语言模 型来对可由语音信号表示的可能词语序列评分。在许多系统中,基于语音信号构建可能的词语串的网格(lattice),通过具有最高分的网格的路径被标识为 由语音信号表示的单个词语串。在以往的语音索引系统中,对来自语音信号的文本的该单个最佳估计被用 于创建口语文档的索引。使用来自语音识别器的单个串输出提供了标记口语文 档中特定词语彼此相对的位置的能力。由此,为文本索引而开发的相同的排序 系统可以被应用到这些口语文档索引系统上。不幸的是,语音识别并不完美。结果,所识别出的文本包含错误。这产生 了带有错误的索引,使得系统在搜索期间并不可靠。以上讨论仅提供了一般的背景信息,而并不旨在用于协助确定所要求保护 的主题的范围。 概述语音段是通过为语音段标识至少两个替换的词语序列来索引的。对于替换 序列中的每个词语,信息被置于索引中该词语的条目中。基于词语出现在语音 段中的概率与阈值的比较,从索引中的条目删除语音单元。提供本概述以便用简化的形式介绍将在以下详细描述中进一步描述的一 些概念。本概述并不旨在确定所要求保护的主题的关键或必要特征,也不旨在 用于帮助确定所要求保护的主题的范围。附图简述图l是计算环境的框图。图2是移动设备计算环境的框图。图3A和3B分别是索引语音段和搜索语音段的索引的方法的流程图。 图4是用于索引语音段和搜索语音段的索引的元素的框图。 图5是识别网格的示例。图6示出了分割到各位置中的词语和节点的关联。 图7是位置专用后验网格的示例。 图8是语音索引的一部分的示例。详细描述 示例性环境附图说明图1示出了其中可实现本专利技术的合适的计算系统环境100的一个示例。计 算系统环境100仅为合适的计算环境的一个示例,并非对本专利技术的使用范围或 功能提出任何局限。也不应将计算环境100解释为对示例性操作环境100中示 出的任一组件或其组合具有任何依赖或需求。本专利技术可以使用众多其它通用或专用计算系统环境或配置来操作。适用于 本专利技术的众所周知的计算系统、环境和/或配置的例子包括但不限于,个人计算 机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、电话系统、包括任一上述系统或设备的分布式计算环境等等。本专利技术可以在诸如由计算机执行的程序模块等计算机可执行指令的一般 上下文环境中描述。 一般而言,程序模块包括例程、程序、对象、组件、数据 结构等等,它们执行特定的任务或实现特定的抽象数据类型。 一些实施例被设 计成在分布式计算环境中实践,其中,任务由通过通信网络链接的远程处理设 备来执行。在分布式计算环境中,程序模块可以位于包括存储器存储设备的本 地和远程计算机存储介质中。参考图1,用于实现一些实施例的示例性系统包括计算机110形式的通用 计算设备。计算机110的组件可包括,但不限于,处理单元120、系统存储器 130以及将包括系统存储器的各类系统组件耦合至处理单元120的系统总线 121。系统总线121可以是若干种总线结构类型的任一种,包括存储器总线或 存储器控制器、外围总线以及使用各类总线体系结构的任一种的局部总线。作 为示例而非局限,这类体系结构包括工业标准体系结构(ISA)总线、微通道 体系结构(MCA)总线、增强ISA (EISA)总线、视频电子技术标准协会(VESA) 局部总线以及外围部件互连(PCI)总线,也称为Mezzanine (小背板)总线。计算机110通常包括各种计算机可读介质。计算机可读介质可以是可由计算机IIO访问的任一可用介质,包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非局限,计算机可读介质包括计算机存储介质和通信介质。 计算机存储介质包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任一方法或技术实现的易失性和非易失性,可移动和不可移 动介质。计算机存储介质包括但不限于,RAM、 ROM、 EEPROM、闪存或其 它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁 带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机 110访问的任一其它介质。通信介质通常具体化为诸如载波或其它传输机制的 已调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据,并包 括任一信息传送介质。术语"已调制数据信号"指以对信号中的信息进行编码 的方式设置或改变其一个或多个特征的信号。作为示例而非局限,通信介质包 括有线介质,如有线网络或直接有线连接,以及无线介质,如声学、RF、红外和其它无线介质。上述任一的组合也应当包括在计算机可读介质的范围之内。系统存储器130包括易失性和/或非易失性存储器形式的计算机存储介质, 如只读存储器(ROM) 131和随机存取存储器(RAM) 132。基本输入/输出系 统133 (BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基 本例程,通常储存在ROM 131中。RAM 132通常包含处理单元120立即可访 问和/或当前正在操作的数据和/或程序模块。作为示例而非局限,图1示出了 操作系统134、应用程序135、其它程序模块136和程序数据137。计算机110也可包括其它可移动/不可移动、易失性/非易失性计算机存储 介质。仅作示例,图l示出了对不可移动、非易失性磁介质进行读写的硬盘驱 动器141,对可移动、非易失性磁盘152进行读写的磁盘驱动器151以及对可 移动、非易失性光盘156,如CD ROM或其它光介质进行读写的光盘驱动器 155。可以在示例性操作环境中使用的其它可移动/不可移动、易失性/非易失性 计算机存储介质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口, 如接口 140连接到系统总线121,磁盘驱动器151和光盘驱动器155通常通过 可移动存储器接口,如接口 150连接到系统总线121。上文讨论并在图1示出的驱动器及其关联的计算机存储介质为计算机本文档来自技高网...

【技术保护点】
一种索引语音段的方法,所述方法包括:    基于所述语音段标识至少两个替换语音单元序列(306);    对于所述至少两个替换语音单元序列中的每个语音单元,将指示所述两个替换语音单元序列的至少一个中的语音单元的位置以及所述语音单元出现在所述位置的概率的信息置于所述所述索引的条目中(312);以及    基于所述概率与阈值的比较,从所述索引的条目删去语音单元(313)。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:A阿塞罗CI克尔伯JSF桑切斯
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1