利用语音识别访问和检索媒体文件的系统和方法技术方案

技术编号:3048442 阅读:270 留言:0更新日期:2012-04-11 18:40
一种用于播放媒体文件的嵌入式设备,可以基于用户的输入语音生成媒体文件播放列表。该嵌入式设备包括生成多个语音识别语法的索引器。根据本发明专利技术的一方面,索引器基于媒体文件的媒体文件头的内容生成语音识别语法。根据本发明专利技术的另一方面,索引器基于用于从用户位置检索媒体文件的文件路径中的种类生成语音识别语法。当语音识别器在选择模式中从用户接收输入语音(404)时,媒体文件选择器将在选择模式中接收到的输入语音与多个语音识别语法进行比较(410),从而选择媒体文件(418)。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术主要涉及索引与检索的方法和系统,更具体地,涉及基于文件的文本描述利用语音识别来选择媒体文件。
技术介绍
诸如MP3播放器等用于播放媒体文件的嵌入式设备的显示和手动输入能力有限。例如,由于空间有限,显示空间因此不会很大,所以不能显示大量的信息。而且,由于空间有限,因此不能提供很多的功能键,所以完整的正文输入很困难和经常不可能有完整的正文输入。结果,查找、存储和检索MP3文件等任务的工作量就很大,并且经常使得用户执行起来很费劲。由于这些原因以及一些类似的原因,已经开发出使用语音识别来访问各种数据库的嵌入式设备。遗憾的是,语音识别应用于嵌入式设备并没有使得语音识别不再仅仅作为一个人机交互中的输入,其中人机交互的范例主要有按键、微调度盘和触摸屏等。因此,在先前的应用中,只是将输入语音作为同使用微调度盘或某项功能的工作方式相类似的另一个操纵菜单的命令。因此,对于嵌入式设备来说,仍然需要围绕着语音识别和语音设别技术来获取信息。本专利技术提供了这样的设备。
技术实现思路
根据本专利技术,播放媒体文件的嵌入式设备可以基于用户的输入语音生成媒体文件播放列表。该嵌入式设备包括用于产生多个语音识别语法的索引器(indexer)。根据本专利技术的一个方面,索引器基于媒体文件的媒体文件头内容生成语音识别语法。根据本专利技术的另一方面,索引器基于用于从用户位置(user location)检索媒体文件的文件路径中的种类生成语音识别语法。当语音识别器在选择模式中从用户接收输入语音时,媒体文件选择器将在选择模式中接收到的输入语音与多个语音识别语法进行比较,从而选择媒体文件。由于用户可以通过语音输入选择媒体文件,而不需要费劲去产生用于检索文件的索引系统,所以根据本专利技术的嵌入式设备比之前的媒体文件播放器更有优势。本专利技术在播放MP3格式的声音文件中特别具有优势,特别是播放音乐文件中具有优势,该类文件的文件头中通常包含了描述性文本(例如名称、艺术家、日期)。描述性文本对产生语音识别语法非常有帮助,其中语音识别语法有助于以对于用户是直觉的方式进行语音驱动搜索。不过,本专利技术并不局限于MP3格式的声音文件或者音乐文件,而对于选择多种内容类型、不同格式和多层的媒体文件都非常有用。根据下面的详细描述可以清楚了解本专利技术的其它应用范围。可以意识到,下面的详细说明以及特定的示例指明了本专利技术的较佳实施例,但仅仅用于对本专利技术进行说明,并不用于对本专利技术的范围进行限定。附图说明从下面的详细说明以及附图可以更好地理解本专利技术,其中图1为根据本专利技术的嵌入式设备访问计算机网络中媒体文件的局部结构图。图2为根据本专利技术用于给媒体文件编索引而生成语法的方法的数据流程图。图3A和图3B为根据本专利技术的给媒体文件编索引的可选方法的流程图。图4为根据本专利技术产生临时播放列表的方法的流程图。图5为根据本专利技术产生存储的、可编辑播放列表的方法的流程图。具体实施例方式下面对优选实施例的详细说明实质上只是示范性的,并不用于对本专利技术及其应用或者使用进行限定。根据本专利技术和参照图1,嵌入式设备100具有有限的用于显示播放列表的显示器102和多功能操作按钮104。连同音频输入108和音频输出110一起,还提供了微调度盘106。还提供了例如安全数码(Secure Digital,SD)卡等的数据存储器112。嵌入式设备100可以通过无线或者蓝牙等数据链接116访问诸如互联网等计算机网络114。在操作中,用户利用语音输入和/或手动输入来浏览计算机网络114,并定位感兴趣的媒体文件118。例如,用户可以下载媒体文件118到数据存储器112,以便将来闲暇时进行访问。在另一个例子中,用户可以使用诸如由专有服务器122提供的电子活动指南(EAG)120来确定互联网上包含媒体文件的流媒体的可用性。用户可以选择保存用于发出流请求的信息,从而以流媒体的形式接收媒体文件118。根据本专利技术,创建索引以检索包括语音识别语法的媒体文件,语音识别语法由媒体文件头124的内容,指向计算机网络上媒体文件的文件路径的描述性文本,比如描述性地对数据库内容进行分类的数据库126的名字,和/或例如由EAG 120提供的流派、致谢名单(作曲者,乐队组成,制作者)、和/或次要信息(视频拍摄位置、原产国、乐器类型)等补充信息127所生成。用户还可以进入声音绑定来描述媒体文件,这种方式对用户很有意义。另外,可以基于包含语音的媒体文件内容执行的语音识别产生用于生成语音识别语法的文本。根据可选实施方式和/或使用环境,由此产生的索引可以保存在数据存储器112、专有服务器122的用户账户数据库128、和/或本地服务器130。用户此后可以通过在选择模式中输入语音来选择媒体文件。嵌入式设备100的语音识别器通过产生多个语音识别假设(hypotheses)来识别该语音。把这些假设与索引的识别语法相比较,以选择媒体文件。如果需要,一些或者所有的语音识别假设都可以传送到本地服务器130和/或专有服务器122,从而可以在合适的位置进行比较。图2所示为根据本专利技术产生语音识别语法索引200的数据流程图。其中,从多个源中提取出描述媒体文件内容的描述性文本。例如,从已定位媒体文件的文件头提取文本202,还可以从指向计算机网络上媒体文件的文件路径提取文本204。另外,也可以从例如EAG等补充源提取附加文本206。再另外,可以从媒体文件的内容提取已识别语音208。如果存在,同样可以使用来自于用户的已识别语音210。将由此获得的描述性文本传送到滤波函数212。滤波函数212通过丢弃低音值的词来过滤已获得的描述性文本。例如,可以丢弃歌曲标题中的介词和不包括词的文件路径的内容。这样,将视为重要的词214传送到扩展函数216,扩展函数216产生同义词、和/或重要词的删节版本(可用作通配符)218。例如,视为重要的词“悲伤地(sadly)”可以扩展为同义词“不高兴地(unhappily)”、“悲惨地(miserably)”和/或删节为“悲伤(sad)”。删节词“悲伤(sad)”还可以进一步扩展为同义词来产生“不高兴的(unhappy)”和“悲惨的(miserable)”。扩展词“不高兴地(unhappily)”和/或“不高兴的(unhappy)”也可以删节为“unhap”,进一步扩展成“不高兴(unhappiness)”。因此,基于视为重要的词214和/或从视为重要的词214获得的扩展(和/或删节)218可以生成关键字列表220。利用字母到声音规则224将关键字列表220中的每个词转化为音素串222。最后,隐马尔可夫模型(HMM)串接器226通过串接音素串222生成语音识别语法索引200,并且媒体文件由生成的语音识别语法索引200编索引。图3A和图3B示出了根据本专利技术利用语音识别语法给媒体文件编索引的可选方法的流程图。例如,根据第一可选方法,在300A开始该方法,在302下载媒体文件。根据图2所示的方法在304A产生语音识别语法索引。在305A,进一步产生字段类型,并将字段类型与产生的语法相关联作为元数据。在306,下载的媒体文件存储在诸如数据存储器112(图1)、本地存储器130的存储器、或者数据库128等数据存储器中,并将保存的文件和产生的语音识别语法索引相关联。然后,第一可选方法在3本文档来自技高网...

【技术保护点】
一种播放媒体文件并基于用户的输入语音生成媒体文件播放列表的嵌入式设备,包括:索引器,用于生成多个语音识别语法,包括至少下列中的一个:(a)第一索引器,基于媒体文件的媒体文件头的内容生成第一语音识别语法;和(b)第二索 引器,基于用于从用户位置检索媒体文件的文件路径中的种类生成第二语音识别语法;语音识别器,用于在选择模式中时从用户接收输入语音;和媒体文件选择器,用于将从选择模式接收到的输入语音与多个语音识别语法进行比较,从而选择媒体文件。

【技术特征摘要】
US 2002-9-16 10/245,7271.一种播放媒体文件并基于用户的输入语音生成媒体文件播放列表的嵌入式设备,包括索引器,用于生成多个语音识别语法,包括至少下列中的一个(a)第一索引器,基于媒体文件的媒体文件头的内容生成第一语音识别语法;和(b)第二索引器,基于用于从用户位置检索媒体文件的文件路径中的种类生成第二语音识别语法;语音识别器,用于在选择模式中时从用户接收输入语音;和媒体文件选择器,用于将从选择模式接收到的输入语音与多个语音识别语法进行比较,从而选择媒体文件。2.根据权利要求1所述的设备,其中所述用于生成多个语音识别语法的索引器包括基于媒体文件的媒体文件头的内容生成第一语音识别语法的第一索引器。3.根据权利要求2所述的设备,其中所述用于生成多个语音识别语法的索引器包括基于用于从用户位置检索媒体文件的文件路径中的种类生成第二语音识别语法的第二索引器。4.根据权利要求1所述的设备,其中所述用于生成多个语音识别语法的索引器包括基于用于从用户位置检索媒体文件的文件路径中的种类生成第二语音识别语法的第二索引器。5.根据权利要求1所述的设备,其中媒体文件包含语音,并且所述生成多个语音识别语法的索引器包括第三索引器,所述第三索引器识别媒体文件中的语音,并基于在媒体文件中所识别的语音生成第三语音识别语法。6.根据权利要求1所述的设备,其中所述语音识别器在非选择模式中从用户接收输入语音,其中所述索引器基于在非选择模式中接收到的输入语音生成分类,并且其中所述索引器包括第四索引器,所述第四索引器基于生成的分类生成第四语音识别语法。7.根据权利要求1所述的设备,其中所述的索引器包括第五索引器,所述第五索引器基于与媒体文件相关联的补充描述文本生成第五语音识别语法,所述补充描述文本由计算机网络的数据存储器提供。8.根据权利要求1所述的设备,包括数据链接,用于接收计算机网络上的媒体文件;和数据存储器,用于存储接收到的与多个语音识别语法相关联的媒体文件。9.根据权利要求1所述的设备,包括播放列表生成器,用于在插入模式中选择...

【专利技术属性】
技术研发人员:大卫克瑞兹卢卡里加兹帕特里克恩伽元让克劳德容科
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1