用于在有异形词存在的情况下执行ASR的系统和方法技术方案

技术编号:14741767 阅读:83 留言:0更新日期:2017-03-01 16:47
提供了用于在有异形词存在时执行ASR的系统和方法。接收来自用户的包括多个话语的口头输入。把多个话语中的第一话语匹配到第一单词。确定多个话语中的第二话语匹配在同一异形词集合中的多个单词。识别多个单词中的哪个单词与第一单词的语境相关联。基于第一单词和多个单词中的所识别的单词来执行功能。

【技术实现步骤摘要】
【国外来华专利技术】对相关申请的交叉引用本申请要求2014年7月31日提交的、申请号为14/448,308的美国技术专利申请的优先权和权益,在此通过引用并入该申请。
技术介绍
常规的自动话音辨识(automaticspeechrecognition,ASR)系统在把话音转换成文本时通常表现良好。然而在某些情况下,相同的话音声音会映射到具有不同含义的不同单词。这些类型的单词通常被称作异形词(heterograph)。在这些情况下,常规的ASR系统或者将随机选择匹配所接收到的语音的单词中的一个单词,或者请求来自用户的输入以澄清将要使用哪个单词。这导致错误的输出或者使用户感到沮丧。
技术实现思路
因此,本文公开了用于在有异形词存在的情况下执行ASR的方法和系统。在一些实施例中,接收来自用户的包括多个话语(utterance)的口头输入。多个话语中的第一话语被匹配到第一单词。在一些实施例中,第一话语被编码为音素(phoneme)序列并且利用IPA来表示。将音素序列与音素序列的数据库进行交叉参考,以识别匹配音素序列的第一单词。在一些实施例中,确定多个话语中的第二话语匹配同一异形词集合中的多个单词。特别地,同一异形词集合中的多个单词可能在语音方面彼此相似。在一些实施例中,第二话语被编码为音素序列并且利用IPA来表示。将音素序列与音素序列的数据库进行交叉参考,以识别匹配音素序列的多个单词。响应于确定多个单词匹配同一音素序列,确定第一单词的语境(context)。然后系统识别与第二音素序列匹配的多个单词中的哪个单词与第一单词的语境相关联。基于第一单词和多个单词中的所识别的单词来执行功能。例如,利用第一单词以及具有相同或相似的语境的、匹配第二序列的单词中的仅仅一个单词来执行搜索。在一些实施例中,存储单词之间的关系的知识图谱。知识图谱中的单词之间的距离可以指示单词之间的关系的强度。基于异形词集合中的多个单词中的每个单词与知识图谱中的第一单词的距离来确定多个单词中的匹配语境的一个单词。在一些实施方式中,识别知识图谱中的第一单词以及多个单词中的每个单词的位置。基于所识别的位置来计算第一单词与多个单词中的每个单词的距离。选择多个单词中的具有被计算出到第一单词的最短距离的单词作为多个单词中的所识别的单词。在一些实施例中,第一单词可以是体育事件中的竞争者的名称。在这种情况下,第一单词的语境可以被设置为体育事件。关于多个单词中的哪个单词对应于体育事件的确定被做出,其中多个单词中的所识别的单词对应于体育事件中的另一个竞争者(例如,另一个团队)。在一些实施例中,第一单词可以是媒体资产(mediaasset)中的演员的姓名。语境可以被设置为媒体资产。关于多个单词中的哪个单词对应于媒体资产的确定被做出,其中多个单词中的所识别的单词对应于媒体资产中的另一个演员。在一些实施例中,可以基于多个话语中的两个话语之间的连接词来确定语境。例如,如果用户在短语中说出单词“v.”以作为两个单词之间的连接词,则语境可以被确定为体育事件,其中v.表示“versus(对阵)”。应当注意的是,前面所描述的系统和/或方法可以被应用于其他系统、方法和/或装置,或者根据其他系统、方法和/或装置来使用。附图说明通过结合附图考虑下面的详细描述,本公开的上面的和其他的目的和优点将变得明显,在附图中相同的附图标记始终指代相同的部件,并且其中:图1和图2示出了根据本专利技术的一个实施例的可以被用来提供媒体引导应用列表的说明性显示屏幕;图3是根据本公开的一些实施例的说明性用户装备设备的框图;图4是根据本公开的一些实施例的说明性媒体系统的框图;图5示出了根据本公开的一些实施例的说明性知识图谱;图6示出了根据本公开的一些实施例的用于将音素序列与异形词相关联的说明性数据库;以及图7是根据本公开的一些实施例的用于在有异形词存在的情况下执行ASR的过程的图示。具体实施方式本文公开了用于在有异形词存在的情况下执行ASR的方法和系统。特别地,可以从用户接收多个话语。话语可以利用音素序列来表示。在某些情况下,特定音素序列可以匹配多个单词。这些单词可以在同一异形词集合中。异形词集合中的单词中的第一单词可以被选择以用于与在所接收到的话语中检测到的第二单词一起处理,所述处理基于在知识图谱中第一单词距第二单词有多近或多远。尽管参照IPA语音编码来讨论本公开,但是任何其他类型的语音编码或表示系统(例如,SAMPA、X-SAMPA、Arpabet、extIPA、Kirshenbaum等等)可以被使用。例如,如果两个单词在同一异形词集合中,则系统可以选择集合中的与另一个所接收到的单词更紧密地相关的单词,以用于与另一个所接收到的单词一起处理。具体来说,如果用户正在搜索Duke队与Uconn队之间的篮球比赛,则用户可以说出短语“Dukev.Uconn”。系统可以确定用于话语“Uconn”的音素序列匹配两个单词(例如,Uconn和Yukon)。鉴于Uconn(即,篮球队)比Yukon(即,河流)离Duke(即,另一个所接收到的话语)更近,所以系统选择单词Uconn而不是Yukon。参照媒体资产或内容,在任何给定的内容递送系统中对于用户可用的内容的量可以相当大。因此,许多用户期望允许用户高效地导航(navigate)内容选择并且容易地识别他们可能期望的内容的、通过界面的某种形式的媒体引导。提供这样的引导的应用在此被称作交互式媒体引导应用,或者有时被称作媒体引导应用或引导应用。交互式媒体引导应用取决于它们为其提供引导的内容可以采取各种形式。一种典型的媒体引导应用是交互式电视节目指南。交互式电视节目指南(其有时被称作电子节目指南)是公知的引导应用,其允许用户在许多类型的内容或媒体资产之间导航以及定位(locate)许多类型的内容或媒体资产等。交互式媒体引导应用可以生成使得用户能够在内容之间导航、定位内容以及选择内容的图形用户界面屏幕。如本文所提到的,术语“媒体资产”和“内容”应当被理解成意味着电子可消费的用户资产,诸如电视节目以及按次付费(pay-per-view)节目、点播(on-demand)节目(比如视频点播(VOD)系统中的点播节目)、因特网内容(例如流送内容(streamingcontent)、可下载内容、网络广播等等)、视频剪辑、音频、内容信息、图片、旋转图像、文档、播放列表、网站、文章、书籍、电子书、博客、广告、聊天会话、社交媒体、应用、游戏和/或任何其他媒体或多媒体和/或其组合。引导应用还允许用户在内容之间导航以及定位内容。如本文所提到的,术语“多媒体”应当被理解成意味着利用上文所描述的至少两种不同的内容形式(例如,文本、音频、图像、视频或者交互性内容形式)的内容。内容可以由用户装备设备记录、播放、显示或访问,但是还可以是现场表演的一部分。用于执行本文所讨论的实施例中的任何实施例的媒体引导应用和/或任何指令可以在计算机可读介质上被编码。计算机可读介质包括能够存储数据的任何介质。计算机可读介质可以是暂态的(包括但不限于传播的电信号或电磁信号),或者可以是非暂态的,其中非暂态的计算机可读介质包括但不限于易失性的和非易失性的计算机存储器或存储设备,诸如硬盘、软盘、USB驱动器、DVD、CD、媒体卡、寄存器存储器、处本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/21/201580035900.html" title="用于在有异形词存在的情况下执行ASR的系统和方法原文来自X技术">用于在有异形词存在的情况下执行ASR的系统和方法</a>

【技术保护点】
一种用于在有异形单词存在时执行自动话音辨识(ASR)的方法,所述方法包括:接收来自用户的包括多个话语的口头输入;把所述多个话语中的第一话语匹配到第一单词;确定所述多个话语中的第二话语匹配在同一异形词集合中的多个单词;识别所述多个单词中的哪个单词与所述第一单词的语境相关联;以及基于所述第一单词和所述多个单词中的所识别的单词来执行功能。

【技术特征摘要】
【国外来华专利技术】2014.07.31 US 14/448,3081.一种用于在有异形单词存在时执行自动话音辨识(ASR)的方法,所述方法包括:接收来自用户的包括多个话语的口头输入;把所述多个话语中的第一话语匹配到第一单词;确定所述多个话语中的第二话语匹配在同一异形词集合中的多个单词;识别所述多个单词中的哪个单词与所述第一单词的语境相关联;以及基于所述第一单词和所述多个单词中的所识别的单词来执行功能。2.如权利要求1所述的方法,还包括:存储单词之间的关系的知识图谱,其中所述知识图谱中的单词之间的距离指示单词之间的关系的强度;以及基于所述知识图谱中所述多个单词中的每个单词与所述第一单词之间的距离来识别所述多个单词中的所述单词。3.如权利要求2所述的方法,还包括:识别所述知识图谱中的所述第一单词以及所述多个单词中的每个单词的位置;基于所识别的位置计算所述第一单词与所述多个单词中的每个单词之间的距离;以及选择所述多个单词中的具有被计算出的到所述第一单词的最短距离的单词作为所述多个单词中的所识别的单词。4.如权利要求1所述的方法,其中所述第一单词是体育事件中的竞争者的名称,所述方法还包括:把所述语境设置为所述体育事件;以及确定所述多个单词中的哪个单词对应于所述体育事件,其中所述多个单词中的所识别的单词对应于所述体育事件中的另一个竞争者。5.如权利要求1所述的方法,其中在同一异形词集合中的所述多个单词在语音方面彼此相似。6.如权利要求1所述的方法,还包括基于所述第一单词和所述多个单词中的所识别的单词生成推荐。7.如权利要求1所述的方法,其中把所述多个话语中的第一话语匹配到第一单词包括确定所述第一话语在语音方面对应于所述第一单词。8.如权利要求1所述的方法,其中所述第一单词是媒体资产中的演员的姓名,所述方法还包括:把所述语境设置为所述媒体资产;确定所述多个单词中的哪个单词对应于所述媒体资产,其中所述多个单词中的所识别的单词对应于所述媒体资产中的另一个演员。9.如权利要求1所述的方法,还包括基于所述多个话语中的两个话语之间的连接词来确定所述语境。10.如权利要求1所述的方法,其中执行功能包括针对与所述第一单词和所述多个单词中的所识别的单词对应的媒体资产执行媒体引导应用功能。11.一种用于自动校正话音辨识错误的系统,所述系统包括:控制电路,其被配置为:接收来自用户的包括多个话语的口头输入;把所述多个话语中的第一话语匹配到第一单词;确定所述多个话语中的第二话语匹配在同一异形词集合中的多个单词;识别所述多个单词中的哪个单词与所述第一单词的语境相关联;以及基于所述第一单词和所述多个单词中的所识别的单词来执行功能。12.如权利要求11所述的系统,其中所述控制电路还被配置为:存储单词之间的关系的知识图谱,其中所述知识图谱中的单词之间的距离指示单词之间的关系的强度;以及基于所述知识图谱中所述多个单词中的每个单词与所述第一单词之间的距离来识别所述多个单词中的所述单词。13.如权利要求12所述的系统,其中所述控制电路还被配置为:识别所述知识图谱中的所述第一单词以及所述多个单词中的每个单词的位置;基于所识别的位置来计算所述第一单词与所述多个单词中的每个单词之间的距离;以及选择所述多个单词中的具有被计算出的到所述第一单词的最短距离的单词作为所述多个单词中的所识别的单词。14.如权利要求11所述的系统,其中所述第一单词是体育事件中的竞争者的名称,并且所述控制电路还被配置为:把所述语境设置为所述体育事件;确定所述多个单词中的哪个单词对应于所述体育事件,其中所述多个单词中的所识别的单词对应于所述体育事件中的另一个竞争者。15.如权利要求11所述的系统,其中同一异形词集合中的多个单词在语音方面彼此相似。16.如权利要求11所述的系统,其中所述控制电路还被配置为基于所述第一单词和所述多个单词中的所识别的单词生成推荐。17.如权利要求11所述的系统,其中所述控制电路还被配置为通过确定所述多个话语中的所述第一话语在语音方面对应于所述第一单词来把第一话语匹配到第一单词。18.如权利要求11所述的系统,其中所述第一单词是媒体资产中的演员的姓名,并且其中所述控制电路还被配置为:把所述语境设置为所述媒体资产;确定所述多个单词中的哪个单词对应于所述媒体资产,其中所述多个单词中的所识别的单词对应于所述媒体资产中的另一个演员。19.如权利要求11所述的系统,其中所述控制电路还被配置为基于所述多个话语中的两个话语之间的连接词来确定所述语境。20.如权利要求1所述的系统,其中所述控制电路还被配置为通过针对与所述第一单词和所述多个单词中的所识别的单词对应的媒体资产执行媒体引导应用功能来执行功能。21.一种用于自动校正话音辨识错误的设备,所述设备包括:用于接收来自用户的包括多个话语的口头输入的装置;用于把所述多个话语中的第一话语匹配到第一单词的装置;用于确定所述多个话语中的第二话语匹配在同一异形词集合中的多个单词的装置;用于识别所述多个单词中的哪个单词与所述第一单词的语境相关联的装置;以及用于基于所述第一单词和所述多个单词中的所识别的单词来执行功能的装置。22.如权利要求21所述的设备,还包括:用于存储单词之间的关系的知识图谱的装置,其中所述知识图谱中的单词之间的距离指示单词之间的关系的强度;以及用于基于所述知识图谱中所述多个单词中的每个单词与所述第一单词之间的距离来识别所述多个单词中的所述单词的装置。23.如权利要求22所述的设备,还包括:用于识别所述知识图谱中的所述第一单词以及所述多个单词中的每个单词的位置的装置;用于基于所识别的位置计算所述第一单词与所述多个单词中的每个单词之间的距离的装置;以及用于选择所述多个单词中的具有被计算出的到所述第一单词的最短距离的单词作为所述多个单词中的所识别的单词的装置。24.如权利要求21所述的设备,其中所述第一单词是体育事件中的竞争者的名称,所述设备还包括:用于把所述语境设置为所述体育事件的装置;以及用于确定所述多个单词中的哪个单词对应于所述体育事件的装置,其中所述多个单词中的所识别的单词对应于所述体育事件中...

【专利技术属性】
技术研发人员:A·阿加尔沃尔R·巴尔维
申请(专利权)人:乐威指南公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1