【技术实现步骤摘要】
【国外来华专利技术】对相关申请的交叉引用本申请要求2014年7月31日提交的、申请号为14/448,308的美国技术专利申请的优先权和权益,在此通过引用并入该申请。
技术介绍
常规的自动话音辨识(automaticspeechrecognition,ASR)系统在把话音转换成文本时通常表现良好。然而在某些情况下,相同的话音声音会映射到具有不同含义的不同单词。这些类型的单词通常被称作异形词(heterograph)。在这些情况下,常规的ASR系统或者将随机选择匹配所接收到的语音的单词中的一个单词,或者请求来自用户的输入以澄清将要使用哪个单词。这导致错误的输出或者使用户感到沮丧。
技术实现思路
因此,本文公开了用于在有异形词存在的情况下执行ASR的方法和系统。在一些实施例中,接收来自用户的包括多个话语(utterance)的口头输入。多个话语中的第一话语被匹配到第一单词。在一些实施例中,第一话语被编码为音素(phoneme)序列并且利用IPA来表示。将音素序列与音素序列的数据库进行交叉参考,以识别匹配音素序列的第一单词。在一些实施例中,确定多个话语中的第二话语匹配同一异形词集合中的多个单词。特别地,同一异形词集合中的多个单词可能在语音方面彼此相似。在一些实施例中,第二话语被编码为音素序列并且利用IPA来表示。将音素序列与音素序列的数据库进行交叉参考,以识别匹配音素序列的多个单词。响应于确定多个单词匹配同一音素序列,确定第一单词的语境(context)。然后系统识别与第二音素序列匹配的多个单词中的哪个单词与第一单词的语境相关联。基于第一单词和多个单词中的所识别的单词来执行功能。例如,利用第一 ...
【技术保护点】
一种用于在有异形单词存在时执行自动话音辨识(ASR)的方法,所述方法包括:接收来自用户的包括多个话语的口头输入;把所述多个话语中的第一话语匹配到第一单词;确定所述多个话语中的第二话语匹配在同一异形词集合中的多个单词;识别所述多个单词中的哪个单词与所述第一单词的语境相关联;以及基于所述第一单词和所述多个单词中的所识别的单词来执行功能。
【技术特征摘要】
【国外来华专利技术】2014.07.31 US 14/448,3081.一种用于在有异形单词存在时执行自动话音辨识(ASR)的方法,所述方法包括:接收来自用户的包括多个话语的口头输入;把所述多个话语中的第一话语匹配到第一单词;确定所述多个话语中的第二话语匹配在同一异形词集合中的多个单词;识别所述多个单词中的哪个单词与所述第一单词的语境相关联;以及基于所述第一单词和所述多个单词中的所识别的单词来执行功能。2.如权利要求1所述的方法,还包括:存储单词之间的关系的知识图谱,其中所述知识图谱中的单词之间的距离指示单词之间的关系的强度;以及基于所述知识图谱中所述多个单词中的每个单词与所述第一单词之间的距离来识别所述多个单词中的所述单词。3.如权利要求2所述的方法,还包括:识别所述知识图谱中的所述第一单词以及所述多个单词中的每个单词的位置;基于所识别的位置计算所述第一单词与所述多个单词中的每个单词之间的距离;以及选择所述多个单词中的具有被计算出的到所述第一单词的最短距离的单词作为所述多个单词中的所识别的单词。4.如权利要求1所述的方法,其中所述第一单词是体育事件中的竞争者的名称,所述方法还包括:把所述语境设置为所述体育事件;以及确定所述多个单词中的哪个单词对应于所述体育事件,其中所述多个单词中的所识别的单词对应于所述体育事件中的另一个竞争者。5.如权利要求1所述的方法,其中在同一异形词集合中的所述多个单词在语音方面彼此相似。6.如权利要求1所述的方法,还包括基于所述第一单词和所述多个单词中的所识别的单词生成推荐。7.如权利要求1所述的方法,其中把所述多个话语中的第一话语匹配到第一单词包括确定所述第一话语在语音方面对应于所述第一单词。8.如权利要求1所述的方法,其中所述第一单词是媒体资产中的演员的姓名,所述方法还包括:把所述语境设置为所述媒体资产;确定所述多个单词中的哪个单词对应于所述媒体资产,其中所述多个单词中的所识别的单词对应于所述媒体资产中的另一个演员。9.如权利要求1所述的方法,还包括基于所述多个话语中的两个话语之间的连接词来确定所述语境。10.如权利要求1所述的方法,其中执行功能包括针对与所述第一单词和所述多个单词中的所识别的单词对应的媒体资产执行媒体引导应用功能。11.一种用于自动校正话音辨识错误的系统,所述系统包括:控制电路,其被配置为:接收来自用户的包括多个话语的口头输入;把所述多个话语中的第一话语匹配到第一单词;确定所述多个话语中的第二话语匹配在同一异形词集合中的多个单词;识别所述多个单词中的哪个单词与所述第一单词的语境相关联;以及基于所述第一单词和所述多个单词中的所识别的单词来执行功能。12.如权利要求11所述的系统,其中所述控制电路还被配置为:存储单词之间的关系的知识图谱,其中所述知识图谱中的单词之间的距离指示单词之间的关系的强度;以及基于所述知识图谱中所述多个单词中的每个单词与所述第一单词之间的距离来识别所述多个单词中的所述单词。13.如权利要求12所述的系统,其中所述控制电路还被配置为:识别所述知识图谱中的所述第一单词以及所述多个单词中的每个单词的位置;基于所识别的位置来计算所述第一单词与所述多个单词中的每个单词之间的距离;以及选择所述多个单词中的具有被计算出的到所述第一单词的最短距离的单词作为所述多个单词中的所识别的单词。14.如权利要求11所述的系统,其中所述第一单词是体育事件中的竞争者的名称,并且所述控制电路还被配置为:把所述语境设置为所述体育事件;确定所述多个单词中的哪个单词对应于所述体育事件,其中所述多个单词中的所识别的单词对应于所述体育事件中的另一个竞争者。15.如权利要求11所述的系统,其中同一异形词集合中的多个单词在语音方面彼此相似。16.如权利要求11所述的系统,其中所述控制电路还被配置为基于所述第一单词和所述多个单词中的所识别的单词生成推荐。17.如权利要求11所述的系统,其中所述控制电路还被配置为通过确定所述多个话语中的所述第一话语在语音方面对应于所述第一单词来把第一话语匹配到第一单词。18.如权利要求11所述的系统,其中所述第一单词是媒体资产中的演员的姓名,并且其中所述控制电路还被配置为:把所述语境设置为所述媒体资产;确定所述多个单词中的哪个单词对应于所述媒体资产,其中所述多个单词中的所识别的单词对应于所述媒体资产中的另一个演员。19.如权利要求11所述的系统,其中所述控制电路还被配置为基于所述多个话语中的两个话语之间的连接词来确定所述语境。20.如权利要求1所述的系统,其中所述控制电路还被配置为通过针对与所述第一单词和所述多个单词中的所识别的单词对应的媒体资产执行媒体引导应用功能来执行功能。21.一种用于自动校正话音辨识错误的设备,所述设备包括:用于接收来自用户的包括多个话语的口头输入的装置;用于把所述多个话语中的第一话语匹配到第一单词的装置;用于确定所述多个话语中的第二话语匹配在同一异形词集合中的多个单词的装置;用于识别所述多个单词中的哪个单词与所述第一单词的语境相关联的装置;以及用于基于所述第一单词和所述多个单词中的所识别的单词来执行功能的装置。22.如权利要求21所述的设备,还包括:用于存储单词之间的关系的知识图谱的装置,其中所述知识图谱中的单词之间的距离指示单词之间的关系的强度;以及用于基于所述知识图谱中所述多个单词中的每个单词与所述第一单词之间的距离来识别所述多个单词中的所述单词的装置。23.如权利要求22所述的设备,还包括:用于识别所述知识图谱中的所述第一单词以及所述多个单词中的每个单词的位置的装置;用于基于所识别的位置计算所述第一单词与所述多个单词中的每个单词之间的距离的装置;以及用于选择所述多个单词中的具有被计算出的到所述第一单词的最短距离的单词作为所述多个单词中的所识别的单词的装置。24.如权利要求21所述的设备,其中所述第一单词是体育事件中的竞争者的名称,所述设备还包括:用于把所述语境设置为所述体育事件的装置;以及用于确定所述多个单词中的哪个单词对应于所述体育事件的装置,其中所述多个单词中的所识别的单词对应于所述体育事件中...
【专利技术属性】
技术研发人员:A·阿加尔沃尔,R·巴尔维,
申请(专利权)人:乐威指南公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。