用于数据输入的语音识别和训练制造技术

技术编号:35465722 阅读:23 留言:0更新日期:2022-11-05 16:08
用于识别和训练以识别字母数字语音数据输入的方法、系统和计算机程序产品。方法可包括基于预定规则将数据输入分割成顺序的n

【技术实现步骤摘要】
【国外来华专利技术】用于数据输入的语音识别和训练


[0001]本公开涉及语音到文本技术,并且更具体地,涉及训练系统以识别语音到文本系统中的字母数字语音数据输入。

技术介绍

[0002]随着技术能力的增加,越来越多地利用语音到文本能力。例如,当用户呼叫帮助台、服务等时,用户通常必须给出账号、社会保险号、生日、密码等。用户可以使用语音来输入所需数据(例如,通过电话用声音输入数据)。语音识别技术可用于确定经由语音输入的内容,并将该输入转变或转换为计算机系统可识别和处理的文本。
[0003]可以在各种不同的使用情况下使用语音识别技术。这些使用情况可能需要语音识别来处理和识别多种类型的话语。例如,常规语音识别使用情况包括使用(来自用户的)一般话语来识别意图和实体。常规语音识别基础模型可用于识别常用的单词和句子,并将它们转换成文本。例如,可识别“我的名字是John Doe”的一般话语并且通过常规语音识别模型将其转换成文本。
[0004]然而,常规语音识别技术可能具有更复杂话语的困难。例如,对于语音识别技术来说,识别诸如ID、日期或其他字母数字数据输入的数据输入可能是有挑战性的,并且常规语音识别技术在识别字母数字输入时可能不是非常准确的。字母数字数据输入可以是包括字母/单词和数字两者的数据输入。例如,可能难以使用常规语音识别技术来识别“my date of birth is January 8,1974(我的出生日期是1974年1月8日)”的字母数字话语,这是由于话语中存在单词和数字的组合。常规语音识别可能不区分“8”与“h”;不区分“f”与“s”;不区分“d”与“t”;不区分“m”与“n”;不区分“4”与单词“for”;不区分“to”与“too”与数字“2”等。因此,继续先前的示例,常规语音识别可将上述语音输入转换成诸如“my date of birth is January H 1970 For(我的出生日期是1970年1月H日For)”的文本,该文本是不准确的。
[0005]因此,需要解决本领域中的上述问题。

技术实现思路

[0006]从第一方面来看,本专利技术提供了计算机实现的方法,包括:基于预定规则将数据输入分割成顺序的n

gram块,其中,通过语音识别接收所述数据输入;接收关于数据输入的特性的元数据;基于元数据生成语言模型;生成数据输入的第一组语言模型变体;至少基于第一组语言模型变体来训练语言模型;使用经训练的语言模型生成数据输入的一个或多个替代;以及发送包括数据输入的一个或多个替代的输出。
[0007]从另一个方面来看,本专利技术提供了具有一个或多个计算机处理器的系统,该系统被配置为:基于预定规则将输入数据分割为顺序的n

gram块,其中,数据输入是语音到文本转录;接收关于数据输入的特性的元数据;基于元数据生成语言模型;生成数据输入的第一组语言模型变体;至少基于第一组语言模型变体来训练语言模型;使用经训练的语言模型
生成数据输入的一个或多个替代;以及发送包括数据输入的一个或多个替代的输出。
[0008]从另一方面来看,本专利技术提供了用于识别语音到文本系统中的字母数字语音数据输入的计算机程序产品,该计算机程序产品包括计算机可读存储介质,该计算机可读存储介质可由处理电路读取并且存储用于由该处理电路执行以便执行用于执行本专利技术的步骤的方法的指令。
[0009]从另一方面来看,本专利技术提供存储在计算机可读介质上并且可加载到数字计算机的内部存储器中的计算机程序,该计算机程序包括当程序在计算机上运行时用于执行本专利技术的步骤的软件代码部分。
[0010]从另一方面来看,本专利技术提供了计算机程序产品,包括计算机可读存储介质,该计算机可读存储介质具有实施有程序指令的程序指令,该程序指令可由服务器执行以使该服务器执行方法,该方法包括:基于预定规则将输入的数据分割成顺序的n

gram块,其中,该数据输入是语音到文本转录;接收关于数据输入的特性的元数据;基于元数据生成语言模型;生成数据输入的第一组语言模型变体;至少基于第一组语言模型变体来训练语言模型;使用经训练的语言模型生成数据输入的一个或多个替代;以及发送包括数据输入的一个或多个替代的输出。
[0011]本公开提供用于识别和训练字母数字语音数据输入的计算机实现的方法、系统和计算机程序产品。该方法可以包括基于预定规则将数据输入分割成顺序的n

gram块,其中,通过语音识别接收数据输入。方法还可包含接收关于数据输入的特性的元数据。该方法还可以包括基于元数据生成语言模型。该方法还可以包括生成第一组数据输入的语言模型变体。该方法还可以包括基于至少第一组语言模型变体来训练语言模型。该方法还可以包括使用经训练的语言模型生成用于数据输入的一个或多个替代。方法还可包含发送包含数据输入的一个或多个替代的输出。
[0012]系统和计算机程序产品可以包括类似的步骤。
[0013]以上概述并不旨在描述本公开的每个所示实施例或每个实现方式。
附图说明
[0014]本申请包括的附图被结合到说明书中并且形成说明书的一部分。附图示出了本公开的实施例,并且与说明书一起用于解释本公开的原理。附图仅说明某些实施例,而并不限制本公开。
[0015]图1描绘了根据一些实施例的用于训练语音识别技术并利用该技术识别字母数字语音数据输入的一组操作的流程图。
[0016]图2描绘了根据一些实施例的用于生成一组语言模型变体的一组操作的流程图。
[0017]图3描绘了根据一些实施例的示例语音识别环境的示意图。
[0018]图4描绘了根据一些实施例的利用4

gram块的示例语音到文本环境的示意图。
[0019]图5描绘了根据一些实施例的利用5

gram块的示例语音到文本环境的示意图。
[0020]图6描绘了根据一些实施例的样本计算机系统的框图。
[0021]本专利技术可修改成不同修改和替代形式,同时通过举例在附图中示出其细节并且详细描述该细节。然而,可理解,本专利技术并不局限于所描述的具体实施例。相反,本专利技术旨在覆盖落在本专利技术的范围内的所有修改、等同物以及替换物。
具体实施方式
[0022]本专利技术的方面涉及语音到文本技术,并且更具体地,涉及训练系统以识别语音到文本系统中的字母数字语音数据输入。虽然本公开不必限于这样的应用,但是可以通过使用该上下文对不同示例的讨论来理解本公开的各个方面。
[0023]本公开提供用于识别和训练字母数字语音数据输入的计算机实现的方法、系统和计算机程序产品。在一些情况下,在语音识别系统接收数据输入(例如,经由用户的语音)之后,数据可被分割成块(即,n

gram块)并且可经由分割的块进行处理。可使用各种规则和特征(包括特定于输入的规则、一般语音规则和变体等)来生成基于规则和特征的语言模性(以及,在一些实例中,声学模型)。该模型或多个模型可使用各种规则和特征以及各本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现方法,包括:基于预定规则将数据输入分割成顺序的n

gram块,其中,通过语音识别接收所述数据输入;接收关于所述数据输入的特性的元数据;基于所述元数据生成语言模型;生成所述数据输入的第一组语言模型变体;基于至少所述第一组语言模型变体来训练所述语言模型;使用所训练的语言模型生成用于所述数据输入的一个或多个替代;以及发送包括用于所述数据输入的所述一个或多个替代的输出。2.根据权利要求1所述的方法,其中,至少基于所述元数据和所述预定规则生成所述第一组语言模型变体。3.根据权利要求2所述的方法,进一步包括:响应于生成所述第一组语言模型变体,使用共同的用户元数据生成第二组语言模型变体;以及针对所述第一组语言模型变体和所述第二组语言模型变体的子集,创建预附文本和附加文本。4.根据权利要求3所述的方法,其中,还基于所述第二组语言模型变体、所述预附文本和所述附加文本训练所述语言模型。5.根据权利要求3或4所述的方法,其中,创建所述预附文本和附加文本包括:分析所述共同的用户元数据;基于所述分析,确定当输入语音时使用的共同的预附短语和附加短语;以及针对所述第一组语言模型变体和所述第二组语言模型变体的所述子集生成多个模板句子。6.根据前述权利要求中的任一项所述的方法,其中,生成所述第一组语言模型变体包括:确定所述数据输入的可能变体的数量。7.根据权利要求6所述的方法,进一步包括:确定所述数据输入的可能变体的数量低于变体的阈值数量;以及响应于所述确定,生成所述数据输入的所有可能的语言模型变体。8.根据权利要求6所述的方法,进一步包括:确定所述数据输入的可能变体的数量高于变体的阈值数量;以及响应于所述确定,基于所述n

gram块生成所述数据输入的减少数量的变体。9.根据权利要求6所述的方法,其中,生成所述数据输入的所述第一组语言模型变体包括:基于共同的数字模式生成可以表示数字的替代词。10.根据前述权利要求中任一项所述的方法,其中,所述n

gram块是4<...

【专利技术属性】
技术研发人员:M
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1