在语音识别中插入字符的方法和设备技术

技术编号:14642120 阅读:35 留言:0更新日期:2017-02-15 22:05
本发明专利技术涉及在语音识别中插入字符的方法和设备。该方法,包括:从音频捕获设备接收语音输入;使用处理器将语音输入转换成机器文本;从替代的输入源接收包括至少一个字符的输入;使用处理器识别与机器文本关联的要插入所述至少一个字符的位置;以及使用处理器在所识别的位置处插入所述至少一个字符。还描述和要求保护了其他方面。

【技术实现步骤摘要】

本专利技术涉及一种在语音识别中插入字符的方法和设备
技术介绍
信息处理设备的便携性已经使得用户能够在任何地方使用设备。一些用户更喜欢使用语音转文本技术或语音识别软件来给这些设备例如智能电话、平板电脑、智能手表、个人计算机、膝上型计算机等提供输入。随着语音转文本技术变得更精确并且更易于使用,用户采用软件而不是短信例如采用电子邮件听写而不是短的文本消息来提供文本的长的主体部分。为了使用语音转文本技术进行精确的听写,用户必须提供语音命令以将标点输入到文本的主体中。例如,用户必须说词语“逗号”而不是像传统输入方法中的一样键入“,”。
技术实现思路
总之,一方面,提供了一种方法,包括:从音频捕获设备接收语音输入;使用处理器将语音输入转换成机器文本;从替代的输入源接收包括至少一个字符的输入;使用处理器识别与机器文本关联的要插入所述至少一个字符的位置;以及使用处理器在所识别的位置处插入所述至少一个字符。另一方面,提供了一种信息处理设备,包括:音频捕获设备;处理器,该处理器在操作上耦接至音频捕获设备;存储设备,该存储设备存储有指令,所述指令能够由处理器执行以:从音频捕获设备接收语音输入;使用处理器将语音输入转换成机器文本;从替代的输入源接收包括至少一个字符的输入;识别与机器文本关联的要插入所述至少一个字符的位置;以及在所识别的位置处插入所述至少一个字符。又一方面,提供了一种产品,包括:存储设备,该存储设备存储有能够由处理器执行的代码,所述代码包括:用于从音频捕获设备接收语音输入的代码;用于将语音输入转换成机器文本的代码;用于从替代的输入源接收包括至少一个字符的输入的代码;用于使用处理器识别与机器文本关联的要插入所述至少一个字符的位置的代码;用于使用处理器在所识别的位置处插入所述至少一个字符的代码。前述是总结性的并且因此可能包含细节的简化、概括及省略;因此,本
的普通技术人员要理解,该总结仅是说明性的并且不意在以任何方式的限制。为了更好地理解实施方式连同实施方式的其他的和进一步的特征和优点,参考以下结合附图的描述。本专利技术的范围将在所附权利要求中指出。附图说明图1示出了信息处理设备线路的示例。图2示出了信息处理设备线路的另一示例。图3示出了在语音识别中插入字符的示例方法。图4A至图4B示出了在语音识别中插入字符的示例。具体实施方式将容易理解的是,可以用除所描述的示例实施方式之外的多种不同的配置来布置和设计如本文附图中大体描述并示出的实施方式的部件。从而,如在附图中示出的示例实施方式的以下更详细的描述,不意在限制所要求保护的实施方式的范围,而只是示例实施方式的代表。本说明书全文中,对“一个(one)实施方式”或“一种(an)实施方式”(等)的引用意味着结合实施方式所描述的特定特征、结构或特性包含在至少一个实施方式中。因此,在本说明书全文的各处所出现的短语“在一个实施方式中”或“在一种实施方式中”等未必都指同一实施方式。而且,在一个或更多个实施方式中,所描述的特征、结构或特性可以以任何适当的方式进行组合。在下面的描述中,提供了许多具体的细节以给出对实施方式的透彻的理解。然而,相关领域的技术人员将认识到,可以在没有一个或多个具体细节的情况下实施各种实施方式,或者可以使用其他的方法、部件、材料等来实施各种实施方式。在其他示例中,不再详细地示出或描述公知的结构、材料或操作以避免混淆。语音转文本技术已经变成向信息处理设备提供输入的日益流行的方式。该技术已经变得更精确,因此,与传统方法例如使用触摸键盘、常规的键盘、小键盘、鼠标等相比,一些用户更喜欢提供语音输入,甚至在用户有能力提供手动输入的情况下,一些用户也更喜欢提供语音输入。由于用户越来越多地使用该技术而不是使用短信来提供文本的较长的主体,则用户会期望准确地给文本的主体加标点。当前语音转文本技术的问题是通常要通过语音命令来输入标点或其他不是字母的字符。换言之,用户必须说与期望的标点例如“感叹号”关联的词语而不是仅键入“!”。通过命令用语插入标点和符号是不自然的并且导致正常的思维过程中断。此外,在一些情况下,语音转文本技术可能不支持一些字符例如表情符的输入。当前采用的解决方案依赖于基于无声状态来预测标点的软件算法。换言之,如果用户在提供语音输入时停顿,则该技术可以将无声状态识别为逗号或句号。这种解决方案的问题是该方法可能是不准确的。例如,如果用户已经开始思考,但是然后停顿以进一步思考,则该技术可能将这种情况解释为句号的位置,但是句子可能没有完成。在试图解决标点的不准确的放置时,一些语音转文本技术使用上下文以帮助消除该问题,但是这再一次趋于不准确。此外,由软件选择的标点可能不是用户期望的标点。例如,用户可能期望感叹号,但是软件可能反而使用句号。另一解决方案是使得用户能够使用传统型输入方法例如键盘、触摸键盘、数字键盘、鼠标等,结合语音转文本输入来提供输入。然而,虽然当前方法确实允许用户提供手动输入,但是仅可以在已经显示文本之后提供输入。换言之,因为语音转文本技术在用户讲话与文本显现之间具有延迟时间,则为了使用手动方法提供标点,用户必须等待文本完成显现。这使用户必须等待以及打断了一连串的思路,这会变得非常令人失望。这些技术问题给用户带来了以下难题:使用传统的语音转文本识别软件可能难以准确地给文本的主体加标点。常规的语音转文本识别软件要求用户提供与期望的标点或符号对应的言语标点或符号听写(dictation)。基于无声状态和词语上下文来预测标点的软件算法不总是精确的。此外,对于现有的语音转文本技术,提供字符例如符号、数字、表情符等而不是字母即使不是不可能也是很困难的。用于使得用户能够提供关于符号的传统输入的现有方法要求用户等待直到语音转文本技术已经完成对语音的处理为止。这些方法中断了用户的思路并且是不方便的。因此,一种实施方式提供了一种使得用户能够在提供语音输入时提供包括至少一个字符的手动输入的方法。一个实施方式接收语音输入以及开始将语音输入转换成机器文本。当一种实施方式从替代的输入源接收包括至少一个字符的输入时,可以识别机器文本内所述至少一个字符的位置。在一个实施方式中,可以在接收语音输入时接收包括至少一个字符的输入。可替选地或者另外地,可以在一种实施方式将语音转换成机器文本时接收包括至少一个字符的输入。当接收所述至少一个字符时,一种实施方式可以另外地接收与所述至少一个字符关联的时间戳。在识别用于插入所述至少一个字符的位置时,一种实施方式可以使用与字符关联的时间戳,并且识别语音输入内对应的时间戳。除了时间戳之外,一个实施方式可以使用上下文来确定所述至少一个字符的最佳位置。例如,如果接收到第二输入的时间戳和与语音输入关联的时间戳不匹配,则一种实施方式可以使用另外的信息来确定所述至少一个字符的最佳位置。然后,一种实施方式可以在所识别的位置处插入所述至少一个字符。除了字符的放置之外,一种实施方式可以提供对字符已经位于机器文本内何处的指示。换言之,一种实施方式可以使得用户能够在该实施方式将语音转换成文本时提供手动输入,而不是要求用户等待直到系统已经完成语音输入的处理为止。通过参考附图可以最好地理解所示出的示例实施方式。下面的描述仅意在作为示例,并且简要示出了某些示例实施方式。虽然在本文档来自技高网
...
在语音识别中插入字符的方法和设备

【技术保护点】
一种在语音识别中插入字符的方法,包括:从音频捕获设备接收语音输入;使用处理器将所述语音输入转换成机器文本;从替代的输入源接收包括至少一个字符的输入;使用处理器识别与所述机器文本关联的要插入所述至少一个字符的位置;以及使用处理器在所识别的位置处插入所述至少一个字符。

【技术特征摘要】
2015.07.31 US 14/815,2811.一种在语音识别中插入字符的方法,包括:从音频捕获设备接收语音输入;使用处理器将所述语音输入转换成机器文本;从替代的输入源接收包括至少一个字符的输入;使用处理器识别与所述机器文本关联的要插入所述至少一个字符的位置;以及使用处理器在所识别的位置处插入所述至少一个字符。2.根据权利要求1所述的方法,其中,接收所述输入发生在将所述语音输入转换成机器文本时。3.根据权利要求1所述的方法,其中,接收所述输入发生在接收所述语音输入时。4.根据权利要求1所述的方法,其中,接收所述输入还包括:接收与所述输入关联的时间戳,并且其中,识别所述位置包括:识别所述语音输入内的对应的时间戳。5.根据权利要求4所述的方法,其中,所述识别还包括:基于所述语音输入的上下文特征来识别所述位置。6.根据权利要求4所述的方法,其中,从单个源接收与所述输入关联的时间戳和所述语音输入内的对应的时间戳。7.根据权利要求1所述的方法,其中,使用语音识别软件接收所述语音输入,并且其中,所述语音识别软件在接收包括至少一个字符的输入时保持活动。8.根据权利要求1所述的方法,其中,所述接收包括:从触摸输入源接收输入。9.根据权利要求1所述的方法,还包括:在所识别的位置处显示所述至少一个字符以及对指示所述至少一个字符已经被插入到所述位置的通知进行显示。10.根据权利要求1所述的方法,其中,第二次输入选自:标点、表情符、数字、字母以及符号。11.一种信息处理设备,包括:音频捕获设备;处理器,所述处理器在操作上耦接至所述音频捕获设备;存储设备,所述存储设备存储有指令,所述指令能够由所述处理器执行以:从所述音频捕获设备接收语音输入;使用所述处理器将所...

【专利技术属性】
技术研发人员:王松张健邦钱明李健
申请(专利权)人:联想新加坡私人有限公司
类型:发明
国别省市:新加坡;SG

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1