用于处理输入语音的装置和方法制造方法及图纸

技术编号:3044475 阅读:105 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种用于处理输入语音的装置和方法。分析单元对通过处理输入语音所获得的输入字符串执行词素学分析。生成单元将输入字符串分割成以预定的并且由一个或多个词素组成的分割为单位,并且生成包括部分该分割的输入字符串的分量的部分字符串。候选输出单元将所生成的部分字符串输出到显示单元。选择接收单元接收从所输出的部分字符串中所选择的部分字符串作为待处理的对象。

【技术实现步骤摘要】

本专利技术涉及一种用于对输入语音执行语音识别处理等并且输出 处理结果的装置和方法。
技术介绍
最近,使用语音输入的人机接口日益增多地实现了实际使用。例 如,已经开发了如下语音操作系统,其允许用户口头地输入预先设置 的特定命令、识别该命令,并且自动地执行对应的操作,从而使得能 够通过语音来使用该系统。还开发了通过分析由用户所口头表达的任 意句子将这些句子转换成字符串,来实现使用语音输入创建句子的系 统。已经开发并且已经利用了能够在用户和系统之间使用语音语言等 进行交互的语音对话系统。在各个系统所使用的语音识别处理中,通常通过以下方法来对由 用户装置所产生的语音的内容进行识别。通过麦克风等将产生的语音信号捕获到系统中、将其转换成电信号,并且使用模数(A/D)转换器 等将其以非常短的时间周期进行采样,以获得例如波形振幅的时间序 列的数字数据。对该数字数据进行诸如快速傅立叶变换(FFT)分析之 类的技术,以获得例如频率随时间的改变,从而提取产生的语音信号 的特征数据。使用隐马尔可夫模型(HMM)、法、动态规划(DP)法或者神 经网络(NN)法,对例如被准备为与识别结果及其序列相关联的词典的 音素标准样式,与由上述处理所提取的特征数据,进行比较和匹配, 以生成所产生的语音内容的识别候选。为了提高识别的正确性,对生 成的识别候选使用N-gram为代表的统计语言模型,以估计并且选择 最有可能的候选,从而识别所产生的语音的内容。在语音识别中,由于以下因素,执行百分之百的无错误识别是非 常困难的,并且也被认为是不可能的。由于执行语音输入的环境中的噪声等等,不可能很好地将语音分割成部分。由于在个体之间变化的 因素,例如音质、音量、说话速度、说话风格以及方言,输入语音的 波形可能变形,并且可能不能正确地执行识别结果的检查。还存在由于用户说的是系统中没有准备的未知语言而不能执行 识别、词语被错误地识别成了听起来相似的词语,以及由于准备的标 准样式或者统计语言模式不完整而将词语错误地识别成了错词的情 况。当在错误识别之后继续处理时,通常引起错误操作。因此,需要 一些操作来排除错误操作的影响、重新恢复、重新输入相同的语音等, 这增加了用户的负担。即使当再次输入语音时也不能保证总能克服错 误识别。同吋,当在继续处理之前纠正识别结果以避免这种问题时,通常 需要键盘操作等等。因此,失去了语音输入的无需用手的特性,并且 增加了用户的操作负担。上述系统将最有可能的候选输出作为正确识别结果。因此,即使 语音识别以错误识别结束,系统本身也没有办法知道哪个识别部分是 错误的哪个部分是正确的。因此,为了纠正错误识别部分,用户必须 确定错误识别部分并且随后纠正它。鉴于这种问题,JP-A 2000-242645(KOKAI)提出了一种技术,其不仅生成一个最有可能的语音识别候选而且还生成多个具有相近的 识别得分的语音识别候选,翻译所生成的候选,并且与多个翻译结果 一起呈现翻译历史的摘要。这允许对话伙伴识别该处理结果的可靠性 并且容易地假设说话者的语音内容,并且即使识别处理的性能很低时 也能提供充分和平滑的通信。然而,在JP-A2000-242645(KOKAI)所描述的方法中,即使所提 出的多个识别候选中包括了要选择的识别候选,当这个识别候选包括 错误识别部分时该处理也不能继续,并且需要纠错或者重新输入。因 此,与常规技术类似,失去了语音输入的无需用手的特性,或者增加 了用户由于纠错处理的负担。
技术实现思路
根据本专利技术的一个方面, 一种语音处理装置,包括语音接收单 元,用于接收输入语音;语音处理单元,用于从所述输入语音获得文 本字符串;分析单元,用于执行所述文本字符串的词素学分析;生成 单元,用于将所述文本字符串分割成以预定的并且由至少一个词素组 成的分割为单位的分量,并且生成包括部分所述分量的部分字符串候 选;第一输出单元,用于将所述部分字符串候选输出到显示单元;以 及选择接收单元,用于接收从所述部分字符串候选中所选择的部分字 符串。根据本专利技术的另一方面, 一种语音处理方法,包括接收输入语 音;从所述输入语音获得文本字符串;执行所述文本字符串的词素学 分析;将所述文本字符串分割成以预定的并且由至少一个词素组成的 分割为单位的分量,并且生成包括部分所述分量的部分字符串候选; 将所述部分字符串候选输出到显示单元;以及接收从所述部分字符串 候选中所选择的部分字符串。附图说明图1是根据本专利技术的第一实施例的语音翻译装置的配置的方框图;图2是用于解释存储在选择存储单元中的信息的数据配置的实 例的示意图;图3是根据第一实施例的完整的语音翻译处理的流程图; 图4是根据第一实施例的部分表示生成处理的完整的流程图; 图5是用于解释日语输入语音的实例的示意图; 图6是用于解释日语语音输入的识别结果的实例的示意图; 图7是用于解释通过执行识别结果的词素学分析所获得的词素 序列的实例的示意图;图8是用于解释分割的分段的实例的示意图;图9是用于解释作为要处理的对象的候选的实例的示意图;图IO是用于解释所选择的候选的实例的示意图;图11是用于解释翻译结果的实例的示意图;图12是根据本专利技术的第二实施例的语音翻译装置的配置的方框图;图13是根据第二实施例的完整的语音翻译处理的流程图;图14是用于解释翻译结果的实例的示意图;图15是用于解释分割的分段的实例的示意图;图16是用于解释作为要处理的对象的候选的实例的示意图;图17是用于解释所选择的候选的实例的示意图;以及图18是用于解释根据第一或者第二实施例的语音处理装置的硬件配置的示意图。具体实施方式以下将参考附图,详细解释根据本专利技术的用于执行语音处理的装 置和方法的示例性实施例。根据本专利技术的第一实施例的语音处理装置生成多个部分字符串 (在下文中称为部分表示),该多个部分字符串中的每一个是通过 从语音识别结果中去除部分字符串所获得的,该装置将所生成的部分 字符串呈现给用户,接收由用户从所呈现的部分表示中所选择的部分 表示作为语音处理的对象,并且执行语音处理。以下给出了将根据第一实施例的语音处理装置实现为语音翻译 装置的示例性情况的解释,该语音翻译装置将用户以源语言输入的语 音翻译成语义上等效的目标语言,并且输出所翻译的语音,从而支持 跨语言通信。在这个实例中,分别将日语和英语用作源语言和目标语 言,而源语言和目标语言不限于这个组合,并且第一实施例可以应用 于任意语言的组合。如图1中所示,语音翻译装置100具有语音接收单元101、识别 单元102、确定单元103、分析单元104、生成单元105、候选输出单 元106、选择接收单元107、翻译单元108、语言输出单元109以及 选择存储单元121。语音接收单元101以对非常短的时间周期为单位对通过麦克风(未显示)等输入的语音的模拟信号进行采样,将该信号转换成例如波 形振幅的时间序列的立体声数字信号,并且输出该数字信号。可以将通常使用的A/D转换技术等用于语音接收单元101所执行的处理。识别单元102接收从语音接收单元101输出的数字语音信号,并 且执行语音识别处理,用于生成作为对应的日语文本的字符串的识别 结果的候选,并且似然地表示识别概率(下文中称为识别得分)。 在语音识别处理中,本文档来自技高网
...

【技术保护点】
一种语音处理装置,包括:语音接收单元,用于接收输入语音;语音处理单元,用于从所述输入语音获得文本字符串;分析单元,用于执行所述文本字符串的词素学分析;生成单元,用于将所述文本字符串分割成以预定的并且由至少一个词素组成的分割为单位的分量,并且生成包括部分所述分量的部分字符串候选;第一输出单元,用于将所述部分字符串候选输出到显示单元;以及选择接收单元,用于接收从所述部分字符串候选中所选择的部分字符串。

【技术特征摘要】
JP 2007-2-27 046925/20071、一种语音处理装置,包括语音接收单元,用于接收输入语音;语音处理单元,用于从所述输入语音获得文本字符串;分析单元,用于执行所述文本字符串的词素学分析;生成单元,用于将所述文本字符串分割成以预定的并且由至少一个词素组成的分割为单位的分量,并且生成包括部分所述分量的部分字符串候选;第一输出单元,用于将所述部分字符串候选输出到显示单元;以及选择接收单元,用于接收从所述部分字符串候选中所选择的部分字符串。2、 如权利要求1所述的装置,其中,所述语音处理单元对所述 输入语音执行语音识别处理,以获得识别的结果作为所述文本字符 串。3、 如权利要求2所述的装置,其中,所述语音接收单元接收第 一语言的所述输入语音,所述装置进一步包括翻译单元,用于将所接收的部分字符串翻译成第二语言,以获得 翻译结果;以及第二输出单元,用于输出所述翻译结果。4、 如权利要求l所述的装置,其中-所述语音接收单元接收第一语言的所述输入语音,以及 所述语音处理单元对所接收的输入语音执行语音识别处理,以获得识别的结果,并且将识别结果翻译成第二语言,以获得翻译的结果 作为所述文本字符串。5、 如权利要求1所述的装置,其中,所述生成单元将所述文本 字符串分割成以分割为单位的分量,并且生成包括部分所述分量的所 述部分字符串候选,其中所述分割是包括词语、分段和短语的句子的 句法结构单元。6、 如权利要求1所述的装置,其中,所述生成单元将所述文本 字符串分割成以分割为单位的分量,并且生成包括部分所述分量的所 述部分字符串候选,其中所述分割是包括数字、时间、程度、问候语 以及惯用表达中的至少一个的短语的语义单元。7、 如权利要求1所述的装置,进一步包括存储单元,用于将所接收的部分字符串和作为所述部分字符串的 生成源的所述文本字符串彼此关联地进行存储,其中所述选择接收单元将所接收的部分字符串和作为所...

【专利技术属性】
技术研发人员:知野哲朗釜谷聪史降幡建太郎
申请(专利权)人:株式会社东芝
类型:发明
国别省市:JP[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利