声音处理系统技术方案

技术编号:11246660 阅读:128 留言:0更新日期:2015-04-01 19:42
提供一种能够提高声音识别的精度且用户容易利用的声音处理系统。声音处理系统如果接受了讲话声音,则进行声音识别,并显示识别结果的文本(158)。声音处理系统进一步按照设定来将该识别结果翻译成其他语言的文本(176)后进行显示,并且产生其合成声音。声音处理系统进一步使用讲话时的各种传感器的输出、预先完成学习的讲话连续模型、讲话候补的翻译以及声音识别得分,选择作为下一次讲话讲出的概率高且翻译以及声音识别得分也高的讲话候补,作为讲话候补推荐列表(192)来进行推荐。用户能够以该讲话候补推荐列表(192)内的讲话作为启发,考虑下一次讲话。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】本专利技术提供一种能够提高声音识别的精度且用户容易利用的声音处理系统。声音处理系统如果接受了讲话声音,则进行声音识别,并显示识别结果的文本(158)。声音处理系统进一步按照设定来将该识别结果翻译成其他语言的文本(176)后进行显示,并且产生其合成声音。声音处理系统进一步使用讲话时的各种传感器的输出、预先完成学习的讲话连续模型、讲话候补的翻译以及声音识别得分,选择作为下一次讲话讲出的概率高且翻译以及声音识别得分也高的讲话候补,作为讲话候补推荐列表(192)来进行推荐。用户能够以该讲话候补推荐列表(192)内的讲话作为启发,考虑下一次讲话。【专利说明】声音处理系统以及终端装置
本专利技术涉及使用了声音识别的服务,特别涉及户能够顺畅地进行使用了声音识别的交流的技术。
技术介绍
伴随着移动电话特别是所谓智能电话的普及,出现了各种应用程序。其中,在输入中使用声音的应用程序被认为在今后会进一步得到普及。这是因为在智能手机这样小的装置中存在难以进行文本输入问题。 在输入中使用声音的应用程序之中,若是仅朗读“是/否(?: U / tUl ) ”等显示于画面的字符串的应用程序,用户不会对应当说什么而感到迷茫。但是,在例如如声音翻译这样将声音输入用作与他人进行交流的工具的情况下,由于想不到应该用声音输入什么样的内容才好,所以用户有时会对应用程序的使用感到犹豫。例如,考虑用户尝试使用声音翻译的应用程序的情况。在做尝试时,经常会经历到用户没有认真思考应当说的语言。 进一步地,大多情况下在实际发出声音之前,会发出“嗯”、“啊”之类的没有含义的声音。在声音识别中,这样没有含义的声音会降低声音识别的精度。 如上所述,虽然要说些什么但大多情况下却想不到说些什么才好这样的问题并不限于声音翻译。在多人会话中也可能存在同样的情况。例如,存在以下情况:虽然正在进行会话,但是话题中断,想不到接下来说些什么才好。 在专利文献I中公开了一种话题提供装置,用于在多人的会话中,当会话的话题中断时提供话题。该专利文献I公开的系统使用话题数据库,该话题数据库预先将话题和与该话题相关的关键字建立关联后存储,其中,关键字来自于被共同用于多个话题中的观点。准备多个观点。该系统从用户的会话中提取词句,针对多个观点中的每一个观点,计算其权重,进一步地,针对在最后提示给用户的话题和存储在话题数据库中的话题,按每个观点计算出相似度,将该相似度乘以针对各观点计算出的权重,并计算出这些乘法值之和。然后,将该和最大的话题作为新话题而提示给用户。作为多个观点,可列举相当于所谓“5W1H”的观点。 根据专利文献1,通过该装置,能够提供与成为当前会话的中心的观点相接近而对于其他观点来说相差较多的话题。 在先技术文献 专利文献 专利文献1:JP特开2011-123530号公报
技术实现思路
专利技术要解决的课题 但是,在专利文献I记载的专利技术中,虽然如果会话的内容丰富到一定程度就能够确定话题,但是如果会话较短,则存在难以决定应当提供的话题的问题。特别是,在使用了声音翻译的会话这样讲话非常短的情况下,很难应用专利文献I记载的专利技术。 进一步,作为在声音翻译中特有的问题,存在讲话人过多地考虑如何讲话才能正确地进行声音识别并正确地进行翻译的问题。为此,会迷惑如何讲、讲些什么,其结果,大多情况下都会降低声音翻译的精度。当然,如果用户说了容易声音识别且容易自动翻译的话,则对于声音翻译来说是优选的。但是,为此,会使讲话本身变得困难,所以不能充分地发挥声音翻译的效果。 因此,本专利技术提供一种能够提高声音识别的精度且用户容易利用的声音处理系统以及由这样的声音处理系统利用的终端装置。 本专利技术的其他目的是提供一种能够提高声音识别的精度和利用声音识别的结果来提供的声音服务的精度、且用户容易利用的声音处理系统、以及由这样的声音处理系统利用的终端装置。 用于解决课题的手段 本专利技术的第I方面涉及的声音处理系统包括:讲话输入部件,用于接受讲话信息的输入,该讲话信息包含表示讲话的声音信号和表示完成该讲话的环境的规定环境信息;声音识别部件,用于对讲话输入部件接受的讲话信息内的声音信号进行声音识别,并将识别结果作为文本来输出;数据处理部件,对声音识别部件输出的文本执行规定的数据处理;讲话连续模型存储部件,用于存储以统计方式学习完毕的讲话连续模型,统计方式学习如下:如果接受了讲话的文本和规定环境信息,则能够针对规定的讲话集合之中的讲话,计算出由文本表示的讲话之后连续讲出的概率;讲话存储部件,用于存储数据处理部件对规定的讲话集合内的讲话和针对该讲话集合内的各个讲话进行了处理时的数据处理的可靠度;以及讲话候补推荐部件,使用讲话输入部件对声音识别部件接受的讲话信息的识别结果和该讲话信息中包含的环境信息,基于以规定的形式将使用存储在讲话连续模型存储部件中的讲话连续模型对规定集合内的各讲话计算出的概率、和存储在讲话存储部件中的针对规定集合内的各讲话的数据处理的可靠度进行组合而得到的评价得分,在多个讲话的集合内,对推荐给进行了声音识别部件识别出的讲话的用户的讲话候补附加得分,并基于该得分而向用户推荐讲话候补。 如果讲话输入部件接受讲话信息的输入,则声音识别部件进行针对讲话信息中的声音信号的声音识别,并输出识别结果的文本。数据处理部件对该文本进行数据处理。使用识别结果的文本和包含在讲话信息中的环境信息,讲话候补推荐部件借助讲话连续模型来计算出各讲话成为下一次讲话的概率,进一步使用该概率和数据处理中的各讲话的可靠度,进行推荐为下一次讲话的讲话的得分附加,根据该结果推荐下一次讲话候补。 由于推荐了下一次讲话的候补,所以用户能够将该讲话候补作为启发来考虑下一次讲话。由此,能够降低想不出该讲什么而使得用户感到不知所措的事态发生的危险性。 优选,数据处理部件包括自动翻译部件,该自动翻译部件受理接受某讲话后声音识别部件输出的识别结果,将该识别结果自动翻译成与某讲话的语言不同的其他语言,并作为文本来输出。可靠度是该自动翻译部件的翻译结果作为相对于某讲话的其他语言的翻译的似然性。 更优选,数据处理部件还包括声音合成部件,该声音合成部件用于基于自动翻译部件输出的其他语言的文本来对其他语言的声音信号进行合成。 讲话候补推荐部件也可以包括以下部件,该部件用于基于使用讲话连续模型对规定集合内的各讲话计算出的概率、与存储在讲话存储部件中的针对规定集合内的各讲话的可靠度之间的线性和的评价,在多个讲话的集合内推测声音识别部件进行声音识别的讲话之后的后续讲话的候补。此时,线性和中的可靠度和概率的系数都是正数。 优选,声音处理系统还包括讲话候补提示部件,该讲话候补提示部件用于向用户提示由讲话候补推荐部件推荐的下一次的讲话候补。 更优选,声音处理系统还包括讲话文本信息输入部件,该讲话文本信息输入部件用于接受包含表示讲话的文本和规定环境信息在内的讲话文本信息的输入,取代声音识别部件的输出而将该讲话文本信息内的文本提供至讲话候补推荐部件以及数据处理部件。 本专利技术的第2方面涉及的终端装置包括:包括:麦克风;用于收集与周围环境相关的信息的传感器的集合;显示装置;通信装置;以及讲话信息发送部件,本文档来自技高网
...
声音处理系统

【技术保护点】
一种声音处理系统,包括:讲话输入部件,用于接受讲话信息的输入,该讲话信息包含表示讲话的声音信号和表示完成该讲话的环境的规定环境信息;声音识别部件,用于对所述讲话输入部件接受的讲话信息内的声音信号进行声音识别,并将识别结果作为文本来输出;数据处理部件,对所述声音识别部件输出的文本执行规定的数据处理;讲话连续模型存储部件,用于存储以统计方式学习完毕的讲话连续模型,统计方式学习完毕的讲话连续模型如下:如果接受了讲话的文本和所述规定环境信息,则能够针对规定的讲话集合之中的讲话,计算出由所述文本表示的讲话之后连续讲出的概率;讲话存储部件,用于存储所述数据处理部件对所述规定的讲话集合内的讲话和针对该讲话集合内的各个讲话进行了处理时的数据处理的可靠度;以及讲话候补推荐部件,使用所述声音识别部件对所述讲话输入部件接受的讲话信息的识别结果和该讲话信息中包含的环境信息,基于以规定的形式将使用存储在所述讲话连续模型存储部件中的所述讲话连续模型对所述规定集合内的各讲话计算出的概率、和存储在所述讲话存储部件中的针对所述规定集合内的各讲话的所述数据处理的可靠度进行组合而得到的评价得分,在所述多个讲话的集合内,对推荐给进行了所述声音识别部件识别出的讲话的用户的讲话候补附加得分,并基于该得分而向用户推荐讲话候补。...

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:杉浦孔明大熊英男木村法幸志贺芳则林辉昭水上悦雄
申请(专利权)人:独立行政法人情报通信研究机构
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1