一种信息处理设备,包括:存储器,用于存储多个语音信号;文本生成器,用于通过对语音信号进行语音识别,生成多个语言文本;关键字提取器,用于从语言文本中提取多个关键字;以及显示设备,用于动态地显示关键字。(*该技术在2024年保护过期,可自由使用*)
【技术实现步骤摘要】
本专利技术涉及一种信息处理设备,更具体地说,涉及一种基于语音识别结果的信息处理设备以输出语言信息、及其信息处理方法。
技术介绍
近年来有关使用通过语音信号的语音识别结果所获得的语言信息的元数据生成的研究非常盛行。将所生成的元数据应用到语音信号中对于数据管理或搜索非常有用。例如,日本专利申请公开第8-249343号提供了一种通过从音频数据的语音识别结果所获得的语言文本中提取特定表达和关键字、并将其编入索引以建立音频数据库来实现期望的音频数据的搜索的技术。已经存在一种技术,将通过语音识别结果获得的语言文本用作数据管理或搜索的元数据。但是,还没有动态地显示语音识别结果的语言文本以便使用户能够容易地理解语音内容和相应于所述语音的视频内容、并执行重放控制的技术。本专利技术的目的是提供一种通过语音识别能够生成语言文本并动态地显示所述语言文本的。
技术实现思路
根据本专利技术的一个方面,提供一种使用视频-音频信号的信息处理设备,包括语音重放单元,用于从视频-音频信号重放语音信号;语音识别单元,用于对语音信号进行语音识别;文本生成器,通过使用语音识别单元的语音识别结果,用于生成具有语言要素和用于与语音信号的重放同步的时间信息的语言文本;呈现单元,用于有选择地与语音重放单元重放的语音信号同步呈现语言要素和时间信息。根据本专利技术的另一方面,提供一种信息处理方法,包括对语音信号进行语音识别以获取语音识别结果;根据语音识别结果生成包括语言要素和用于与语音信号的重放同步的时间信息的语言文本;重放语音信号;以及有选择地与重放语音信号同步显示语言要素和时间信息。根据本专利技术的第三方面,提供一种信息处理设备,包括存储器,用于存储多个语音信号;文本生成器,用于通过对语音信号进行语音识别,生成多个语言文本;关键字提取器,用于从语言文本中提取多个关键字;以及显示设备,用于动态地显示关键字。根据本专利技术的第四方面,提供一种信息处理方法,包括存储多个语音信号;对语音信号进行语音识别以生成多个语言文本;从语言文本中提取多个关键字;以及动态显示关键字。附图说明图1是说明与本专利技术的第一实施例相关的电视接收机的示意结构的方框图。图2示出语言信息输出单元执行的详细处理过程的流程图。图3示出基于语音识别结果的语言信息输出的示例。图4示出用于设置呈现方法的处理过程示例的流程图。图5是说明关键字封闭字幕显示示例的图。图6是与本专利技术的第二实施例相关的家庭服务器的示意结构的方框图。图7是说明家庭服务器提供的搜索屏幕的示例的图。图8是说明基于关键字滚动显示的内容选择状态的图。具体实施例方式下面将参照附图描述根据本专利技术的实施例。(第一实施例)图1是说明与本专利技术的第一实施例相关的电视接收机的示意结构的方框图。该电视接收机包括调谐器10,连接到无线天线以接收广播的视频-音频信号;以及数据分离器11,用于将调谐器10接收的视频-音频信号(AV(音频视频)信息)输出到AV信息延迟单元12。另外,该数据分离器从视频-音频信号中分离语音信号,将其输出到语音识别单元13。该电视接收机还包括语音识别单元13,用于对数据分离器11输出的语音信号进行语音识别;以及语言信息输出单元14,根据语音识别单元13的语音识别结果,生成具有包括语言要素例如单词的语言文本和用于与语音信号的重放同步的时间信息的语言信息。AV信息延迟单元(存储器)12临时存储数据分离器11输出的AV信息。延迟该AV信息一直到该AV信息由语音识别单元13进行语音识别为止。语言信息根据语音识别结果来生成。当生成的语言信息从语言信息输出单元14输出时,该AV信息从AV信息延迟单元12输出。语音识别单元13从语音信号中获取包括所有可识别单词的部分语音信息的信息作为语言信息。从AV信息延迟单元12输出的延迟AV信息和从语言信息输出单元14输出的语言信息供应到同步处理器15。同步处理器15重放延迟的AV信息。此外,同步处理器15将包括在语言信息中的语言文本转换成视频信号,并将其与AV信息的重放同步地输出到显示控制器16。同步处理器15重放的AV信息的语音信号通过音频电路21输入到扬声器22,并且视频重放信号提供给显示控制器16。显示控制器16同步语言文本的视频信号和AV信息的图像信号,并将其提供给显示器17进行显示。从语言信息输出单元14输出的语言信息可以存储在诸如HDD的记录器18或诸如DVD 19的记录介质中。图2示出语言信息输出单元14执行的详细处理过程的流程图。首先,在步骤S1,语言信息输出单元14从语音识别单元13获取语音识别结果。语言信息的呈现方法与语音识别一起设定或者事先设定(步骤S2)。用于设定呈现方法的信息的获取将在下文中描述。在步骤S3,分析包括在语音识别单元13所获得的语音识别结果中的语言文本。该分析可以采用公知的词素分析技术。执行各种自然语言处理,比如从语言文本的分析结果中提取关键字和重要句子。例如,可以根据包括在语音识别结果中的语言文本的词素分析结果生成概要信息,并用作将要呈现的对象的语言信息。应该注意的是,用于与语音信号的重放进行同步的时间信息对于基于该概要信息的语言信息是必要的。在步骤S4,对呈现语言信息进行选择。具体地说,根据诸如选择基础、呈现量之类的设定信息,选择关于单词和短语的信息或者关于句子的信息。在步骤S5,确定在步骤S4中选择的呈现语言信息的输出(呈现)单元。在步骤S6,根据语音开始时间信息设置每个输出单元的呈现时间。在步骤S7,为每一个输出单元确定呈现延续的时间长度。在步骤S8,输出代表呈现符号、呈现开始时间、以及呈现延续时间长度的语言信息。图3示出基于语音识别结果的语言信息的示例。语音识别结果30包括至少一个代表语言文本的语言元素的字符串300、以及与字符串300相对应的语音信号的语音开始时间301。该语音开始时间301对应于与语音信号的重放同步显示语言信息时参照的时间信息。语言信息输出31代表语言信息输出单元14根据设置的呈现方法执行处理所获得的结果。该语言信息输出31包括呈现符号310、呈现开始时间311、以及呈现延续时间长度(秒)312。从图3中可以看出,呈现符号310是选作关键字例如一个名词的语言要素。日语的小品词排除在呈现符号310之外。例如,在“5秒”的连续时间内,呈现符号“TOKYO”从呈现开始时间“10:03:08”开始显示。该语言信息输出31可以与图像一起输出作为所谓的封闭字幕(closed caption)或仅与语音同步的语言信息。图4示出用于设置呈现方法的处理过程示例的流程图。例如,该用于设置呈现方法的处理过程使用例如GUI(图形用户接口)技术通过对话屏幕等来执行。首先,在步骤S10,判断是否呈现关键字(重要单词或短语)。当呈现关键字时,处理前进到步骤S11。否则,处理前进到步骤S12。当呈现关键字时,以句子为单元选择语言信息并呈现。在用于设置呈现单词或短语的生成以及选择基准的步骤S11,用户设置部分语音规范、重要单词或短语呈现、优先呈现单词或短语、呈现数量。在用于设置呈现句子生成以及选择基准的步骤S12,用户设置包括指定单词或短语、概要比等的句子代表。当通过步骤S11或步骤S12进行设置时,处理前进到步骤S13。在步骤S13,判断是否应该动态呈现语言信息。当用户指令本文档来自技高网...
【技术保护点】
一种信息处理设备,包括:存储器,用于存储多个语音信号;文本生成器,用于通过对语音信号进行语音识别,生成多个语言文本;关键字提取器,用于从语言文本中提取多个关键字;以及显示设备,用于动态地显示关键字。
【技术特征摘要】
JP 2003-8-15 207622/20031.一种信息处理设备,包括存储器,用于存储多个语音信号;文本生成器,用于通过对语音信号进行语音识别,生成多个语言文本;关键字提取器,用于从语言文本中提取多个关键字;以及显示设备,用于动态地显示关键字。2.根据权利要求1所述的设备,其中显示设备针对每一个语言文本动态地显示多个关键字。3.根据权利要求1所述的设备,还包括选择器,用于从存储器的语音信号中选择与多个关键字中用户所指定的关键字相对应的语音信号;以及语音再现单元,用于再现选择器所选择的语音信号。4.根据权利要求3所述的设备,其中显示设备针对每一个语言文本动态地显示多个关键字。5.根据权利要求3所述并适用用户终端的设备,还包括发送器,用于通过...
【专利技术属性】
技术研发人员:阿部一彦,河村聪典,正井康之,矢岛真人,桃崎浩平,笹岛宗彦,山本幸一,
申请(专利权)人:株式会社东芝,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。