用于校正字幕的字幕校正设备和方法技术

技术编号:3589436 阅读:240 留言:0更新日期:2012-04-11 18:40
公开了用于校正字幕的字幕校正设备和方法。解决了人工为演示报告等等提供实时字幕成本高以及只使用自动语音识别时不能获得所需要的识别率,因此不能正确转换的问题。本发明专利技术的设备获得了语音识别结果的字符串和其置信因子。时间监视器对时间进行监视,并通过检查置信因子和时间状态判断是否延迟处理。当不延迟处理时,要求检查员进行人工判断,即根据处理的语音,对语音进行处理并对语音识别结果进行人工判断。当延迟处理时,通过使用所述置信因子进行自动判断。当字符串作为人工判断或自动判断的结果被判断为正确时,字符串作为已确认的字符串显示出来。当判断字符串不正确时,根据通过语音识别获得的下一候选、演示报告的文本和属性、脚本文本等等,通过匹配执行自动校正。自动校正之后的字符串被显示为未确认的字符串。

【技术实现步骤摘要】

本专利技术涉及字幕校正设备。具体来说,本专利技术涉及用于实时校正演示报告等等的语音识别结果的字幕的设备、方法、程序等等。
技术介绍
近年来,积极地鼓励为通过语音传输的信息提供字幕,以便保障有听觉障碍的人、年长者等等获取该信息。还可以想象,为演示报告等等中的语音提供字幕的需求也很强烈。作为提供这样的字幕的传统的方法,可以引用下面两个典型的方法。<重说> 重说是这样的方法发言者在收听语音时对着语音识别系统重说由实际发言者发出的语音。由于中间的重说者经过专门培训,他/她甚至可以在非常困难的情况下以较高的识别率重说语音。<速记> 速记是这样的方法,一般而言,几个人轮流输入由发言者提供的内容,同时概括该内容。然而,可以想像,由于其单位时间内的成本高,这样的人工提供字幕过程不太可能普及。因此,人们提出了通过使用语音识别技术实时创建字幕的许多方法。例如,专利文件1说明了通过语音识别并使用在制作电视节目时的判断最佳假设的方法来创建字幕的技术。此外,专利文件2还说明了通过2遍(2-pass)处理改善语音识别率的技术。另一方面,还说明了用于支持由检查员(审查员)人工地执行的检查和校正语音识别结果的操作的技术,而不只依赖语音识别(例如,专利文件3到5)。日本专利官方公开出版公报No.Hei 6(1994)-141240 日本专利官方公开出版公报No.2001-092496日本专利官方公开出版公报No.2003-316384日本专利官方公开出版公报No.2004-151614日本专利官方公开出版公报No.2005-258198
技术实现思路
一般而言,在语音识别中,在现实中不一定能获得所需要的识别率。例如,根据来自某一演示实验领域的信息,对于实时字幕,至少需要85%的识别率,更好的是90%。只通过语音识别就可以实现85%的识别率。然而,在现实中,识别率严重依赖于各种条件。因此,在很多情况下不能取得足够的识别率是不争的事实。例如,下面显示了某一演示实验的结果。平均识别率是81.8%(范围73.4%到89.2%。)此外,识别率超过85%的概率是27%,而识别率超过90%的概率是0%。此外,除了与识别率关联的问题之外,还有许多有问题的情况,如下所示。发言者发出的语音中包括的单词被语音识别以同样的方式错误地转换为不是发言者想要的有差别的表达、引起争议的表达等等。例如,意思为“实体”的″JI-TTAI″被错误地转换为含义为“自己的尸体”的″JI-I-TAI″。然后,那些表达没有经过校正被作为字幕显示出来,从而产生问题。此外,对于语音识别,处理专有名称也非常重要。因此,许多系统具有词典注册功能。然而,有这样的情况,当注册了好几个单词时,单词具有相同的声音,但是,以彼此不同的汉字书写。在此情况下,常常难以判断想要哪一个单词,然后执行了不正确的转换。例如,对于名字“Yasuko”,多个候选被注册为具有相同发音的不同专有名称,与具有相同发音但具有不同拼写的“Brown”和“Browne”的情况相同。类似地,可以肯定地为这样的系统提供用于注册和设置诸如数值之类的形式的功能。然而,注册是以单一一致的方式进行的。相应地,在自由发言的情况下,没有办法逐个单词地检查哪一个形式是发言者想要的。专利文件1和2中所描述的方法只取决于语音识别结果,没有包括由人进行检查的方法,校正不正确的识别的方法等等。相应地,可以想像,这些方法在处理不是发言者想要的引起争议的表达和有差别的表达时的效率不是那么好。此外,专利文件3说明了下列方法。具体来说,当发言者发出语音时,语音被转换为文本。检查员判断转换过来的文本中包括的每一个单词是否不正确。此后,当判断一个单词不正确时,将该判断呈现给发言者。然后,促使发言者一次又一次地重复语音,直到语音被正确地写出。然而,此方法给发言者带来了负担。此外,从技术的角度来看,不管没有正确地写出的单词重复了多少次,那些单词最后也不一定被正确地写出。因此,发言者的负担增大,从而涉及实时特征的问题仍存在。此外,在如专利文件4所描述的方法中,可以想像,由于检查和校正都是人工地进行的,涉及实时特征和成本的问题仍存在。同时,专利文件5的方法说明了用于与语音的再现同步地设置显示语音的预先确定的内容的时间的设备。然而,没有说明获得实时字幕显示的方法。如上文所描述的,在产生和校正实时字幕时会有许多问题。本专利技术要解决的问题如下。具体来说,本专利技术解决的第一个问题涉及实时特征。作为此问题的解决方案,本专利技术提供了一种字幕显示系统,该系统可以实时(换句话说,在最大允许延迟时间内)显示通过将语音转换为字符生成的字幕。此外,本专利技术解决的第二个问题涉及成本。作为此问题的解决方案,本专利技术提供了一种字幕显示系统,该系统使用比诸如重说和速记之类的传统的方法更加低廉的方法。此外,本专利技术解决的第三个问题涉及语音识别。作为此问题的解决方案,在本专利技术中,执行关键字匹配,以便与执行简单语音识别的情况相比进一步改善理解。通过执行关键字匹配,与执行简单语音识别的情况相比,有差别的表达和引起争议的表达的不正确的转换不是发言者所想要的,应尽可能地避免专有名称和形式的不正确的转换。本专利技术的目的是解决上文所描述的问题,从而提供便宜的设备、方法、程序等等,用于改善作为通过对诸如演示报告之类的语音执行语音识别而获得的实时字幕的字符串的准确性。本专利技术作为一个实施例提供了下列设备。提供了一种用于实时校正演示报告中的语音字幕的字幕校正设备。该字幕校正设备包括语音识别单元、判断分配单元、自动判断单元和人工判断单元。语音识别单元写出演示报告中的语音。然后,语音识别单元,作为语音识别的结果,输出候选字符串的一个或多个文本以及对应于相应候选字符串的语音识别的置信因子。判断分配单元通过使用所述置信因子、作业处理信息和预先确定的最大允许延迟时间,选择自动判断和人工判断中的一个,以便处理在所述候选字符串之中具有最高置信因子值的第一候选字符串。自动判断单元响应所述判断分配单元进行的自动判断的选择,自动地判断是否设置所述第一候选字符串作为确认的字符串。人工判断单元响应所述判断分配单元进行的人工判断的选择,人工地判断是否设置所述第一候选字符串作为确认的字符串。应该注意,这里所描述的“演示报告”不仅限于使用演示报告软件通过个人计算机等等进行的演示。演示报告还包括通过语音进行的信息传输,如电视节目。上文所描述的字幕校正设备可以进一步包括自动校正单元和字幕显示单元。自动校正单元作为校正结果输出根据匹配分数获得的关键字。这里,匹配分数是通过将演示报告的关键字列表与没有经过人工判断单元确认的字符串进行比较而获得的。字幕显示单元显示输出的已确认的字符串和字符串作为校正结果,同时区别这两种字符串。关键字列表是根据页面单元演示报告关键字DB(稍后描述)动态地生成的。作业处理信息包括当前延迟时间,语音识别单元中未处理的作业的数量,以及其平均作业处理时间。这里,作业可以被视为通过语音识别处理的最小单位,或判断置信因子的最小单位。此外,通过对语音识别单元的每个作业的处理时间和人工判断单元的每个作业的处理时间(或自动判断单元的每个作业的处理时间)的总和求平均值来获得平均作业处理时间。此外,本文档来自技高网
...

【技术保护点】
一种用于实时校正演示报告中的语音字幕的字幕校正设备,包括:语音识别单元,用于识别所述演示报告中的语音,并用于作为语音识别的结果,输出候选字符串的一个或多个文本以及对应于相应候选字符串的语音识别的置信因子;判断分配单元,用于通 过使用所述置信因子、作业处理信息和预先确定的最大允许延迟时间,选择自动判断和人工判断中的一个,以便处理在所述候选字符串之中具有最高置信因子值的第一候选字符串;自动判断单元,用于响应所述判断分配单元进行的自动判断的选择,自动地判断是否 设置所述第一候选字符串作为确认的字符串;以及人工判断单元,用于响应所述判断分配单元进行的人工判断的选择,手动判断是否设置所述第一候选字符串作为确认的字符串。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:宫本晃太郎荒川健一大钟俊也
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利