用于校正字幕文本中的错误的系统和方法技术方案

技术编号:22108011 阅读:27 留言:0更新日期:2019-09-14 05:26
描述了通过校正针对媒体资产的屏幕上字幕文本中的错误术语来解决常规系统中的缺点的系统和方法。在一些方面,系统和方法识别屏幕上字幕文本的文本片段中的错误术语,以及识别媒体资产的与该文本片段对应的一个或多个视频帧。该系统和方法还从所述一个或多个视频帧中识别与错误术语相关的上下文术语。通过访问知识图,该系统和方法基于上下文术语和文本片段的一部分来识别候选校正。最后,该系统和方法用候选校正替换错误术语。

System and method for correcting errors in subtitle text

【技术实现步骤摘要】
【国外来华专利技术】用于校正字幕文本中的错误的系统和方法
技术介绍
常规媒体系统可以将来自新闻节目的语音信息转换为副标题或隐藏字幕形式的屏幕上字幕文本。传统上,这个过程由人类速记员来处理。最近,媒体系统已经开始使用语音识别技术来解析语音信息并在与语音本身基本相同的时间将其显示为屏幕上字幕文本。但是,这些媒体系统受到它们的字典规模或人类速记员的知识的限制,并且常常无法识别某些艺术术语、新创建的流行语、外来名称或其它词和短语。使用自动语音识别(ASR)的媒体系统在处理同音词(听起来相似的词)时也处于不利地位。在新闻和体育节目中看到充满错误的屏幕上字幕文本并不罕见。在一些常规系统中,这些错误必须由经验丰富的人类速记员手动校正。但是,即使是人类速记员在打字时也可能不知道所有内容的正确词或拼写,并且可能容易造成排印错误。
技术实现思路
描述了通过自动校正媒体资产的音频转录的屏幕上字幕文本中的错误来解决常规媒体系统中的缺点的系统和方法。在一些实施例中,媒体指南应用通过基于从媒体资产本身导出的信息访问知识图来校正错误并从知识图中寻找错误的候选替换或校正。在一些实施例中,用于访问知识图的从媒体资产导出的信息可以是出现在围绕错误的媒体资产的一个或多个视频帧中的文本或图像,并且可以通过对视频帧执行文本或图像识别来识别,诸如通过使用光学字符识别(OCR)算法。用于访问知识图的信息也可以从屏幕上字幕文本本身的正确识别出的部分(诸如屏幕上字幕文本中的部分识别出的句子中的关键词)导出。在一些实施例中,媒体指南应用可以通过访问知识图来确定错误的一个或多个潜在校正,并基于它们与错误的语音相似性来对这些潜在校正加权,以便选择具有最高权重的候选校正。在一些实施例中,媒体指南应用还可以基于它们各自的时间戳来对它们加权,这指示潜在校正有多新。然后,媒体指南应用可以用候选校正来替换错误,并向观看者呈现无错的屏幕上字幕文本。例如,对于下面的句子中出现在新闻广播上的屏幕上字幕文本,媒体指南应用可能会在转录某国国家主席NAME1的名字时出错:“总统NAME2与国家主席NAME1之间的会面强调……”媒体指南应用的ASR系统可能无法识别名字“NAME1”,而是将上述句子转录为“总统NAME2与总统She-Jumping之间的会面强调……”。作为第一步,媒体指南应用可以将一个或多个自然语言处理(NLP)规则应用于转录的句子,并确定“She-Jumping”是错误术语,因为它不遵守一个或多个语法规则。为了校正错误术语,媒体指南应用可以从屏幕上字幕文本的正确识别出的部分中提取关键词(诸如“总统”),并基于该术语访问知识图。媒体指南应用还可以对围绕错误术语的视频帧执行OCR,并从视频帧识别诸如“某国”和“国事访问”之类的上下文术语。除了从屏幕上字幕文本中提取的关键词之外,媒体指南应用还可以基于这些上下文术语来访问知识图。通过分析在知识图中与这些术语相关联的节点和特性,媒体指南应用可以识别与“总统”、“某国”和“国事访问”相关的许多潜在校正,诸如“NAME1”和“NAME3”。然后,媒体指南应用可以用“NAME1”替换原始转录句中的“She-Jumping”,部分原因是两者在语音上相似。以下尤其是关于图1-4更详细地讨论本公开的这些和其它方面。在一些方面,所描述的系统和方法提供用于校正媒体资产的屏幕上字幕文本中的错误术语。媒体指南应用可以分析媒体资产的音频流以确定屏幕上字幕文本的第一文本片段。例如,媒体指南应用可以分析体育新闻评论的音频流并自动将其转录成屏幕上字幕文本。媒体指南应用可以将屏幕上字幕文本的第一文本片段确定为“虽然在针对divplatedate的新闻中,但是看汤姆·布雷迪如何表演将是有趣的”。在一些实施例中,媒体指南应用可以在屏幕上字幕文本的第一文本片段中识别出错误术语。例如,媒体指南应用可以识别出“divplatedate”是第一文本片段中的错误术语。在一些实施例中,媒体指南应用可以通过对第一文本片段执行自然语言处理以将第一文本片段与多个语法规则进行比较来识别错误术语。例如,媒体指南应用可以将上面的句子与需要词“div”后面跟着数字(例如,如“NCAAdivone”)的语法规则进行比较,并确定“divplatedate”是错误术语,因为它与该语法规则冲突。在一些实施例中,媒体指南应用可以从与第一文本片段对应的媒体资产的视频流中提取一个或多个视频帧。例如,媒体指南应用可以从媒体资产中提取与上述句子出现在音频流中的时间对应的视频帧。视频流可以是汤姆·布雷迪的新闻采访,其中包括几个视频帧,在横幅上显示以下句子:“小时新闻:爱国者队四分卫招致NFL禁赛”。媒体指南应用可以提取这些视频帧,因为它们对应的时间基本上与句子“虽然在针对divplatedate的新闻中,但是看汤姆·布雷迪如何表演将是有趣的”在新闻上播报的时间相同。在一些实施例中,媒体指南应用可以分析一个或多个视频帧中的第一视频帧以确定与错误术语相关联的上下文术语。例如,媒体指南应用可以用横幅覆盖图来分析视频帧,并确定来自横幅的上下文术语“爱国者队”和“NFL禁赛”与错误术语“divplatedate”相关联。在一些实施例中,媒体指南应用可以访问知识图,以基于上下文术语和第一文本片段的一部分来识别错误术语的候选校正。例如,媒体指南应用可以基于上下文术语“NFL禁赛”和转录句子“虽然在针对……的新闻中,但是看汤姆·布雷迪如何表演将是有趣的”的一部分(“汤姆·布雷迪”)来访问知识图。在一些实施例中,媒体指南应用可以从第一文本片段的部分提取关键词。例如,从第一文本片段的不包含错误术语“divplatedate”的部分,媒体指南应用可以提取关键词“汤姆·布雷迪”。在一些实施例中,媒体指南应用可以在知识图中搜索与上下文术语和关键词对应的节点。继续上面的示例,媒体指南应用可以在知识图中搜索与上下文术语“NFL禁赛”和关键词“汤姆·布雷迪”对应的节点。在一些实施例中,媒体指南应用可以分析节点以寻找与上下文术语和关键词相关联的特性。例如,媒体指南应用可以分析“汤姆·布雷迪”节点并找到诸如出生日期(“1977年8月3日”)、高度(“6英尺4英寸”)、40码短跑时间(“5.28s”)和球队(“新英格兰爱国者队”),并分析“NFL禁赛”节点,其包含姓名(“OdellBeckhamJr.”、“汤姆·布雷迪”、“JoshBrown”……)、长度(“1”、“4”、“1”……)和原因(“碰撞”、“Deflategate”、“个人行为”……)。在一些实施例中,特性可以各自与知识图中的一个或多个不同节点对应。例如,“个人行为”和“Deflategate”可以各自是节点以及另一个节点的特性。在一些实施例中,媒体指南应用可以基于与上下文术语和关键词相关联的特性来确定至少一个其它节点,其中这至少一个其它节点与候选校正对应。例如,媒体指南应用可以基于“汤姆·布雷迪”和“NFL禁赛”的前述特性来确定“Deflategate”节点是错误术语的候选校正。在一些实施例中,媒体指南应用可以用候选校正替换屏幕上字幕文本的第一文本片段中的错误术语。例如,媒体指南应用可以用候选校正“Deflategate”替换错误术语“divplatedate”,使得第一文本片段现在读作本文档来自技高网...

【技术保护点】
1.一种用于校正针对媒体资产的屏幕上字幕文本中的错误术语的方法,包括:识别屏幕上字幕文本的文本片段中的错误术语;识别与所述文本片段对应的所述媒体资产的一个或多个视频帧;从所述一个或多个视频帧中识别与所述错误术语相关的上下文术语;访问知识图,以基于所述上下文术语和所述文本片段的一部分来识别候选校正;以及用所述候选校正替换所述错误术语。

【技术特征摘要】
【国外来华专利技术】1.一种用于校正针对媒体资产的屏幕上字幕文本中的错误术语的方法,包括:识别屏幕上字幕文本的文本片段中的错误术语;识别与所述文本片段对应的所述媒体资产的一个或多个视频帧;从所述一个或多个视频帧中识别与所述错误术语相关的上下文术语;访问知识图,以基于所述上下文术语和所述文本片段的一部分来识别候选校正;以及用所述候选校正替换所述错误术语。2.一种用于校正媒体资产的屏幕上字幕文本中的错误术语的方法,包括:分析媒体资产的音频流,以确定屏幕上字幕文本的第一文本片段;识别所述屏幕上字幕文本的第一文本片段中的错误术语;从与所述第一文本片段对应的所述媒体资产的视频流中提取一个或多个视频帧;分析所述一个或多个视频帧中的第一视频帧,以确定与所述错误术语相关联的上下文术语;访问知识图,以基于所述上下文术语和所述第一文本片段的一部分来识别所述错误术语的候选校正;以及用所述候选校正替换隐藏字幕文本的所述第一文本片段中的所述错误术语。3.如权利要求2所述的方法,其中识别所述第一文本片段中的错误术语还包括对所述第一文本片段执行自然语言处理,以将所述第一文本片段与多个语法规则进行比较。4.如权利要求2所述的方法,其中所述屏幕上字幕文本的第一文本片段是带时间戳的,并且其中所述第一视频帧是在媒体资产的与所述错误术语在带时间戳的第一文本片段中的位置对应的位置处提取的。5.如权利要求2所述的方法,其中访问知识图以基于所述上下文术语和所述第一文本片段的一部分识别候选校正还包括:从所述第一文本片段的所述部分中提取关键词;在知识图中搜索与所述上下文术语和所述关键词对应的节点;分析所述节点以查找与所述上下文术语和所述关键词相关联的特性;以及基于与所述上下文术语和所述关键词相关联的特性来确定至少一个其它节点,其中所述至少一个其它节点与候选校正相对应。6.如权利要求2所述的方法,还包括:识别所述屏幕上字幕文本的第二文本片段中的错误术语;分析与所述第二文本片段对应的第二视频帧,以确定与所述错误术语相关联的第二上下文术语;访问知识图,以基于所述第一上下文术语、所述第二上下文术语、所述第一文本片段的一部分和所述第二文本片段的一部分来识别更新的候选校正;以及用所述更新的候选校正来替换所述屏幕上字幕文本的所述第二文本片段中的所述错误术语。7.如权利要求6所述的方法,还包括用所述更新的候选校正替换所述第一文本片段中的候选校正。8.如权利要求2所述的方法,其中访问知识图以识别所述错误术语的候选校正还包括:从知识图确定所述错误术语的多个潜在校正;基于所述确定,为所述多个潜在校正中的每个潜在校正指派权重;以及识别与最高权重相关联的潜在校正作为候选校正。9.如权利要求8所述的方法,其中为所述多个潜在校正中更新近的潜在校正指派更高的权重。10.如权利要求8所述的方法,还包括:基于语音算法确定潜在候选校正与所述错误术语之间的语音相似性得分;以及为具有更高语音相似性得分的潜在候选校正指派更高的权重。11.如权利要求2所述的方法,其中访问知识图以基于所述上下文术语和所述第一文本片段的一部分来识别候选校正还包括更新知识图的现有节点。12.一种用于校正媒体资产的屏幕上字幕文本中的错误术语的系统,包括:存储知识图的存储器;以及控制电路系统,被配置为:分析媒体资产的音频流,以确定屏幕上字幕文本的第一文本片段;识别所述屏幕上字幕文本的第一文本片段中的错误术语;从与所述第一文本片段对应的媒体资产的视频流中提取一个或多个视频帧;分析所述一个或多个视频帧中的第一视频帧,以确定与所述错误术语相关联的上下文术语;访问知识图,以基于所述上下文术语和所述第一文本片段的一部分来识别所述错误术语的候选校正;以及用所述候选校正来替换隐藏字幕文本的第一文本片段中的所述错误术语。13.如权利要求12所述的系统,其中所述控制电路系统还被配置为识别所述第一文本片段中的所述错误术语还包括对所述第一文本片段执行自然语言处理,以将所述第一文本片段与多个语法规则进行比较。14.如权利要求12所述的系统,其中所述屏幕上字幕文本的第一文本片段是带时间戳的,并且其中所述第一视频帧是在媒体资产的与所述错误术语在带时间戳的第一文本片段中的位置对应的位置处提取的。15.如权利要求12所述的系统,其中所述控制电路系统还被配置为通过以下各项来访问知识图以基于所述上下文术语和所述第一文本片段的一部分来识别候选校正:从所述第一文本片段的所述部分中提取关键词;在知识图中搜索与所述上下文术语和所述关键词对应的节点;分析所述节点以查找与所述上下文术语和所述关键词相关联的特性;以及基于与所述上下文术语和所述关键词相关联的特性来确定至少一个其它节点,其中所述至少一个其它节点与候选校正相对应。16.如权利要求12所述的系统,其中所述控制电路系统还被配置为:识别所述屏幕上字幕文本的第二文本片段中的错误术语;分析与所述第二文本片段对应的第二视频帧,以确定与所述错误术语相关联的第二上下文术语;访问知识图,以基于所述第一上下文术语、所述第二上下文术语、所述第一文本片段的一部分和所述第二文本片段的一部分来识别更新的候选校正;以及用更新的候选校正替换所述屏幕上字幕文本的所述第二文本片段中的错误术语。17.如权利要求16所述的系统,其中所述控制电路系统还被配置为用更新的候选校正替换所述第一文本片段中的候选校正。18.如权利要求12所述的系统,其中所述控制电路系统还被配置为通过以下各项来访问知识图以识别所述错误术语的候选校正:从知识图确定所述错误术语的多个潜在校正;基于所述确定,为所述多个潜在校正中的每个潜在校正指派权重;以及识别与最高权重相关联的潜在校正作为候选校正。19.如权利要求18所述的系统,其中为所述多个潜在校正中更新近的潜在校正指派更高的权重。20.如权利要求18所述的系统,其中所述控制电路系统还被配置为:基于语音算法确定潜在候选校正与所述错误术语之间的语音相似性得分;以及为具有更高语音相似性得分的潜在候选校正指派更高的权重。21.如权利要求12所述的系统,其中所述控制电路系统还被配置为访问知识图以通过更新知识图的现有节点来基于所述上下文术语和所述第一文本片段的所述部分来识别所述候选校正。22.一种用于校正媒体资产的屏幕上字幕文本中的错误术语的设备,包括:用于分析媒体资产的音频流以确定屏幕上字幕文本的第一文本片段的装置;用于识别所述屏幕上字幕文本的第一文本片段中的错误术语的装置;用于从与所述第一文本片段对应的所述媒体资产的视频流中提取一个或多个视频帧的装置;用于分析所述一个或多个视频帧中的第一视频帧以确定与所述错误术语相关联的上下文术语的装置;用于访问知识图以基于所述上下文术语和所述第一文本片段的一部分来识别所述错误术语的候选校正的装置;以及用于用所述候选校正替换隐藏字幕文本的第一文本片段中的所述错误术语的装置。23.如权利要求22所述的设备,其中用于识别所述第一文本片段中的错误术语的装置还包括用于对所述第一文本片段执行自然语言处理以将所述第一文本片段与多个语法规则进行比较的装置。24.如权利要求22所述的设备,其中所述屏幕上字幕文本的第一文本片段是带时间戳的,并且其中所述第一视频帧是在媒体资产的与所述错误术语在带时间戳的第一文本片段中的位置对应的位置处提取的。25.如权利要求22所述的设备,其中用于访问知识图以基于所述上下文术语和所述第一文本片段的一部分来识别候选校正的装置还包括:用于从所述第一文本片段的所述部分中提取关键词的装置;用于在知识图中搜索与所述上下文术语和所述关键词对应的节点的装置;用于分析所述节点以查找与所述上下文术语和所述关键词相关联的特性的装置;以及用于基于与所...

【专利技术属性】
技术研发人员:A·K·古普塔A·S·萨瓦尔卡尔
申请(专利权)人:乐威指南公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1