用于校正字幕文本中的错误的系统和方法技术方案

技术编号：22108011 阅读：27 留言：0更新日期：2019-09-14 05:26

描述了通过校正针对媒体资产的屏幕上字幕文本中的错误术语来解决常规系统中的缺点的系统和方法。在一些方面，系统和方法识别屏幕上字幕文本的文本片段中的错误术语，以及识别媒体资产的与该文本片段对应的一个或多个视频帧。该系统和方法还从所述一个或多个视频帧中识别与错误术语相关的上下文术语。通过访问知识图，该系统和方法基于上下文术语和文本片段的一部分来识别候选校正。最后，该系统和方法用候选校正替换错误术语。

System and method for correcting errors in subtitle text

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于校正字幕文本中的错误的系统和方法
技术介绍
常规媒体系统可以将来自新闻节目的语音信息转换为副标题或隐藏字幕形式的屏幕上字幕文本。传统上，这个过程由人类速记员来处理。最近，媒体系统已经开始使用语音识别技术来解析语音信息并在与语音本身基本相同的时间将其显示为屏幕上字幕文本。但是，这些媒体系统受到它们的字典规模或人类速记员的知识的限制，并且常常无法识别某些艺术术语、新创建的流行语、外来名称或其它词和短语。使用自动语音识别(ASR)的媒体系统在处理同音词(听起来相似的词)时也处于不利地位。在新闻和体育节目中看到充满错误的屏幕上字幕文本并不罕见。在一些常规系统中，这些错误必须由经验丰富的人类速记员手动校正。但是，即使是人类速记员在打字时也可能不知道所有内容的正确词或拼写，并且可能容易造成排印错误。
技术实现思路
描述了通过自动校正媒体资产的音频转录的屏幕上字幕文本中的错误来解决常规媒体系统中的缺点的系统和方法。在一些实施例中，媒体指南应用通过基于从媒体资产本身导出的信息访问知识图来校正错误并从知识图中寻找错误的候选替换或校正。在一些实施例中，用于访问知识图的从媒体资产导出的信息可以是出现在围绕错误的媒体资产的一个或多个视频帧中的文本或图像，并且可以通过对视频帧执行文本或图像识别来识别，诸如通过使用光学字符识别(OCR)算法。用于访问知识图的信息也可以从屏幕上字幕文本本身的正确识别出的部分(诸如屏幕上字幕文本中的部分识别出的句子中的关键词)导出。在一些实施例中，媒体指南应用可以通过访问知识图来确定错误的一个或多个潜在校正，并基于它们与错误的语音相似性来对这些潜在校正加权，以...

【技术保护点】
1.一种用于校正针对媒体资产的屏幕上字幕文本中的错误术语的方法，包括：识别屏幕上字幕文本的文本片段中的错误术语；识别与所述文本片段对应的所述媒体资产的一个或多个视频帧；从所述一个或多个视频帧中识别与所述错误术语相关的上下文术语；访问知识图，以基于所述上下文术语和所述文本片段的一部分来识别候选校正；以及用所述候选校正替换所述错误术语。

【技术特征摘要】
【国外来华专利技术】1.一种用于校正针对媒体资产的屏幕上字幕文本中的错误术语的方法，包括：识别屏幕上字幕文本的文本片段中的错误术语；识别与所述文本片段对应的所述媒体资产的一个或多个视频帧；从所述一个或多个视频帧中识别与所述错误术语相关的上下文术语；访问知识图，以基于所述上下文术语和所述文本片段的一部分来识别候选校正；以及用所述候选校正替换所述错误术语。2.一种用于校正媒体资产的屏幕上字幕文本中的错误术语的方法，包括：分析媒体资产的音频流，以确定屏幕上字幕文本的第一文本片段；识别所述屏幕上字幕文本的第一文本片段中的错误术语；从与所述第一文本片段对应的所述媒体资产的视频流中提取一个或多个视频帧；分析所述一个或多个视频帧中的第一视频帧，以确定与所述错误术语相关联的上下文术语；访问知识图，以基于所述上下文术语和所述第一文本片段的一部分来识别所述错误术语的候选校正；以及用所述候选校正替换隐藏字幕文本的所述第一文本片段中的所述错误术语。3.如权利要求2所述的方法，其中识别所述第一文本片段中的错误术语还包括对所述第一文本片段执行自然语言处理，以将所述第一文本片段与多个语法规则进行比较。4.如权利要求2所述的方法，其中所述屏幕上字幕文本的第一文本片段是带时间戳的，并且其中所述第一视频帧是在媒体资产的与所述错误术语在带时间戳的第一文本片段中的位置对应的位置处提取的。5.如权利要求2所述的方法，其中访问知识图以基于所述上下文术语和所述第一文本片段的一部分识别候选校正还包括：从所述第一文本片段的所述部分中提取关键词；在知识图中搜索与所述上下文术语和所述关键词对应的节点；分析所述节点以查找与所述上下文术语和所述关键词相关联的特性；以及基于与所述上下文术语和所述关键词相关联的特性来确定至少一个其它节点，其中所述至少一个其它节点与候选校正相对应。6.如权利要求2所述的方法，还包括：识别所述屏幕上字幕文本的第二文本片段中的错误术语；分析与所述第二文本片段对应的第二视频帧，以确定与所述错误术语相关联的第二上下文术语；访问知识图，以基于所述第一上下文术语、所述第二上下文术语、所述第一文本片段的一部分和所述第二文本片段的一部分来识别更新的候选校正；以及用所述更新的候选校正来替换所述屏幕上字幕文本的所述第二文本片段中的所述错误术语。7.如权利要求6所述的方法，还包括用所述更新的候选校正替换所述第一文本片段中的候选校正。8.如权利要求2所述的方法，其中访问知识图以识别所述错误术语的候选校正还包括：从知识图确定所述错误术语的多个潜在校正；基于所述确定，为所述多个潜在校正中的每个潜在校正指派权重；以及识别与最高权重相关联的潜在校正作为候选校正。9.如权利要求8所述的方法，其中为所述多个潜在校正中更新近的潜在校正指派更高的权重。10.如权利要求8所述的方法，还包括：基于语音算法确定潜在候选校正与所述错误术语之间的语音相似性得分；以及为具有更高语音相似性得分的潜在候选校正指派更高的权重。11.如权利要求2所述的方法，其中访问知识图以基于所述上下文术语和所述第一文本片段的一部分来识别候选校正还包括更新知识图的现有节点。12.一种用于校正媒体资产的屏幕上字幕文本中的错误术语的系统，包括：存储知识图的存储器；以及控制电路系统，被配置为：分析媒体资产的音频流，以确定屏幕上字幕文本的第一文本片段；识别所述屏幕上字幕文本的第一文本片段中的错误术语；从与所述第一文本片段对应的媒体资产的视频流中提取一个或多个视频帧；分析所述一个或多个视频帧中的第一视频帧，以确定与所述错误术语相关联的上下文术语；访问知识图，以基于所述上下文术语和所述第一文本片段的一部分来识别所述错误术语的候选校正；以及用所述候选校正来替换隐藏字幕文本的第一文本片段中的所述错误术语。13.如权利要求12所述的系统，其中所述控制电路系统还被配置为识别所述第一文本片段中的所述错误术语还包括对所述第一文本片段执行自然语言处理，以将所述第一文本片段与多个语法规则进行比较。14.如权利要求12所述的系统，其中所述屏幕上字幕文本的第一文本片段是带时间戳的，并且其中所述第一视频帧是在媒体资产的与所述错误术语在带时间戳的第一文本片段中的位置对应的位置处提取的。15.如权利要求12所述的系统，其中所述控制电路系统还被配置为通过以下各项来访问知识图以基于所述上下文术语和所述第一文本片段的一部分来识别候选校正：从所述第一文本片段的所述部分中提取关键词；在知识图中搜索与所述上下文术语和所述关键词对应的节点；分析所述节点以查找与所述上下文术语和所述关键词相关联的特性；以及基于与所述上下文术语和所述关键词相关联的特性来确定至少一个其它节点，其中所述至少一个其它节点与候选校正相对应。16.如权利要求12所述的系统，其中所述控制电路系统还被配置为：识别所述屏幕上字幕文本的第二文本片段中的错误术语；分析与所述第二文本片段对应的第二视频帧，以确定与所述错误术语相关联的第二上下文术语；访问知识图，以基于所述第一上下文术语、所述第二上下文术语、所述第一文本片段的一部分和所述第二文本片段的一部分来识别更新的候选校正；以及用更新的候选校正替换所述屏幕上字幕文本的所述第二文本片段中的错误术语。17.如权利要求16所述的系统，其中所述控制电路系统还被配置为用更新的候选校正替换所述第一文本片段中的候选校正。18.如权利要求12所述的系统，其中所述控制电路系统还被配置为通过以下各项来访问知识图以识别所述错误术语的候选校正：从知识图确定所述错误术语的多个潜在校正；基于所述确定，为所述多个潜在校正中的每个潜在校正指派权重；以及识别与最高权重相关联的潜在校正作为候选校正。19.如权利要求18所述的系统，其中为所述多个潜在校正中更新近的潜在校正指派更高的权重。20.如权利要求18所述的系统，其中所述控制电路系统还被配置为：基于语音算法确定潜在候选校正与所述错误术语之间的语音相似性得分；以及为具有更高语音相似性得分的潜在候选校正指派更高的权重。21.如权利要求12所述的系统，其中所述控制电路系统还被配置为访问知识图以通过更新知识图的现有节点来基于所述上下文术语和所述第一文本片段的所述部分来识别所述候选校正。22.一种用于校正媒体资产的屏幕上字幕文本中的错误术语的设备，包括：用于分析媒体资产的音频流以确定屏幕上字幕文本的第一文本片段的装置；用于识别所述屏幕上字幕文本的第一文本片段中的错误术语的装置；用于从与所述第一文本片段对应的所述媒体资产的视频流中提取一个或多个视频帧的装置；用于分析所述一个或多个视频帧中的第一视频帧以确定与所述错误术语相关联的上下文术语的装置；用于访问知识图以基于所述上下文术语和所述第一文本片段的一部分来识别所述错误术语的候选校正的装置；以及用于用所述候选校正替换隐藏字幕文本的第一文本片段中的所述错误术语的装置。23.如权利要求22所述的设备，其中用于识别所述第一文本片段中的错误术语的装置还包括用于对所述第一文本片段执行自然语言处理以将所述第一文本片段与多个语法规则进行比较的装置。24.如权利要求22所述的设备，其中所述屏幕上字幕文本的第一文本片段是带时间戳的，并且其中所述第一视频帧是在媒体资产的与所述错误术语在带时间戳的第一文本片段中的位置对应的位置处提取的。25.如权利要求22所述的设备，其中用于访问知识图以基于所述上下文术语和所述第一文本片段的一部分来识别候选校正的装置还包括：用于从所述第一文本片段的所述部分中提取关键词的装置；用于在知识图中搜索与所述上下文术语和所述关键词对应的节点的装置；用于分析所述节点以查找与所述上下文术语和所述关键词相关联的特性的装置；以及用于基于与所...

【专利技术属性】
技术研发人员：A·K·古普塔，A·S·萨瓦尔卡尔，
申请(专利权)人：乐威指南公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人