用于识别和解译嵌入式信息卡内容的机器学习制造技术

技术编号：28329667 阅读：27 留言：0更新日期：2021-05-04 13:12

从嵌入在视频流中的卡图像中提取所述视频流的精彩片段的元数据。所述精彩片段可以是一个或多个用户特别感兴趣的视频流的片段，例如体育事件的广播。标识并处理嵌入在所述视频流的视频帧中的卡图像以提取文本。可以通过应用利用嵌入在体育运动电视节目内容中的卡图像提取的一组字符训练的机器学习模型来识别文本字符。可以预处理字符向量的训练集以最大化所述训练集成员之间的度量距离。可以解译所述文本以获得所述元数据。所述元数据可以与所述视频流的所述部分相关联地存储。所述元数据可以提供关于所述精彩片段的信息，并且可以与所述精彩片段的回放同时呈现。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于识别和解译嵌入式信息卡内容的机器学习申请人：Thuuz,公司专利技术人：MihailoStojancicWarrenPackard相关申请的交叉引用本申请要求于2018年5月18日提交的题为“用于识别和解译嵌入式信息卡内容的机器学习(MachineLearningforRecognizingandInterpretingEmbeddedInformationCardContent)”(代理人案卷号THU010-PROV)的第62/673,412号美国临时申请的权益，所述美国临时申请以全文引用的方式并入本文中。本申请要求于2019年5月14日提交的题为“用于识别和解译嵌入式信息卡内容的机器学习(MachineLearningforRecognizingandInterpretingEmbeddedInformationCardContent)”(代理人案卷号THU010)的第16/411,710号美国实用申请，所述美国实用申请以全文引用的方式并入本文中。本申请要求于2018年5月18日提交的题...

【技术保护点】
1.一种用于从视频流中提取元数据的方法，所述方法包含：/n在处理器处，接收所述视频流的至少一部分；/n在所述处理器处，标识嵌入在所述视频流的所述部分的一个或多个视频帧中的一个或多个卡图像；/n在所述处理器处，处理所述一个或多个卡图像以提取文本；/n在所述处理器处，解译所述文本以获得元数据；以及/n在数据存储区处，存储与所述视频流的所述部分相关联的所述元数据。/n

【技术特征摘要】
【国外来华专利技术】20180518 US 62/673,412;20180518 US 62/673,411;20181.一种用于从视频流中提取元数据的方法，所述方法包含：
在处理器处，接收所述视频流的至少一部分；
在所述处理器处，标识嵌入在所述视频流的所述部分的一个或多个视频帧中的一个或多个卡图像；
在所述处理器处，处理所述一个或多个卡图像以提取文本；
在所述处理器处，解译所述文本以获得元数据；以及
在数据存储区处，存储与所述视频流的所述部分相关联的所述元数据。

2.根据权利要求1所述的方法，其进一步包含：
在所述数据存储区处，存储所述视频流的所接收的部分。

3.根据权利要求1所述的方法，其中：
所述视频流包含体育事件的电视广播；
所述视频流的所述部分包含被视为一个或多个用户特别感兴趣的精彩片段；并且
所述元数据描述所述精彩片段。

4.根据权利要求3所述的方法，其进一步包含：在输出装置处，与标识所述一个或多个卡图像、处理所述一个或多个卡图像以及解译所述文本中的至少一项同时输出所述视频流。

5.根据权利要求3所述的方法，其进一步包含：
在输出装置处，输出所述精彩片段；以及
与输出所述精彩片段同时输出所述元数据；
其中，所述元数据包含选自由以下组成的群组中的至少一个：
与所述精彩片段相关的实时信息；以及
已从中获得所述元数据的所述卡图像的时间线。

6.根据权利要求1所述的方法，其中提取所述文本包含：
在所述一个或多个卡图像中标识一个或多个字符串；以及
记录与所述一个或多个字符串的每个字符相对应的所述一个或多个卡图像的卡图像的字符图像的位置和/或大小。

7.根据权利要求6所述的方法，其中提取所述文本进一步包含：
通过对检测到的字符边界执行多重比较来消除所述一个或多个字符串的字符的字符边界；以及
清除任何看起来过于接近彼此的字符边界。

8.根据权利要求6所述的方法，其中，提取所述文本进一步包含：通过在低强度像素计数与高强度像素计数之间建立对比率来对所述一个或多个字符串的字符执行图像验证。

9.根据权利要求1所述的方法，其中，解译所述文本包含：
基于所述文本生成查询；
生成多个n维查询特征向量；
将所述n维查询特征向量投射到训练集正交基上；
将所投射的所述n维查询特征向量应用于分类模型，以产生至少一个预测查询；以及
从所述至少一个预测查询中提取所述文本的含义。

10.根据权利要求9所述的方法，其进一步包含：
生成多个训练集特征向量；以及
使用所述训练集特征向量以导出所述训练集正交基。

11.根据权利要求9所述的方法，其进一步包含：
生成多个训练集特征向量；以及
使用所述训练集特征向量以生成所述分类模型。

12.根据权利要求9所述的方法，其中，解译所述文本进一步包含使用来自由以下组成的群组中的至少两个选择：
在所述文本内的一个或多个字符串的串长度；
在所述文本内的字符边界和/或字符的位置；以及
在所述文本内的字符边界和/或字符的水平位置。

13.根据权利要求9所述的方法，其中存储与所述视频流的所述部分相关联的所述元数据包含：存储与查询相关联的所述一个或多个视频帧的视频帧号。

14.根据权利要求1所述的方法，其中，解译所述文本包含：
确定所述文本的一个或多个字符串的字符的字段位置；
确定所述字符的字母数字值；以及
使用所述字段位置和字母数字值以循序地解译所述一个或多个字符串。

15.根据权利要求14所述的方法，其中，解译所述文本进一步包含：
获得关于所述卡图像中的每一个的一个或多个卡字段的位置信息和其它信息；以及
使用所述位置信息和其它信息来补偿所述一个或多个字符串的一个或多个可能遗漏的前字符。

16.一种用于生成用于从视频流中提取元数据的分类模型的方法，所述方法包含：
在处理器处，接收所述视频流的至少一部分；
在所述处理器处，标识嵌入在所述视频流的所述部分的一个或多个视频帧中的一个或多个卡图像；
在所述处理器处，在每一卡图像都含有字符的情况下，处理所述一个或多个卡图像以提取多个字符图像；
在所述处理器处，生成与所述字符图像相关联的训练特征向量；
在所述处理器处，以下述方式处理所述训练特征向量：
增加所述训练特征向量的唯一性；
增加所述训练特征向量的相互数值距离；及/或
减小含有所述训练特征向量的整体向量空间的维数；
在所述处理器处，使用所述训练特征向量中的至少一些来训练分类模型；以及
在数据存储区中，存储所述分类模型。

17.根据权利要求16所述的方法，其进一步包含：
在所述数据存储区处，存储所述视频流的所接收的部分。

18.根据权利要求16所述的方法，其进一步包含：在所述处理器处，在生成所述训练特征向量之前，将所述字符图像归一化到标准大小和/或标准照明。

19.根据权利要求16所述的方法，其中，生成所述训练特征向量包含：将从所述字符图像提取的一组n个像素格式化为n维向量。

20.根据权利要求16所述的方法，其进一步包含：在所述处理器处，对所述训练特征向量执行主成分分析；
其中使用所述训练特征向量中的至少一些来训练所述分类模型包含：
选择作为正交基向量的所述训练特征向量的子集；以及
使用所述正交基向量来训练所述分类模型。

21.根据权利要求20所述的方法，其中：
所述正交基向量跨越所述整体向量空间；
减小所述整体向量空间的所述维数包含选择有限数量的所述正交基向量；
减小所述整体向量空间的所述维数进一步包含仅选择与从所述正交基向量的矩阵导出的最大奇异值的集合相对应的正交基向量；
存储所述分类模型包含存储有限数量的所述正交基向量，以供后续在分类模型生成和/或查询处理中使用；及/或
生成所述分类模型包含将有限数量的所述正交基向量与从由SVM和CNN组成的群组中选出的机器学习算法结合使用。

22.根据权利要求16所述的方法，其进一步包含：
在所述处理器处，处理所述一个或多个卡图像以提取文本；
在所述处理器处，解译所述文本以获得元数据；
在所述数据存储区处，存储与所述视频流的所述部分相关联的所述元数据；
在输出装置处，输出所述视频流的所述部分；以及
在所述输出装置处，与输出所述视频流的所述部分同时输出所述元数据；
其中：
所述视频流包含体育事件的广播；
所述视频流的所述部分包含被视为一个或多个用户特别感兴趣的精彩片段；并且
所述元数据描述所述精彩片段。

23.根据权利要求22所述的方法，其中，提取所述文本包含将所述文本的文本串提取为查询。

24.根据权利要求22所述的方法，其中，提取所述文本包含提取以下各项中的至少一个：
所述体育事件内的当前时间；
所述体育事件的当前时间；
与所述体育事件有关的比赛时钟；以及
与所述体育事件有关的比赛得分。

25.一种从视频流中提取元数据的非暂时性计算机可读介质，所述非暂时性计算机可读介质包含存储在其上的指令，所述指令在由处理器执行时执行以下步骤：
接收所述视频流的至少一部分；
标识嵌入在所述视频流的所述部分的一个或多个视频帧中的一个或多个卡图像；
处理所述一个或多个卡图像以提取文本；
解译所述文本以获得元数据；以及
致使数据存储区存储与所述视频流的所述部分相关联的所述元数据。

26.根据权利要求25所述的非暂时性计算机可读介质，其中：
所述视频流包含体育事件的电视广播；
所述视频流的所述部分包含被视为一个或多个用户特别感兴趣的精彩片段；并且
所述元数据描述所述精彩片段。

27.根据权利要求26所述的非暂时性计算机可读介质，所述非暂时性计算机可读介质进一步包含存储于其上的指令，所述指令在由处理器执行时致使输出装置与标识所述一个或多个卡图像、处理所述一个或多个卡图像及解译所述文本中的至少一项同时输出所述视频流。

28.根据权利要求26所述的非暂时性计算机可读介质，所述非暂时性计算机可读介质进一步包含存储在其上的指令，所述指令在由处理器执行时执行以下步骤：
致使输出装置输出所述精彩片段；以及
与输出所述精彩片段同时输出所述元数据；
其中，所述元数据包含选自由以下组成的群组中的至少一个：
与所述精彩片段相关的实时信息；以及
已从中获得所述元数据的所...

【专利技术属性】
技术研发人员：M·斯托扬契奇，W·帕卡德，
申请(专利权)人：图兹公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人