视频中的基于聚类的文本识别制造技术

技术编号:42455851 阅读:21 留言:0更新日期:2024-08-21 12:46
公开了视频中的基于空间文本聚类的文本识别系统和方法。该方法包括:对仅对应于数字字符的预测集的第一子集执行文本聚类;以及对仅对应于字母字符的预测集的第二子集执行空间文本聚类。改方法包括:针对与预测集的第一子集相关联的每个预测簇,选取第一簇代表以校正与预测集的第一子集相关联的每个预测簇中的任何错误;以及输出任何识别数字字符。该方法包括:针对与预测集的第二子集相关联的每个预测簇,选取第二簇代表以校正与预测集的第二子集相关联的每个预测簇中的任何错误;以及输出任何识别字母字符。

【技术实现步骤摘要】
【国外来华专利技术】


技术介绍

1、通常,光学字符识别(ocr)是指检测图像中的文本并识别作为文本的一部分的字符。可以在不同的环境中针对各种图像输入(包括流式视频和存储的视频)实现字符识别。ocr系统的用户可以依靠系统准确识别视频中所包括的文本。通常,文本(例如,字母、数字、标牌或其他字符)可能会显得模糊、倾斜或难以识别。另外,相同或相似的文本可能在视频的不同帧之间有所不同。

2、针对这些和其他考虑,已提出了一些示例。另外,尽管已讨论了相对具体的问题,但是应该理解,这些示例不应仅限于解决
技术介绍
中所标识的具体问题。


技术实现思路

1、本公开中所描述的示例涉及视频中的基于空间文本聚类的文本识别系统和方法。各种示例涉及将光学字符识别(ocr)用作这些系统和方法的一部分。本公开的示例提供了提供基于空间文本聚类的识别以改进ocr的系统和方法。在一个示例中,对ocr预测使用具有时间约束的贪婪聚类方法。在另一个示例中,在同一评分系统中使用空间距离和文本距离来聚类ocr预测。在另一个示例中,向用户呈现在多个时间实例之上只有一个代表本文档来自技高网...

【技术保护点】

1.一种计算机实现的方法,包括:

2.根据权利要求1所述的方法,其中所述第二置信度得分阈值高于所述第一置信度得分阈值。

3.根据权利要求1所述的方法,其中所述方法还包括:

4.根据权利要求1所述的方法,其中对所述预测子集执行所述空间文本聚类包括:

5.根据权利要求4所述的方法,其中确定具有所述最小空间文本得分的所述特定簇包括,针对所述特定预测:

6.根据权利要求5所述的方法,其中确定所述文本得分包括:

7.根据权利要求5所述的方法,其中确定所述空间得分包括:

8.根据权利要求1所述的方法,其中选择所述相应...

【技术特征摘要】
【国外来华专利技术】

1.一种计算机实现的方法,包括:

2.根据权利要求1所述的方法,其中所述第二置信度得分阈值高于所述第一置信度得分阈值。

3.根据权利要求1所述的方法,其中所述方法还包括:

4.根据权利要求1所述的方法,其中对所述预测子集执行所述空间文本聚类包括:

5.根据权利要求4所述的方法,其中确定具有所述最小空间文本得分的所述特定簇包括,针对所述特定预测:

6.根据权利要求5所述的方法,其中确定所述文本得分包括:

7.根据权利要求5所述的方法,其中确定所述空间得分包括:

8.根据权利要求1...

【专利技术属性】
技术研发人员:Y·霍夫曼M·耶迪迪亚A·勒维
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1