页码定位方法、基于其的辅助阅读方法及应用技术

技术编号:35870105 阅读:18 留言:0更新日期:2022-12-07 11:04
本发明专利技术的实施方式提供了一种页码定位方法、基于其的辅助阅读方法及应用。该页码定位方法包括:获取指读图像;提取指读图像的图像特征向量和页面文本信息;根据图像特征向量在预先建立的图像特征表中检索,以确定第一页码定位结果;根据页面文本信息在预先建立的页面数据表中检索,以确定第二页码定位结果;根据第一页码定位结果和第二页码定位结果得到定位页码。通过本发明专利技术的页码定位方法,能够基于两种特征类型识别得到的页码定位结果进行分析,确定出指读图像对应的定位页码,进而提高页码定位的准确性和鲁棒性,从而显著地降低了页码定位的出错率,为用户带来了更好的体验。为用户带来了更好的体验。为用户带来了更好的体验。

【技术实现步骤摘要】
页码定位方法、基于其的辅助阅读方法及应用


[0001]本专利技术的实施方式涉及数据处理领域,更具体地,本专利技术的实施方式涉及页码定位方法、基于其的辅助阅读方法及应用。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
[0003]在整个阅读过程中,当文字阅读出现困难时,阅读者常常需要借助外力,例如字典等的帮助,这使得阅读的连贯性被破坏,也容易导致阅读者的注意力被分散。针对以上情况,辅助阅读技术能够很好地解决上述问题。
[0004]使用辅助阅读时,阅读书本放置好后,将通过摄像头采集书本的对应画面,通过算法分析判断画面中的图书是哪本书籍的哪一页。如果阅读者指向了书本中某个文本所在的位置,辅助阅读还可以判断指向的文本内容,将该文本内容进行语音播放,帮助阅读者认识文字。
[0005]在现有技术中,已经出现一些页码识别方法,其根据指读图像在数据库中查找多张相似的存储页面后,提取针对存储页面和指读图像中预先标记区域的特征信息,以确定所述指读图像对应的存储页面,进而确定对应的页码。但该方法需基于图像特征来完成,对于文字信息较多、用户涂改信息多的情况,存在识别的页码错误率高的现象,效果不鲁棒。

技术实现思路

[0006]现有技术中的页码识别方法由于依赖于图像特征的相似度进行页码定位,在面对文字信息较多、用户涂改信息多的情况时,存在识别的页码错误率高的现象,页码识别效果不佳。
[0007]为此,非常需要一种改进的页码定位方法,以能够兼容多种内容的页码定位需求,无论是多图像还是多文字的情况,均能够实现精准的页码定位。
[0008]在本上下文中,本专利技术的实施方式期望提供一种页码定位方法、基于其的辅助阅读方法及应用。
[0009]在本专利技术实施方式的第一方面中,提供了一种页码定位方法,包括:获取指读图像;提取所述指读图像的图像特征向量和页面文本信息;根据所述图像特征向量在预先建立的图像特征表中检索,以确定第一页码定位结果;根据所述页面文本信息在预先建立的页面数据表中检索,以确定第二页码定位结果;根据所述第一页码定位结果和所述第二页码定位结果得到定位页码。
[0010]在本专利技术的一个实施例中,所述根据所述第一页码定位结果和所述第二页码定位结果得到定位页码,包括:若所述第一页码定位结果和所述第二页码定位结果不一致,则当
所述页面文本信息满足预设条件时,以所述第二页码定位结果作为所述定位页码;其中,所述预设条件包括:所述页面文本信息中的文本数量大于或等于数量阈值。
[0011]在本专利技术的一个实施例中,所述预设条件还包括以下条件中的一种或多种:基于所述页面文本信息检索得到的文本检索结果的相似度分数大于第一分数阈值,以及相似度分数最高值对应的文本检索结果与相似度分数次高值对应的文本检索结果之间的分数差大于第一分差阈值。
[0012]在本专利技术的一个实施例中,所述页面文本信息中的文本为印刷体文本。
[0013]在本专利技术的一个实施例中,所述获取指读图像之后,还包括:对所述指读图像中的干扰信息进行检测并清除,得到无干扰指读图像;以所述无干扰指读图像更新所述指读图像;其中,所述干扰信息包括:手写体文本和涂改痕迹特征。
[0014]在本专利技术的一个实施例中,所述根据所述图像特征向量在预先建立的图像特征表中检索之前,还包括:获取入库书本的每一页的标准图像;所述标准图像为扫描图像和电子书图像中的任一种;对每一标准图像进行文字检测识别以生成页面数据表;其中,每一标准图像的页面数据与页码对应;对每一标准图像进行图像特征向量提取以生成图像特征表;其中,每一标准图像的图像特征向量与页码对应。
[0015]在本专利技术的一个实施例中,所述页面文本信息为所述指读图像中的双页文本信息;所述页面数据表包括:单页数据表和双页数据表;相应地,所述页码定位方法,包括:获取指读图像;提取所述指读图像的图像特征向量和双页文本信息;根据所述图像特征向量在预先建立的图像特征表中检索,以确定第一双页页码定位结果;根据所述双页文本信息在所述双页数据表中检索,以确定第二双页页码定位结果;根据所述第一双页页码定位结果和所述第二双页页码定位结果得到定位双页页码;对所述指读图像进行页面检测;若页面检测得到双页的页面信息,则执行第一定位策略在所述定位双页页码中确定所述定位页码;若页面检测得到单页的页面信息或页面检测未得到页面信息,则执行第二定位策略在所述定位双页页码中确定所述定位页码。
[0016]在本专利技术的一个实施例中,所述指读图像中含有用户反馈的指读对象的定位信息;相应地,所述执行第一定位策略在所述定位双页页码中确定所述定位页码,包括:根据所述定位信息确定用户指向页面的页面信息;基于所述用户指向页面的页面信息在所述定位双页页码中确定所述定位页码。
[0017]在本专利技术的一个实施例中,所述页面信息包括:页面类别、页面定位框和页面边缘关键点;其中,页面类别包括:左页和右页;相应地,所述执行第一定位策略在所述定位双页页码中确定所述定位页码,包括:根据所述定位信息与所述页面定位框、所述页面边缘关键点的相对关系确定用户指向页面的页面类别;根据所述用户指向页面的页面类别在所述定位双页页码中确定所述定位页码。
[0018]在本专利技术的一个实施例中,所述指读图像中还含有用户反馈的指读对象的定位信息;相应地,所述执行第二定位策略在所述定位双页页码中确定所述定位页码,包括:根据所述定位信息提取所述指读图像中用户指向区域的局部文本信息;将所述局部文本信息与所述单页数据表中所述定位双页页码对应的页面数据进行匹配,以确定所述定位页码。
[0019]在本专利技术实施方式的第二方面中,提供了一种基于页码定位的辅助阅读方法,包括:获取指读图像;所述指读图像中含有用户反馈的指读对象的定位信息;提取所述指读图
像的图像特征向量和页面文本信息;根据所述图像特征向量在预先建立的图像特征表中检索,以确定第一页码定位结果;根据所述页面文本信息在预先建立的页面数据表中检索,以确定第二页码定位结果;根据所述第一页码定位结果和所述第二页码定位结果得到定位页码;根据所述定位信息确定所述定位页码中的目标阅读文本;对所述目标阅读文本进行语音播放。
[0020]在本专利技术的一个实施例中,所述根据所述定位信息确定所述定位页码中的目标阅读文本,包括:根据所述定位信息和/或局部文本信息,在所述页面数据表中所述定位页码对应的页面数据中定位出所述目标阅读文本;其中,所述局部文本信息为所述指读图像中用户指向区域的文本信息。
[0021]在本专利技术的一个实施例中,根据所述定位信息在所述页面数据表中所述定位页码对应的页面数据中定位出所述目标阅读文本,包括:计算所述指读图像与所述定位页码对应标准图像的仿射变换矩阵;所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种页码定位方法,其特征在于,包括:获取指读图像;提取所述指读图像的图像特征向量和页面文本信息;根据所述图像特征向量在预先建立的图像特征表中检索,以确定第一页码定位结果;根据所述页面文本信息在预先建立的页面数据表中检索,以确定第二页码定位结果;根据所述第一页码定位结果和所述第二页码定位结果得到定位页码。2.根据权利要求1所述的页码定位方法,其特征在于,所述根据所述第一页码定位结果和所述第二页码定位结果得到定位页码,包括:若所述第一页码定位结果和所述第二页码定位结果不一致,则当所述页面文本信息满足预设条件时,以所述第二页码定位结果作为所述定位页码;其中,所述预设条件包括:所述页面文本信息中的文本数量大于或等于数量阈值。3.根据权利要求1所述的页码定位方法,其特征在于,所述页面文本信息为所述指读图像中的双页文本信息;所述页面数据表包括:单页数据表和双页数据表;相应地,所述页码定位方法,包括:获取指读图像;提取所述指读图像的图像特征向量和双页文本信息;根据所述图像特征向量在预先建立的图像特征表中检索,以确定第一双页页码定位结果;根据所述双页文本信息在所述双页数据表中检索,以确定第二双页页码定位结果;根据所述第一双页页码定位结果和所述第二双页页码定位结果得到定位双页页码;对所述指读图像进行页面检测;若页面检测得到双页的页面信息,则执行第一定位策略在所述定位双页页码中确定所述定位页码;若页面检测得到单页的页面信息或页面检测未得到页面信息,则执行第二定位策略在所述定位双页页码中确定所述定位页码。4.一种基于页码定位的辅助阅读方法,其特征在于,包括:获取指读图像;所述指读图像中含有用户反馈的指读对象的定位信息;提取所述指读图像的图像特征向量和页面文本信息;根据所述图像特征向量在预先建立的图像特征表中检索,以确定第一页码定位结果;根据所述页面文本信息在预先建立的页面数据表中检索,以确定第二页码定位结果;根据所述第一页码定位结果和所述第二页码定位结果得到定位页码;根据所述定位信息确定所述定位页码中的目标阅读文本;对所述目标阅读文本进行语音播放。5.根据权利要求4所述的基于页码定位的辅助阅读方法,其特征在于,所述根据所述定位信息确定所述定位页码中的目标阅读文本,包括:根据所述定位信息和/或局部文本信息,在所述页面数据表中所述定位页码对应的页面数据中定位出所述目标阅读文本;其中,所述局部文本信...

【专利技术属性】
技术研发人员:贾若然董士琪肖云龙李翌昕林辉段亦涛
申请(专利权)人:网易有道信息技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1