字符串识别、翻译方法及设备技术

技术编号:10809464 阅读:78 留言:0更新日期:2014-12-24 15:16
本发明专利技术公开了一种字符串识别、翻译方法及设备。该字符串识别方法包括以下步骤:拍摄同步的眼睛运动视频和眼前图像视频;对眼睛运动视频进行分析以获取原始眼动数据;生成修正眼动数据;合成显著图;找出显著图上各个高密度区域中的注意焦点;将所有注意焦点作为种子点、并采用种子填充算法对各个种子点进行填充,以获得注视焦点图像;将注视焦点图像和预设字符模板进行对比,找出和注视焦点图像的相似度最高的字符模板并生成识别字符串。本发明专利技术的字符串识别、翻译方法及设备,基于同步的眼睛运动视频和眼前图像视频,得出眼动数据并进行分析,能够自动对用户注视或正在查看的图像进行字符串的获取和识别,便利程度极高。

【技术实现步骤摘要】
字符串识别、翻译方法及设备
本专利技术涉及一种字符串识别、翻译方法及设备。
技术介绍
目前,随着国际化的快速发展,即便普通人,也经常会遇到外文资料,而对于外语学习者,更需要大量地阅读外文资料。在目前的外文阅读过程中,如果遇到生疏的词汇时,通常需要借助字典、电子词典或到专业的网站上进行搜索查询,无论哪种查询方式,此过程都需要手动逐个地输入词汇字母,效率极低,导致较大比例的人干脆跳过生词,不去理会,这又使得阅读质量明显下降。对于小语种的外文资料来说,不熟悉的人很难准确输入外文词句,同时输入法也较少,导致对于小语种来说有着更大的障碍。然而,如果要省去手动输入的过程,就必须首先实现以较为便捷的方式自动获取用户感兴趣的或者正在阅读的字符串并对其进行有效的识别,才可能进一步对其进行翻译。因此,亟需一种能够令用户使用非常便利的自动识别字符串的方法,使其能够在不增加用户太多操作的前提下普遍适用于各种环境下的字符串的识别。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中缺少一种能够便利地自动对字符串进行有效识别的方法,因而必须依赖用户手动输入才能完成字符串的翻译的缺陷,提出一种字符串识别方法。本专利技术是通过下述技术方案来解决上述技术问题的:本专利技术提供了一种字符串识别方法,其特征在于,包括以下步骤:S1、拍摄一预设时长的时间段内同步的眼睛运动视频和眼前图像视频,眼睛运动视频包括该时间段内各个时刻记录有眼睛的眼图像帧,眼前图像视频包括该时间段内各个时刻记录有位于眼睛前方的场景的景图像帧;S2、对眼睛运动视频进行分析以获取原始眼动数据,原始眼动数据包括原始注视数据和原始眼跳数据,原始注视数据和原始眼跳数据均包括基于相应眼图像帧的原始坐标;S3、将原始眼动数据中的原始坐标通过预设的坐标变换算法生成修正眼动数据,修正眼动数据包括修正注视数据和修正眼跳数据,修正注视数据和修正眼跳数据均包括基于相应景图像帧的修正坐标;S4、根据修正眼动数据及相应景图像帧获取注视焦点图像;S5、将注视焦点图像和预设的多个字符模板进行对比,找出和注视焦点图像的相似度最高或高于一相似度阈值的字符模板作为匹配字符模板,根据匹配字符模板生成识别字符串。较佳地,S4包括以下步骤:S41、根据修正注视数据中的修正坐标确定相应景图像帧上的注视点,对于每一个注视点,采用核密度估计算法得到其高斯分布,将所有注视点的高斯分布叠加合成一显著图,该显著图上每一点均具有像素值;S42、采用标记山头法找出该显著图上各个高密度区域中的注意焦点,其中高密度区域为该显著图上注视点密度高于一密度阈值的区域,注意焦点为各个高密度区域中像素值最高的点;S43、获取所有注意焦点的坐标,并将所有注意焦点作为种子点;S44、采用种子填充算法对各个种子点进行填充,以获得注视焦点图像。首先,本专利技术的字符串识别方法可以利用光学系统获取眼睛视频图像和眼前图像视频,通过分析处理得到人眼观看图像时的注视时间、注视点坐标等原始的眼动数据,然后对获得的眼动数据进行筛选和处理,获取有效的眼动数据。简而言之,获取的眼睛视频图像能够表现出人眼怎么看,而眼前图像视频则是模拟人眼表现出人眼看的是什么。本专利技术中的眼动数据包括注视数据、眼跳数据两部分。利用同步的眼睛运动视频和眼前图像视频将以人眼为目标的原始眼动数据,转化为修正眼动数据。本领域技术人员应当理解,这样的光学系统可以由两个摄像机及其他较为常用的光学组件来组成,以实现上述功能。在人眼看一些图像时,人对于图像中各个区域的兴趣度可以由人眼在不同区域的注视时间长短和注视次数来反映出,因而本专利技术借由注视数据和眼跳数据对于人眼的阅读\注视\查看的情况进行分析。而对于眼图像帧和景图像帧来说,其尺寸大小可能会有所不同,这种情况下可以根据其尺寸大小预设适当的坐标变换公式进行转换。此外,核密度估计算法是指在概率论中用来估计未知的密度函数,属于非参数检验方法之一,本专利技术的核密度估计算法所采用的核函数可以是均匀核函数、三角核函数、伽马核函数等。而步骤S5中所采用的标记山头法,其实质意义是从每个高密度区域找出一个注意焦点,最终获得所有的最佳注意焦点。这里的注意焦点指的是借由眼动数据所确定的图像中观看者或阅读者的兴趣最大的点的位置。以下对步骤S5中所采用的标记山头法的大体思路进行较为形象的说明,以便理解。如果将显著图中每个点的像素值看成是山的高度,则显著图可以形象地表示为“山地”,其中要找的注意焦点就是每座山的山头。找出显著图中像素值最大的点(可以理解为最高的山头)作为第一个注意焦点,对该点所在区域增长,将该区域填充为零(可以理解为将这座山的山顶削掉)。在处理过的显著图中寻找下一个像素值最大的点。此时,需要解决的问题是,下一个像素值最大的点有可能是已填充为像素值为零的区域的边缘像素点(即山头已被标记过的山的山腰位置,而不是其他山的山头)。因而就需要一个判断条件来判断当前像素值最大的点是已找过山峰的“山腰”还是未标记过的“山头”。因为已标记过的注意焦点的一定邻域范围已被填充为零,所以如果当前像素值最大点是“山腰”,即其位于已填充为零区域的边缘,则其周围的邻域点(举例来说,可能是上下左右及两对角线的8个方向上与像素点相邻的点)必有像素值为零的点。因此每找到一个像素值最大的点,计算该点邻域的所有像素值,如果该点邻域像素值有为零的情况,则说明该点是山腰位置,不能作为注意焦点,否则是山头,标记为注意焦点。无论是否是注意焦点,都需要在该点进行区域增长,然后继续寻找下一个像素值最大的点,重复这种寻找过程,直到找到适当个数的注意焦点结束寻找。步骤S6中采用的种子填充算法又称为边界填充算法,其基本思想是:从多边形区域的一个内点开始,由内向外用给定的颜色画点直到边界为止。如果边界是以一种颜色指定的,则种子填充算法可逐个像素地处理直到遇到边界颜色为止。在S8中进行的注视焦点图像和预设的多个字符模板的对比中,可首先对注视焦点图像(即包含待识别字符的图像)进行二值图像的归一化处理,然后将其与事先构造好的模板(比如事先构造好的外文字库中的字符模板)进行对比,根据注视焦点图像与模板的相似度大小来确定最终的识别字符,并生成识别字符串。这一识别字符串可以是单词或者词组,也可以短语或者语句。较佳地,步骤S2包括以下步骤:S21、从各个时刻的眼图像帧中提取瞳孔中心坐标和角膜反射光斑中心坐标;S22、对瞳孔中心坐标和角膜反射光斑中心坐标随时间的变化进行分析,以获取原始眼动数据。较佳地,原始注视数据为瞳孔中心坐标和/或角膜反射光斑中心坐标在一预设时长范围内未改变的数据,原始眼跳数据为某一时刻瞳孔中心坐标和/或角膜反射光斑中心坐标的变化速度和变化加速度分别大于一速度阈值和一加速度阈值的数据。容易理解地,这里的变化速度和变化加速度,也就是这两种坐标随时间变化而移动所产生的速度和加速度。较佳地,在步骤S44和S5之间还包括以下步骤:S45、利用开运算和/或闭运算对注视焦点图像进行去孔和平滑边缘的处理,然后执行S5。其中开运算是对一个图像先进行腐蚀运算然后再膨胀的操作过程。它可以消除细小的物体、在纤细点处分离物体、平滑较大物体的边界时不明显的改变其面积。而闭运算则是对一个图像先膨胀然后再收缩,它具有填充物体内细小的空洞、连接邻本文档来自技高网...

【技术保护点】
一种字符串识别方法,其特征在于,包括以下步骤:S1、拍摄一预设时长的时间段内同步的眼睛运动视频和眼前图像视频,眼睛运动视频包括该时间段内各个时刻记录有眼睛的眼图像帧,眼前图像视频包括该时间段内各个时刻记录有位于眼睛前方的场景的景图像帧;S2、对眼睛运动视频进行分析以获取原始眼动数据,原始眼动数据包括原始注视数据和原始眼跳数据,原始注视数据和原始眼跳数据均包括基于相应眼图像帧的原始坐标;S3、将原始眼动数据中的原始坐标通过预设的坐标变换算法生成修正眼动数据,修正眼动数据包括修正注视数据和修正眼跳数据,修正注视数据和修正眼跳数据均包括基于相应景图像帧的修正坐标;S4、根据修正眼动数据及相应景图像帧获取注视焦点图像;S5、将注视焦点图像和预设的多个字符模板进行对比,找出和注视焦点图像的相似度最高或高于一相似度阈值的字符模板作为匹配字符模板,根据匹配字符模板生成识别字符串。

【技术特征摘要】
1.一种字符串识别方法,其特征在于,包括以下步骤:S1、拍摄一预设时长的时间段内同步的眼睛运动视频和眼前图像视频,眼睛运动视频包括该时间段内各个时刻记录有眼睛的眼图像帧,眼前图像视频包括该时间段内各个时刻记录有位于眼睛前方的场景的景图像帧;S2、对眼睛运动视频进行分析以获取原始眼动数据,原始眼动数据包括原始注视数据和原始眼跳数据,原始注视数据和原始眼跳数据均包括基于相应眼图像帧的原始坐标;S3、将原始眼动数据中的原始坐标通过预设的坐标变换算法生成修正眼动数据,修正眼动数据包括修正注视数据和修正眼跳数据,修正注视数据和修正眼跳数据均包括基于相应景图像帧的修正坐标;S4、根据修正眼动数据及相应景图像帧获取注视焦点图像;S5、将注视焦点图像和预设的多个字符模板进行对比,找出和注视焦点图像的相似度最高或高于一相似度阈值的字符模板作为匹配字符模板,根据匹配字符模板生成识别字符串。2.如权利要求1所述的字符串识别方法,其特征在于,S4包括以下步骤:S41、根据修正注视数据中的修正坐标确定相应景图像帧上的注视点,对于每一个注视点,采用核密度估计算法得到其高斯分布,将所有注视点的高斯分布叠加合成一显著图,该显著图上每一点均具有像素值;S42、采用标记山头法找出该显著图上各个高密度区域中的注意焦点,其中高密度区域为该显著图上注视点密度高于一密度阈值的区域,注意焦点为各个高密度区域中像素值最高的点;S43、获取所有注意焦点的坐标,并将所有注意焦点作为种子点;S44、采用种子填充算法对各个种子点进行填充,以获得注视焦点图像。3.如权利要求1所述的字符串识别方法,其特征在于,步骤S2包括以下步骤:S21、从各个时刻的眼图像帧中提取瞳孔中心坐标和角膜反射光斑中心坐标;S22、对瞳孔中心坐标和角膜反射光斑中心坐标随时间的变化进行分析,以获取原始眼动数据。4.如权利要求3所述的字符串识别方法,其特征在于,原始注视数据为瞳孔中心坐标和/或角膜反射光斑中心坐标在一预设时长范围内未改变的数据,原始眼跳数据为某一时刻瞳孔中心坐标和/或角膜反射光斑中心坐标的变化速度和变化加速度分别大于一速度阈值和一加速度阈值的数据。5.如权利要求2所述的字符串识别方法,其特征在于,在步骤S44和S5之间还包括以下步骤:S45、利用开运算和/或闭运算对注视焦点图像进行去孔和平滑边缘的处理,然后执行S5。6.如权利要求2所述的字符串识别方法,其特征在于,S42包括以下步骤:S421、找出该显著图上像素值最大的像素值极大点;S422、判断和该像素值极大点相邻的点中是否存在像素值为零的点,在判断结果为否的情况下执行S423,在判断结果为是的情况下执行S424;S423、将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,并将该像素值极大点变更为注意焦点,然后执行步骤S425;S424、将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,然后执行步骤S425;S425、判断注意焦点的个数是否达到一焦点个数阈值,在判断结果为否的情况下返回S421,在判断结果为是的情况下执行S43。7.如权利要求2所述的字符串识别方法,S42包括以下步骤:S421a、找出该显著图上像素值最大的像素值极大点;S422a、判断该像素值极大点的像素值是否大于一像素值阈值,在判断结果为是的情况下执行S423a,在判断结果为否的情况下执行S43;S423a、判断和该像素值极大点相邻的点中是否存在像素值为零的点,在判断结果为否的情况下执行S424a,在判断结果为是的情况下执行S425a;S424a、将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,并将该像素值极大点变更为注意焦点,然后返回步骤S421a;S425a、将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,然后返回步骤S421a。8.一种字符串翻译方法,其特征在于,包括如权利要求1-7中任意一项所述的字符串识别方法,在步骤S5后还包括以下步骤:S6、将该识别字符串翻译为目标语言,显示翻译结果。9.一种字符串识别设备,其特征在于,包括:拍摄模块,用于拍摄一预设时长的时间段内同步的眼睛运动视频和眼前图像视频,眼睛运动视频包括该时间段内各个时刻记录有眼睛的眼图像帧,眼前图像视频包括该时间段内各个时刻记录有位于眼睛前方的场景的...

【专利技术属性】
技术研发人员:李柯材
申请(专利权)人:上海华勤通讯技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1