一种现实场景下的阅读综合行为的识别方法及系统技术方案

技术编号:26172373 阅读:20 留言:0更新日期:2020-10-31 13:49
本发明专利技术涉及阅读综合行为识别的技术领域,提供了一种现实场景下的阅读综合行为的识别方法及系统,其方法包括:S1:获取真实阅读场景下的信息载体图像;S2:对信息载体图像进行定位和边缘位置检测,对书本内部的图像内容进行检测,实现对翻页行为的识别;S3:针对页面范围内的信息进行随机采样,对候选焦点语言特征点图片组进行综合分析,实现对焦点页面语言的识别;S4:对行的信息进行定位,获得行数和每一行的行宽,估算出每一行的文字数量和页面内的文字总数量;S5:获取两次翻页事件之间的时间间隔内阅读文字的总数量,计算出单位时间内的阅读文字总量。能够对读者的阅读行为,尤其是针对于阅读纸质书本的阅读行为进行实时的分析。

【技术实现步骤摘要】
一种现实场景下的阅读综合行为的识别方法及系统
本专利技术涉及阅读综合行为识别的
,尤其涉及一种现实场景下的阅读综合行为的识别方法及系统。
技术介绍
在当前的人工智能
中,人类在阅读书本时,经常会与人工智能进行交互,以利于通过书本进行学习时,能够学习理解的更快,人工智能也能够对人类的阅读行为进行分析,后续推荐一个与读者更加适应的学习计划。此时,就涉及到需要对读者的阅读行为进行分析,在现有技术中,并没有找到一种合适的方法能够识别并分析读者的阅读行为。市面上,能够分析读者阅读行为的应用背景,基本上都是基于电子阅读设备来提供给读者进行阅读,通过电子设备阅读的记录来分析阅读行为。然而,很多时候,我们还是需要通过传统的纸质书本进行阅读学习,如何分析纸质书本的阅读行为,就很难了。在“CN103186665A-一种纸质图书数字化辅助阅读软件”中,公开:“提出了一种纸质图书数字化辅助阅读软件。通过该软件的使用可以减少实体书签的使用,以及实体书签丢失带来的不便;可以为图书添加更为丰富的书签、并能够对书签进行检索;可提高阅读公共书籍的效率和质量,提供了解决无法在公共书籍上注释的一种数字化方法;了解自己阅读的习惯、每本书阅读所花费的时间;实现纸质图书与电子图书同时期阅读的连续性。该辅助阅读软件的功能包括:图书识别、数字化当前阅读状态、纸质图书数字化书签、纸质图书数字化笔记、图书纸质版与电子版连续阅读、纸质图书阅读行为统计。该软件包含Android、iOS、WindowsPhone版本,可运行于安装了上述操作系统的智能移动设备上。使用该软件时,设备上必须包含或连接有摄像头装置。该系统包括以下模块:图书识别模块:通过摄像头装置对图书的ISBN条形码进行扫描,获得其ISBN编号。软件中所涉及的图书主要通过该ISBN编号进行识别,无须用户输入。信息管理模块:软件相关数据的存储及检索,以及通过网络获取图书的基本信息。PDF文档阅读模块:实现简单的PDF文档显示并能保存当前阅读页码。图片编辑模块:包含可选尺寸及颜色的画笔、以及添加文字功能。数字化当前阅读状态:当用户开始或结束图书的某一次阅读时,可通过该模块对当前的阅读页码进行提取和保存。每次的提取和保存行为会被记录,当前页码在每次保存时得到更新。通过图书识别模块对图书进行自动识别,但当前阅读的页码需要用户自行输入。纸质图书数字化书签:当用户需要添加书签时,可通过该模块向系统中添加该图书的数字化书签信息。数字书签信息包含该书的ISBN编码、页码、书签标题、注释。通过图书识别模块对图书进行自动识别,但其他信息需要用户输入。纸质图书数字化笔记:当用户需要在图书上添加注释或者进行标记时,可以通过摄像头装置将需要的书中内容拍摄下来,用户直接在拍摄下来的图片上进行注释货标记。图书纸质版与电子版连续阅读:当电子版图书与纸质版图书的页码顺序相同,两者使用同一个当前阅读状态,当前阅读状态会自动得到同步。当使用不同的阅读介质后,能够继续之前的阅读,以实现连续阅读。纸质图书阅读行为统计:通过每次阅读状态提取和保存行为信息进行阅读行为统计分析,可统计的用户的阅读信息包括:每本书的阅读时间分布、总花费的时间、每次的阅读时长、平均每次阅读所花费的时间。”上述技术方案中,虽然涉及到对阅读行为的识别,但是需要在电子设备中同时保存一个对应的电子版的书籍,实质上,所有的识别动作都是基于电子版的数据来进行的。且对阅读行为进行统计时,仅仅只是统计了每本书的阅读时间分布、总花费的时间,每次的阅读时长,平均每次阅读时间。无法针对于阅读时的实时的阅读的速度进行分析,统计的只是一个大概的时间,是一个不准确的阅读时间,后续也不能够根据阅读速度推荐一个适应的学习计划。综上所述,在现有技术中,没有一个好的方法能够对读者的阅读行为,尤其是针对于阅读纸质书本的阅读行为进行实时的分析,以利于后续根据阅读行为推荐一个更加适应的学习计划。
技术实现思路
针对上述问题,本专利技术的目的在于提供一种现实场景下的阅读综合行为的识别方法及系统,通过实现翻页行为、焦点页面的语言识别、焦点页面的文字总量估计和阅读速度几个子功能,提供一整套综合的阅读场景的识别功能。具有能够实时识别读者的阅读行为,尤其是阅读纸质书本的阅读行为的优点。本专利技术的上述专利技术目的是通过以下技术方案得以实现的:一种现实场景下的阅读综合行为的识别方法,包括以下步骤:S1:通过包括摄像头在内的AI设备获取真实阅读场景下的信息载体图像,并对所述信息载体图像进行深度神经网络学习获得所述信息载体图像的载体类型,当所述载体类型为书本时,跳转到步骤S2,否则,终止阅读综合行为的识别;S2:通过对所述AI设备获取的连续的所述信息载体图像使用页面监控的静态图像深度学习神经网络进行定位和边缘位置检测,使用可以进行时间序列处理的深度学习神经网络对书本范围内部的图像内容进行检测,实现对翻页行为的识别;S3:针对页面范围内的信息进行随机采样,作为候选焦点语言特征点图片组,对所示候选焦点语言特征点图片组进行综合分析,实现对焦点页面语言的识别,同时输出每一个单字或单词的宽度尺寸;S4:通过处理静态图像的深度学习神经网络对行的信息进行定位,获得行数和每一行的行宽,与步骤S3中输出的每一个单字或单词的宽度尺寸进行计算,估算出每一行的文字数量和页面内的文字总数量,实现焦点页面内文字总量的分析;S5:获取两次翻页事件之间的时间间隔内阅读文字的总数量,计算出单位时间内的阅读文字总量,实现阅读速度的分析。进一步地,在步骤S2中,实现对翻页行为的识别,具体为:S21:在连续的所述AI设备获取的所述信息载体图像中,通过所述页面监控的静态图像深度学习神经网络对所述信息载体图像进行定位和边缘位置检测,实现书本的尺寸和位置信息的实时更新,其中,所述位置信息包括左右边缘和书中缝线,所述左右边缘包括书本的真实边缘和所述AI设备视界的边缘在内的任意一种形式;S22:默认翻页行为发生位置为书本的左边缘和右边缘,使用所述可以进行时间序列处理的深度学习神经网络对书本范围内部的图像内容进行检测,当书本从左边缘改变页面内容时,翻页行为被检测为向上一页翻,当书本从右边缘改变页面内容时,翻页行为被检测为向下一页翻;S23:在所述可以进行时间序列处理的深度学习神经网络工作完成之后,所述页面监控的静态图像深度学习神经网络持续工作,确认页面与翻页动作发生之前产生了明确的区别,确认翻页动作。进一步地,在步骤S3中,实现对焦点页面语言的识别,具体为:S31:对页面范围内的信息进行随机采样,随机采样后的数据作为所述候选焦点语言特征点图片组;S32:使用图像文字切割深度学习神经网络对所述候选焦点语言特征点图片组进行逐一切割,获得候选语言文本图像组,同时输出每一个单字或单词的宽度尺寸;S33:使用图像文本识别深度学习神经网络对所述候选语言文本图像组进行分类,获得文本的具体内容,从而获得焦点页面的目标语言候选信息;S34:在获得多页面、多点位候选本文档来自技高网
...

【技术保护点】
1.一种现实场景下的阅读综合行为的识别方法,其特征在于,包括以下步骤:/nS1:通过包括摄像头在内的AI设备获取真实阅读场景下的信息载体图像,并对所述信息载体图像进行深度神经网络学习获得所述信息载体图像的载体类型,当所述载体类型为书本时,跳转到步骤S2,否则,终止阅读综合行为的识别;/nS2:通过对所述AI设备获取的连续的所述信息载体图像使用页面监控的静态图像深度学习神经网络进行定位和边缘位置检测,使用可以进行时间序列处理的深度学习神经网络对书本范围内部的图像内容进行检测,实现对翻页行为的识别;/nS3:针对页面范围内的信息进行随机采样,作为候选焦点语言特征点图片组,对所述候选焦点语言特征点图片组进行综合分析,实现对焦点页面语言的识别,同时输出每一个单字或单词的宽度尺寸;/nS4:通过处理静态图像的深度学习神经网络对行的信息进行定位,获得行数和每一行的行宽,与步骤S3中输出的每一个单字或单词的宽度尺寸进行计算,估算出每一行的文字数量和页面内的文字总数量,实现焦点页面内文字总量的分析;/nS5:获取两次翻页事件之间的时间间隔内阅读文字的总数量,计算出单位时间内的阅读文字总量,实现阅读速度的分析。/n...

【技术特征摘要】
1.一种现实场景下的阅读综合行为的识别方法,其特征在于,包括以下步骤:
S1:通过包括摄像头在内的AI设备获取真实阅读场景下的信息载体图像,并对所述信息载体图像进行深度神经网络学习获得所述信息载体图像的载体类型,当所述载体类型为书本时,跳转到步骤S2,否则,终止阅读综合行为的识别;
S2:通过对所述AI设备获取的连续的所述信息载体图像使用页面监控的静态图像深度学习神经网络进行定位和边缘位置检测,使用可以进行时间序列处理的深度学习神经网络对书本范围内部的图像内容进行检测,实现对翻页行为的识别;
S3:针对页面范围内的信息进行随机采样,作为候选焦点语言特征点图片组,对所述候选焦点语言特征点图片组进行综合分析,实现对焦点页面语言的识别,同时输出每一个单字或单词的宽度尺寸;
S4:通过处理静态图像的深度学习神经网络对行的信息进行定位,获得行数和每一行的行宽,与步骤S3中输出的每一个单字或单词的宽度尺寸进行计算,估算出每一行的文字数量和页面内的文字总数量,实现焦点页面内文字总量的分析;
S5:获取两次翻页事件之间的时间间隔内阅读文字的总数量,计算出单位时间内的阅读文字总量,实现阅读速度的分析。


2.根据权利要求1所述的现实场景下的阅读综合行为的识别方法,其特征在于,在步骤S2中,实现对翻页行为的识别,具体为:
S21:在连续的所述AI设备获取的所述信息载体图像中,通过所述页面监控的静态图像深度学习神经网络对所述信息载体图像进行定位和边缘位置检测,实现书本的尺寸和位置信息的实时更新,其中,所述位置信息包括左右边缘和书中缝线,所述左右边缘包括书本的真实边缘和所述AI设备视界的边缘在内的任意一种形式;
S22:默认翻页行为发生位置为书本的左边缘和右边缘,使用所述可以进行时间序列处理的深度学习神经网络对书本范围内部的图像内容进行检测,当书本从左边缘改变页面内容时,翻页行为被检测为向上一页翻,当书本从右边缘改变页面内容时,翻页行为被检测为向下一页翻;
S23:在所述可以进行时间序列处理的深度学习神经网络工作完成之后,所述页面监控的静态图像深度学习神经网络持续工作,确认页面与翻页动作发生之前产生了明确的区别,确认翻页动作。


3.根据权利要求1所述的现实场景下的阅读综合行为的识别方法,其特征在于,在步骤S3中,实现对焦点页面语言的识别,具体为:
S31:对页面范围内的信息进行随机采样,随机采样后的数据作为所述候选焦点语言特征点图片组;
S32:使用图像文字切割深度学习神经网络对所述候选焦点语言特征点图片组进行逐一切割,获得候选语言文本图像组,同时输出每一个单字或单词的宽度尺寸;
S33:使用图像文本识别深度学习神经网络对所述候选语言文本图像组进行分类,获得文本的具体内容,从而获得焦点页面的目标语言候选信息;
S34:在获得多页面、多点位候选信息之后,进行综合分析以确认书本中所含有的语言的总数量,确定文本中的主题语言和其他占比大的语言种类。


4.根据权利要求1所述的现实场景下的阅读综合行为的识别方法,其特征在于,在步骤S4中,实现焦点页面内文字总量的分析,具体为:
S41:针对于焦点页面语言的识别方案进行分析,获取书本的主题语言;
S42:使用所述处理静态图像的深度学习神经网络对行的信息进行定位,获得行数和每一行的行宽;
S43:与焦点页面语言的识别中输出的每一个单字或单词的宽度尺寸进行计算,估算出每一行的文字数量,进一步计算出页面内的文字总数量。


5.根据权利要求1所述的现实场景下的阅读中和行为的识别方法,其特征在于,在步骤S5中,实现阅读速度的分析,具体为:
S51:通过翻页行为识别到两次翻页事件,计算出两次翻页事件之间的时间间隔;
S52:通过焦点页面内文字总量的分析获得页面内的文字总量;
S53:计算出两次翻页事件之间的时间间隔内阅读文字的总数量,进一步计算出单位时间内阅读文字总量,实现阅读速度的分析。


6.一种现实场景下的阅读综合行为的识别系统,其特征在于,包括:信息载体获取模块,翻页行为识别模块,语言识别模块,文字总量分析模块,阅读速度分析模块;
所述信息载体获取模...

【专利技术属性】
技术研发人员:范骁骏高旻昱
申请(专利权)人:上海翎腾智能科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1