【技术实现步骤摘要】
一种基于OpenCV的中文自然场景语音识别系统
[0001]本专利技术涉及场景信息的语音转化
,特别涉及一种基于OpenCV的中文自然场景语音识别系统。
技术介绍
[0002]目前,在视觉交互的技术方面,特别是导盲领域,会通过摄像装置采集盲人当前的场景信息,然后将图像转换为语音文本,从而进行语音输出。
[0003]当前视觉问答和视觉描述领域技术发展日趋成熟,已经能够实现了很好的效果。但是传统的视觉问答和视觉描述的局限性在于概要性的描述,无法对图像中的不同图像元素进行描述,图像文字信息描述效果较差。现有技术中的重点是关注图像中文本信息的文本视觉问答和文本图像描述新兴技术,其结合光学字符识别技术,对图像中所包含的文字信息的敏感度更高,但是将图像信息转换为语音文本的能力比较差。
[0004]在专利文件CN114469661A一种基于编码解码技术的视觉内容导盲辅助系统及方法,一种基于编码解码技术的视觉内容导盲辅助系统及方法。
[0005]但是,在自然场景图像的处理方面,其提出的场景语音处理是:“基于编码解码技术对图像进行处理,根据预设的场景判断模型来判断用户当前所在场景,模式切换为室内或室外模式,若是室内模式跳转S3;若是室外模式跳转S4;在模式切换后对用户进行语音提醒;”,这只能判断不同模式,因此,在对用户的提醒上,无法准确叙述自然场景的所有信息,而且,也只适用于导盲领域的简单识别,无法实现自动化的全场景信息分析。
技术实现思路
[0006]本专利技术提供一种基于OpenCV的 ...
【技术保护点】
【技术特征摘要】
1.一种基于OpenCV的中文自然场景语音识别系统,其特征在于,包括:视觉图像采集模块:通过视觉设备进行自然场景的图像采集,获取自然场景图像;图像标注模块:利用OpenCV对自然场景图像进行解析处理,得到自然场景图像的元素标注图像;场景文本化模块:利用大规模中文语料对元素标注图像进行处理,提取出若干自然场景关键词并组合成自然场景关键词文本;语音转化模块:对自然场景关键词文本进行语音合成,生成自然场景描述语音。2.如权利要求1所述的一种基于OpenCV的中文自然场景语音识别系统,其特征在于,所述视觉图像采集模块还用于:获取视觉设备采集的自然场景图像,对自然场景图像中的每个图像元素进行识别处理,并将识别处理后的图像和原图像结合,生成叠加图像;将叠加图像通过已配置的标签和矩形框进行标记,确定图像元素的标记信息;将具备标记信息的自然场景图像通过训练过的深度残差网络标记图像元素的位置坐标;其中,深度残差网络标记网络通过预先设定的图像训练集进行学习训练,生成元素识别网络;元素识别网络对预先设定的验证集中的图像进行试验;根据位置坐标,确定自然场景图像中不同图像元素的主体范围,进行自然场景图像的图像元素解析标记。3.如权利要求1所述的一种基于OpenCV的中文自然场景语音识别系统,其特征在于,所述视觉图像采集模块还用于:将自然场景图像中不同元素进行裁剪,生成元素裁剪图;将元素裁剪图通过opencv处理,获取各个图像元素轮廓;根据图像元素轮廓,进行特征匹配,确定图像元素中的元素特征;其中,元素特征包括视觉特征、几何角度和运动信息。4.如权利要求1所述的一种基于OpenCV的中文自然场景语音识别系统,其特征在于,所述自然场景图像的中文标注文本包括:将图像元素在元素数据库中匹配得到多个候选元素;根据候选元素,确定对应的多个中文描述词,并计算每个中文描述词的词权重值;将各个中文描述词映射到与自身相似度最高的候选元素,将各个中午描述词的词权重值作为映射的候选元素的元素权重值;根据元素权重值从多个候选元素中确定目标元素,并进行中文标注。5.如权利要求4所述的一种基于OpenCV的中文自然场景语音识别系统,其特征在于,所述将图像元素在元素数据库中匹配得到多个候选元素;包括:基于图像元素,确定初始匹配参数;其中,初始匹配参数为同类元素的固定参数;利用初始匹配参数和元素特征,构建特征匹配函数;元素特征包括元素轮廓、元素几何信息、元素动作和元素行为;基于特征匹配函数对图像元素迭代计算,确定目标匹配参数;
根据目标匹配参数,确定候选元素。6.如权利要求1所述的一种基于OpenCV的中文自然场景语音识别系统,其特征在于,所述利用大规模...
【专利技术属性】
技术研发人员:门殿春,韩立群,闫劲阳,肖小娣,
申请(专利权)人:北京泰策科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。