一种基于OpenCV的中文自然场景语音识别系统技术方案

技术编号:39192312 阅读:7 留言:0更新日期:2023-10-27 08:39
本发明专利技术提供了一种基于OpenCV的中文自然场景语音识别系统,包括通过视觉设备进行自然场景的图像采集,获取自然场景图像;利用OpenCV对自然场景图像进行解析处理,得到自然场景图像的中文标注文本;利用大规模中文语料对中文标注文本进行处理,提取出若干自然场景关键词并组合成自然场景关键词文本;对自然场景关键词文本进行语音合成,生成自然场景描述语音。本发明专利技术可以实现对自然场景中不同的行为、设备、环境信息等等具体的场景信息进行标注,通过关键词进行文本化解析,生成具体文本化的内容,通过文本化的内容,可以通过语音转化的方式,将文本转化为语音,从而实现自然场景的语音描述。景的语音描述。景的语音描述。

【技术实现步骤摘要】
一种基于OpenCV的中文自然场景语音识别系统


[0001]本专利技术涉及场景信息的语音转化
,特别涉及一种基于OpenCV的中文自然场景语音识别系统。

技术介绍

[0002]目前,在视觉交互的技术方面,特别是导盲领域,会通过摄像装置采集盲人当前的场景信息,然后将图像转换为语音文本,从而进行语音输出。
[0003]当前视觉问答和视觉描述领域技术发展日趋成熟,已经能够实现了很好的效果。但是传统的视觉问答和视觉描述的局限性在于概要性的描述,无法对图像中的不同图像元素进行描述,图像文字信息描述效果较差。现有技术中的重点是关注图像中文本信息的文本视觉问答和文本图像描述新兴技术,其结合光学字符识别技术,对图像中所包含的文字信息的敏感度更高,但是将图像信息转换为语音文本的能力比较差。
[0004]在专利文件CN114469661A一种基于编码解码技术的视觉内容导盲辅助系统及方法,一种基于编码解码技术的视觉内容导盲辅助系统及方法。
[0005]但是,在自然场景图像的处理方面,其提出的场景语音处理是:“基于编码解码技术对图像进行处理,根据预设的场景判断模型来判断用户当前所在场景,模式切换为室内或室外模式,若是室内模式跳转S3;若是室外模式跳转S4;在模式切换后对用户进行语音提醒;”,这只能判断不同模式,因此,在对用户的提醒上,无法准确叙述自然场景的所有信息,而且,也只适用于导盲领域的简单识别,无法实现自动化的全场景信息分析。

技术实现思路

[0006]本专利技术提供一种基于OpenCV的中文自然场景语音识别系统,用以解决现有技术中的重点关注图像中文本信息的文本视觉问答和文本图像描述新兴技术,其结合光学字符识别技术,对图像中所包含的文字信息的敏感度更高,但是将图像信息转换为语音文本的能力比较差的情况。
[0007]本专利技术提出了一种基于OpenCV的中文自然场景语音识别系统,包括:
[0008]视觉图像采集模块:通过视觉设备进行自然场景的图像采集,获取自然场景图像;
[0009]图像标注模块:利用OpenCV对自然场景图像进行解析处理,得到自然场景图像的元素标注图像;
[0010]场景文本化模块:利用大规模中文语料对元素标注图像进行处理,提取出若干自然场景关键词并组合成自然场景关键词文本;
[0011]语音转化模块:对自然场景关键词文本进行语音合成,生成自然场景描述语音。
[0012]优选的,所述视觉图像采集模块还用于:
[0013]获取视觉设备采集的自然场景图像,对自然场景图像中的每个图像元素进行识别处理,并将识别处理后的图像和原图像结合,生成叠加图像;
[0014]将叠加图像通过已配置的标签和矩形框进行标记,确定图像元素的标记信息;
[0015]将具备标记信息的自然场景图像通过训练过的深度残差网络标记图像元素的位置坐标;其中,
[0016]深度残差网络标记网络通过预先设定的图像训练集进行学习训练,生成元素识别网络;
[0017]元素识别网络对预先设定的验证集中的图像进行试验;
[0018]根据位置坐标,确定自然场景图像中不同图像元素的主体范围,进行自然场景图像的图像元素解析标记。
[0019]优选的,所述视觉图像采集模块还用于:
[0020]将自然场景图像中不同元素进行裁剪,生成元素裁剪图;
[0021]将元素裁剪图通过opencv处理,获取各个图像元素轮廓;
[0022]根据图像元素轮廓,进行特征匹配,确定图像元素中的元素特征;
[0023]其中,
[0024]元素特征包括视觉特征、几何角度和运动信息。
[0025]优选的,所述自然场景图像的中文标注文本包括:
[0026]将图像元素在元素数据库中匹配得到多个候选元素;
[0027]根据候选元素,确定对应的多个中文描述词,并计算每个中文描述词的词权重值;
[0028]将各个中文描述词映射到与自身相似度最高的候选元素,将各个中午描述词的词权重值作为映射的候选元素的元素权重值;
[0029]根据元素权重值从多个候选元素中确定目标元素,并进行中文标注。
[0030]优选的,所述将图像元素在元素数据库中匹配得到多个候选元素;包括:
[0031]基于图像元素,确定初始匹配参数;其中,
[0032]初始匹配参数为同类元素的固定参数;
[0033]利用初始匹配参数和元素特征,构建特征匹配函数;
[0034]元素特征包括元素轮廓、元素几何信息、元素动作和元素行为;
[0035]基于特征匹配函数对图像元素迭代计算,确定目标匹配参数;
[0036]根据目标匹配参数,确定候选元素。
[0037]优选的,所述利用大规模中文语料对元素标注图像进行处理,包括:
[0038]预先设置大规模中文语料数据库和元素图像数据库;其中,
[0039]元素图像数据库中每个图像元素对应大规模中文语料数据库中多个中文关键词;
[0040]将元素图像数据库的元素图像利用预设的中文描述网络进行预训练,得到预训练模型;其中,
[0041]中文描述网络基于DCNN网络训练构成;
[0042]根据预训练模型,对大规模中文语料数据库对元素标注图像的图像特征提取和图像特征映射,并将映射结果和提取结果传输至基于聚类标记的聚类模糊网络;
[0043]根据聚类模糊网络,对大规模中文语料数据库中的元素图像数据库进行中文描述词的词编码矩阵构建;其中,
[0044]词编码矩阵包括:中文描述词同义词矩阵、中文描述词索引矩阵和中文描述词的词义解析矩阵;
[0045]根据词编码矩阵,生成基于图像元素描述的多维结果模型,确定多种图像元素的
描述结果,并将描述结果中的同义词作为的中文描述关键词。
[0046]优选的,所述提取出若干自然场景关键词并组合成自然场景关键词文本,包括:
[0047]预先设定多个自然场景的关键词描述规范文本,并生成文本数据库;
[0048]将预先训练的中文描述模型和关键词融合模型进行拼接,获取拼接后的融合模型,并根据融合模型获取不同关键词描述规范文本的特征向量;
[0049]获取提取的自然场景关键词,根据自然场景关键词以及关键词描述规范文本的特征向量,在文本数据库中获取多个与自然场景关键词相似的候选文本,并利用候选文本组成候选文本集合;
[0050]根据预设的文本组合方式,在候选文本集合中筛选出至少一组目标文本,并根据目标文本生成至少一篇自然场景关键词文本。
[0051]优选的,所述语音合成包括:
[0052]基于自然场景关键词文本中获取声学特征序列;
[0053]根据声学特征序列,将自然场景关键词文本中的关键词按照语音序列融合,得到语音描述信息;
[0054]将语音描述信息与声学特征序列融合,以生成当前文本的语音信息。
[0055]优选的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于OpenCV的中文自然场景语音识别系统,其特征在于,包括:视觉图像采集模块:通过视觉设备进行自然场景的图像采集,获取自然场景图像;图像标注模块:利用OpenCV对自然场景图像进行解析处理,得到自然场景图像的元素标注图像;场景文本化模块:利用大规模中文语料对元素标注图像进行处理,提取出若干自然场景关键词并组合成自然场景关键词文本;语音转化模块:对自然场景关键词文本进行语音合成,生成自然场景描述语音。2.如权利要求1所述的一种基于OpenCV的中文自然场景语音识别系统,其特征在于,所述视觉图像采集模块还用于:获取视觉设备采集的自然场景图像,对自然场景图像中的每个图像元素进行识别处理,并将识别处理后的图像和原图像结合,生成叠加图像;将叠加图像通过已配置的标签和矩形框进行标记,确定图像元素的标记信息;将具备标记信息的自然场景图像通过训练过的深度残差网络标记图像元素的位置坐标;其中,深度残差网络标记网络通过预先设定的图像训练集进行学习训练,生成元素识别网络;元素识别网络对预先设定的验证集中的图像进行试验;根据位置坐标,确定自然场景图像中不同图像元素的主体范围,进行自然场景图像的图像元素解析标记。3.如权利要求1所述的一种基于OpenCV的中文自然场景语音识别系统,其特征在于,所述视觉图像采集模块还用于:将自然场景图像中不同元素进行裁剪,生成元素裁剪图;将元素裁剪图通过opencv处理,获取各个图像元素轮廓;根据图像元素轮廓,进行特征匹配,确定图像元素中的元素特征;其中,元素特征包括视觉特征、几何角度和运动信息。4.如权利要求1所述的一种基于OpenCV的中文自然场景语音识别系统,其特征在于,所述自然场景图像的中文标注文本包括:将图像元素在元素数据库中匹配得到多个候选元素;根据候选元素,确定对应的多个中文描述词,并计算每个中文描述词的词权重值;将各个中文描述词映射到与自身相似度最高的候选元素,将各个中午描述词的词权重值作为映射的候选元素的元素权重值;根据元素权重值从多个候选元素中确定目标元素,并进行中文标注。5.如权利要求4所述的一种基于OpenCV的中文自然场景语音识别系统,其特征在于,所述将图像元素在元素数据库中匹配得到多个候选元素;包括:基于图像元素,确定初始匹配参数;其中,初始匹配参数为同类元素的固定参数;利用初始匹配参数和元素特征,构建特征匹配函数;元素特征包括元素轮廓、元素几何信息、元素动作和元素行为;基于特征匹配函数对图像元素迭代计算,确定目标匹配参数;
根据目标匹配参数,确定候选元素。6.如权利要求1所述的一种基于OpenCV的中文自然场景语音识别系统,其特征在于,所述利用大规模...

【专利技术属性】
技术研发人员:门殿春韩立群闫劲阳肖小娣
申请(专利权)人:北京泰策科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1