基于视频图像识别的并行信号处理方法及系统技术方案

技术编号：37783532 阅读：35 留言：0更新日期：2023-06-09 09:14

本发明专利技术涉及信号处理领域技术领域，尤其涉及一种基于视频图像识别的并行信号处理方法和系统。该方法包括接收视频图像信息；对所述视频图像的图像信息和声音信息进行识别；对识别之后的声音信息转化为文本信息；在显示屏上目标显示区域显示所述文本信息，该系统包括接收模块、识别模块、转化模块和显示模块。通过对接收视频图像信息的字幕信息和声音信息进行识别，并将声音信息根据语音识别算法转化为文本信息并在显示屏目标显示区域进行显示，实现了电视无字幕视频播放的字幕显示，解决了电视视频播放实时字幕显示存在局限性的问题。视频播放实时字幕显示存在局限性的问题。视频播放实时字幕显示存在局限性的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于视频图像识别的并行信号处理方法及系统

[0001]本专利技术涉及信号处理领域，尤其涉及一种基于视频图像识别的并行信号处理方法及系统。

技术介绍

[0002]电视作为娱乐方式的一种，丰富着人们的生活。但由于并不是所有的电视节目都有字幕，字幕的缺乏严重影响听障人群的观看体验。
[0003]申请号为CN201811367918.4的专利文献公开了一种字幕添加方法、装置、电子设备及计算机可读存储介质，其中该方法包括：提取待添加字幕的视频文件中的音频信息，并对音频信息进行语音识别，得到音频信息对应的文本信息及语音环境特征，然后依据得到的文本信息及语音环境特征，生成相应的字幕信息，继而将字幕信息添加至视频文件中，以使得视频文件在播放时携带字幕信息。
[0004]现有技术通过对视频的音频信息进行提取并识别，然后添加到视频文件中，使视频文件播放时携带字幕信息，该方法需要预先对视频进行处理，因此在电视视频播放实时字幕显示中存在局限性。

技术实现思路

[0005]为此，本专利技术提供一种基于视频图像识别的并行...

【技术保护点】

【技术特征摘要】
1.一种基于视频图像识别的并行信号处理方法，其特征在于，包括：接收视频图像信息；对所述视频图像在目标显示区域的字幕信息和视频图像的声音信息进行识别，若在目标显示区域未能识别出文本信息，则判定所述视频图像不含字幕信息；对识别之后的声音信息转化为文本信息，若在目标显示区域识别出文本信息，则将所述文本信息与所述声音信息识别之后的文本字符进行对比，当所述文本信息与所述声音信息识别之后的文本字符匹配度≥80％时，判定所述文本信息为字幕信息，当所述文本信息与所述声音信息识别之后的文本字符匹配度＜80％时，判定所述文本信息不为字幕信息；在显示屏上目标显示区域显示所述文本信息。2.根据权利要求1所述的基于视频图像识别的并行信号处理方法，其特征在于，在对所述视频图像的声音信息进行识别时，通过深度学习神经网络、声学模型和语言模型对所述声音信息进行识别转化，所述深度学习神经网络用以对声音信息进行编码，得到编码信息，所述声学模型用以对所述编码信息进行解码，得到解码信息，所述语言模型用以对所述解码信息进行识别并输出为文本信息，所述语言模型不仅能够将所述解码信息输出，还能够记录输出文本信息的文本字符间的时间间隔，在所述深度学习神经网络对声音信息进行编码时，对所述声音信息的声音特征进行提取，并将所述声音特征与第一目标声音特征库进行匹配度对比，若所述声音特征与第一目标声音特征库的匹配度≥80％，则判定所述声音特征为人声特征。3.根据权利要求2所述的基于视频图像识别的并行信号处理方法，其特征在于，若所述声音特征与第一目标声音特征库的匹配度＜80％，则判定所述声音特征为非人声特征，所述深度学习神经网络对人声信息正常解码，对非人声特征进一步根据与第二目标声音特征库、第三目标声音特征库和第四目标声音特征库的匹配度进行对比，若所述非人声特征与第二目标声音特征库的匹配度≥80％，则判定所述声音特征为音乐声音特征，若所述非人声特征与第三目标声音特征库的匹配度≥80％，则判定所述声音特征为动物声音特征，若所述非人声特征与第四目标声音特征库的匹配度≥80％，则判定所述声音特征为自然声音特征。4.根据权利要求3所述的基于视频图像识别的并行信号处理方法，其特征在于，在显示屏上目标显示区域显示所述文本信息时，所述目标显示区域设置有最大文本字符数值Nm和文本信息的显示时间，所述最大文本字符数值Nm用以对目标显示区域的文本信息的字符数值进行限制，所述显示时间用以对目标显示区域的文本信息进行时间限制。5.根据权利要求4所述的基于视频图像识别的并行信号处理方法，其特征在于，在对所述文本信息进行显示时，所述文本信息只在目标显示区域进行显示，若所述文本信息的字符数量N≤Nm，则目标显示区域正常显示所述文本信息，若所述文本信息的字符数量N＞Nm，则将所述文本信息进行分段，第一段文本信息的字符数量为Nm，第二段文本信息的字符数量为N
‑
Nm，若所述第二段文本信息字符数量N
‑
Nm＞Nm，则继续对所述第二段文本信息字符进行分
段，第三段文本信息字符数量为N
‑2ⅹ
Nm。6.根据权利要求5所述的基于视频图像识别的并行信号处理方法，其特征在于，在对所述文本信息进行显示时，在文本信息的结尾字符之后的目标显示区域不再显示下一段文本信息，对某一文本信息字符为所述文本信息开始字符或者结尾字符的判定为，所述文本信息中某一文本字符P0与下一个文本字符P1之间的时间间隔为T0，所述文本字符P1与下一个文本字符P2之间的时间间隔为T1，当N≤Nm时，目标显...

【专利技术属性】
技术研发人员：晋荣，任鹏，李想，
申请(专利权)人：北京富通亚讯网络信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人