一种基于AI和语音鼠标的实时字幕生成方法及其系统技术方案

技术编号：43932047 阅读：48 留言：0更新日期：2025-01-07 21:26

本发明专利技术公开了一种基于AI和语音鼠标的实时字幕生成方法及其系统，包括基于语音鼠标采集视频流的音频信号，得到视频流数据集；根据语音鼠标的第一音频分析模型对视频流数据集的采集结果和音频变化信息，对视频流数据集的采集结果进行数据处理后确定目标数据集；利用第二音频分析模型对实时采集的视频流的音频进行目标检测后，生成实时的场景字幕解析结果，并进行判断场景字幕解析结果，本发明专利技术能够基于语音鼠标获取视频流数据，并通过AI调用数据后解析生成解析结果，根据解析结果进行相应的判断和生成，并在AI解析的过程中增加了字幕优化策略，提高了对不同场景环境下视频流的生成效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，特别是一种基于ai和语音鼠标的实时字幕生成方法及其系统。

技术介绍

1、随着移动互联网的发展，短视频直播与录播节目逐渐被大众接受并在生活中的方方面面得到广泛应用，相应的各种直播工具与系统和各种功能也应运而生。这些应用与系统也为了满足人们的更多使用需求，设置了ai字幕功能，如：在直播结束后对录制好的直播视频做ai字幕识别。目前，已有工具来辅助视频创作者基于拍摄的视频来产生字幕，但是此种方式需要使用者将拍摄的视频导入工具中，通过工具对视频中的声音进行解析来生成字幕，无法在使用者录制视频或进行直播时生成实时字幕。

2、同时目前市场上的直播工具与系统，虽有满足直播和录播的字幕需求，且技术基于ai语音识别和ocr文字识别而实现，但是ai语音识别和ocr文字识别都是一个在特定场景下准确率较高，但是换了一个新的应用场景，其识别效果的偏差率就会提高到80％甚至于100％。而直播领域需要实时字幕、且直播的场景一直在变化、场景切换和语音人的变化导致直播型字幕的识别难度非常之高，往往不如预期。

3、现有专利(公...

【技术保护点】

1.一种基于AI和语音鼠标的实时字幕生成方法，其特征在于，包括：

2.如权利要求1所述的基于AI和语音鼠标的实时字幕生成方法，其特征在于，基于语音鼠标采集视频流的音频信号，具体地通过语音鼠标的声学声码器采集原始数据，基于原始数据生成数据对比表，通过对窗内的音频信号进行傅里叶变换使得音频数据从时域转换到频域，所述第一音频分析模型根据所述视频流数据集的采集结果和音频变化信息的频域数据进行分析生成第一识别结果数据；通过第一音频分析模型给定一个连续时间域上的视频流音频信号，其中傅里叶变换表示如下：

3.如权利要求2所述的基于AI和语音鼠标的实时字幕生成方法，其特征在于，所...

【技术特征摘要】

1.一种基于ai和语音鼠标的实时字幕生成方法，其特征在于，包括：

2.如权利要求1所述的基于ai和语音鼠标的实时字幕生成方法，其特征在于，基于语音鼠标采集视频流的音频信号，具体地通过语音鼠标的声学声码器采集原始数据，基于原始数据生成数据对比表，通过对窗内的音频信号进行傅里叶变换使得音频数据从时域转换到频域，所述第一音频分析模型根据所述视频流数据集的采集结果和音频变化信息的频域数据进行分析生成第一识别结果数据；通过第一音频分析模型给定一个连续时间域上的视频流音频信号，其中傅里叶变换表示如下：

3.如权利要求2所述的基于ai和语音鼠标的实时字幕生成方法，其特征在于，所述第一音频分析模型具体根据频域信号变化的相似度，来计算音频变化时间段的频谱数据所对应的分段频率的音频变化特征值，具体如下：

4.如权利要求3所述的基于ai和语音鼠标的实时字幕生成方法，其特征在于，在确定目标数据集时，还包括去除异常视频流数据，所述异常视频流数据为视频流中音频信号的异常音频识别信息，具体地为通过神经网络识别频域信号变化的相似度超过预设阈值的音频变化信息，以及不符合正常语音状态下的异常音频识别特征，所述异常音频识别特征中的频域特征通过梅尔倒谱系数进行判别。

5.如权利要求3所述的基于ai和语音鼠标的实时字幕生成方法，其特征在于，所述第二音频分析模型为根据所述第一音频分析模型的...

【专利技术属性】
技术研发人员：景奕昕，骆光奇，李畅，张力博，胡强，
申请(专利权)人：武汉攀升鼎承科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人