一种基于深度学习的语音转录方法技术

技术编号：43964890 阅读：43 留言：0更新日期：2025-01-07 21:50

一种基于深度学习的语音转录方法，属于语音识别领域，为了解决现有分段语音文本识别中较短时间音频文本处理不准确，导致转录文本不完整的问题，要点是根据所述音频时间标记，将所述第二文本与所述第一文本匹配，对所述第二文本中各音频区间的音频对应的文本对应在所述第一文本的相应的文本位置，根据第二文本的所述文本区间标记对所述第一文本的对应文本的区间标记说话对象，所述标记文本区间的说话对象的第一文本是所述语音转录所得。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于语音识别领域，涉及一种基于深度学习的语音转录方法。

技术介绍

1、执法机关或检察机关处理案件的过程中，通常使用执法记录仪或者监控器对执法过程进行记录，同时会有执法人员对该过程中的对话进行记录，最终形成笔录并存档。这些执法过程中的视频以及笔录的执法信息数据对日后进一步的使用有着重要的作用，其中包含的案件事实对案情起着佐证作用，提高办案人员的办案效率。此外，两类信息也相互补充，避免执法信息数据的遗漏。

2、为了使笔录中的信息更加规范，通常需要记录人员在记录的同时，也需要对对话的内容进行整理，对记录人员的要求较高，需要有长时间的该类工作经验才能够胜任。除此之外，对执法过程进行记录会影响整体的执法信息数据存储的进度，所以需要对该过程的生成、存储速度进行优化。

3、整体的语音识别不能具有文本分区以及说话人的区分，导致转录文本不具有可读性，通常本领域采用分段文本转录，如申请公布号us20230154468a1的美国专利申请文件中公开了一种用于长格式音频的语音识别装置，并具体公开了将音频流分段成多个音频段；识别所...

【技术保护点】

1.一种基于深度学习的语音转录方法，其特征在于，包括

2.根据权利要求1所述的基于深度学习的语音转录方法，其特征在于，在所述步骤S50中，音频区间未识别有效文本内容，识别得到音频区间的声音特征以及特征分类，使第二文本中这类文本的文本区间无对应文本内容，但文本区间对应说话对象标记，这类文本是第二文本中的特别文本；

3.根据权利要求1或2所述的基于深度学习的语音转录方法，其特征在于，所述步骤S10中提取视频文件中的音频文件的方法，包括

4.根据权利要求1或2所述的基于深度学习的语音转录方法，其特征在于，所述步骤S30中通过声纹识别对所述音频文件中的音频中的...

【技术特征摘要】

1.一种基于深度学习的语音转录方法，其特征在于，包括

2.根据权利要求1所述的基于深度学习的语音转录方法，其特征在于，在所述步骤s50中，音频区间未识别有效文本内容，识别得到音频区间的声音特征以及特征分类，使第二文本中这类文本的文本区间无对应文本内容，但文本区间对应说话对象标记，这类文本是第二文本中的特别文本；

3.根据权利要求1或2所述的基于深度学习的语音转录方法，其特征在于，所述步骤s10中提取视频文件中的音频文件的方法，包括

4.根据权利要求1或2所述的基于深度学习的语音转录方法，其特征在于，所述步骤s30中通过声纹识别对所述音频文件中的音频中的不同声音特征分类的方法包括

5.根据权利要求4所述的基于深度学...

【专利技术属性】
技术研发人员：林国凯，王志永，刘诗慧，王勇，
申请(专利权)人：中检美亚厦门科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人