一种自适应增益的智能审讯笔录装置及录音方法制造方法及图纸

技术编号:33644415 阅读:19 留言:0更新日期:2022-06-02 20:20
本发明专利技术公开了一种自适应增益的智能审讯笔录装置及方法,包括:步骤S1:通过多通道声音采集设备进行音源采集;步骤S2:解析音源,生成对应文本信息;步骤S3:基于目标文本信息,生成文本文件数据并输出;本发明专利技术提供的自适应音源增益过程不受限于具体现场环境结构、硬件采音设备和发言人的行为,能实时动态地对发言人的声学信号进行有助于提升识别效果的音源增益,从而避免传统方法的调优成本,保障实录过程;同时综合考虑声学信号的采集和串音处理过程,通过有效的声学特征提取和串音辨识策略模型,实时识别和过滤串音通道,显著降低了串音现象的发生;同时能有效适用于各实际应用的实录现场。场。场。

【技术实现步骤摘要】
一种自适应增益的智能审讯笔录装置及录音方法


[0001]本专利技术涉及音频处理领域,尤其是一种自适应增益的智能审讯笔录装置及录音方法。

技术介绍

[0002]目前,在法院庭审过程中,需要将法官及当事人等各角色的发言信息记录下来,在庭审结束后整理成一份庭审笔录,经当事人签字确认后存档。在传统的庭审过程中,都会配一个书记员,整个庭审过程中书记员对各角色发言进行记录,记录完成后需要按照固定格式整理成庭审笔录。整个过程对书记员的打字水平有一定的要求,同时还需要对庭审的案件内容有一定的了解,对法律法规有一定程度的专业深度。在此过程中,由于书记员打字速度、对案件理解程度不一,经常会出现记录效率较低,记录不准确、漏记等问题。
[0003]在进行以语音识别为基础的多人实录系统中,室内环境结构、麦克风硬件、说话人位置和声音,都显著影响现场识别效果。各因素的变动容易造成收音微弱、麦克风串音,进而导致明显的识别率下降和识别结果错误等,从而影响使用体验。市面上还没有一种同时有效解决以上问题的方法、装置或设备。自适应音源增益和防串音方法提供简单通用的配置参数,实现了适配不同实录现场,综合考虑环境、硬件、软件、发言人方式等因素,实时分析各发言人通道的声学信息,进行相应的音量特征增益和串音过滤,极大程度上解决了声音小的识别丢字和各通道串音问题,有效保障了不同实录现场的语音识别效果。
[0004]针对相关技术中法院庭审过程中,记录庭审笔录效率较低的问题,目前尚未提出有效的解决方案。
[0005]目前应用的语音识别系统保证高识别准确率具有诸多前提,其中最重要的包括:1.发言人讲话稳定清晰明了,且能被拾音设备平稳采集;;2.发言人逐一讲话,多人同时发言易出现错误的识别结果,最常见的错误现象是其他人讲话的识别结果在自己识别界面上出现;;3.实录现场环境较为安静,白噪音少,且具有均匀的收音环境。
[0006]例如,一种在中国专利文献上公开的“一种防串音信号干扰的PCB板以及连接器”,其公开号为CN214205951U,包括声音小的声源不易被拾音和识别、多个发言人同时发言易相互串音和丢字、现场环境对噪音的过滤效果形成大量干扰音源等问题。

技术实现思路

[0007]本专利技术是为了克服现有技术中,应用的语音识别系统实录环境中容易出现以下现象:1)声音小的发言人难以被拾音和识别;2)声音大的发言人容易串入其他采集设备造成干扰;3)多个发言人同时发言易相互串音和丢字4)现场环境对噪音的过滤效果差形成大量干扰音源,从而导致识别结果混乱等问题,提供一种基于前馈记忆网络的多通道防串音动态规划策略,极大程度上解决了声音小的音源丢失和各通道串音问题,有效提升语音识别效果。
[0008]为了实现上述目的,本专利技术采用以下技术方案:一种自适应增益的智能审讯笔录装置及方法,其特征是,包括:步骤S1:通过多通道声音采集设备进行音源采集;步骤S2:解析音源,判定和消除串音源;步骤S3:基于增益后的声音信号,经过语音识别系统生成文本文件数据并输出。
[0009]作为优选,步骤S1包括:步骤S1A:将采集设备分区布置采音设备及其相关组件;步骤S1B:采集由采音设备及其相关组件的各通道语音信号;步骤S1C:根据预设模型参数进行声学信息转换,提供预设的特征;步骤S1D:根据转换的特征量化和分析,确定原声音信号有效的音量指标和声学数字特征。
[0010]通过采集由采音麦克风及相关拾音组件采集的各通道语音信号,分别提取声源的数字信号和声学信息;在实际应用中,因采集设备已被区分,因此可以取到每个讲话人实时的语音数字信号,所接受的音源以帧为单位。该方法动态根据当前时刻,根据每次说话人的音量大小的实时变化进行自适应的参数输出,因此该方法采用了基于前馈记忆网络的时序建模,输出每一帧声音信号的增益参数,并进行增益和输出;可直接使用即可得到在收音微弱前提下的提升效果显著的识别结果,通过多声道的声卡进行声音采集,得到声音信号,其中,所述声卡上的每个声道对应一个声音采集器,每个声音采集器用于采集使用对象的声音;对所述声音信号进行解析,得到所述声音信号对应的文本信息;以及基于所述文本信息生成目标笔录。
[0011]作为优选,在步骤S1中,特征量化过程中,该方法因动态根据说话人的音量大小的实时变化进行自适应的参数输出,采用基于前馈记忆网络的时序建模,输出每一帧声音信号的增益参数,并进行增益和输出。
[0012]作为优选,步骤S2包括:步骤S2A:将采集到的音源的语音帧按照当前语音桢和历史语音桢进行归纳,得到多个语音组;步骤S2B:将划分的语音组根据预设的模型提取声学特征;步骤S2C:对声学特征在当前时刻和历史时刻进行串音源判定,获取所有串音桢;步骤S2D:将获得的串音桢进行串音分离,得到清洗的语音信号。
[0013]每个通道的音源都将根据自身特征实时确定独有的增益参数,增益后的音源在感官上具有清晰稳定的收听效果,不存在无法听清和爆破音等情况,在现实应用中也对识别增效、音源留底起到了显著作用。
[0014]作为优选,对各通道的特征数据进行相似度计算,对相似度高的通道,再通过马尔可夫过程进行数字信号的时序对齐,识别出在时间上有向后延迟的相似通道,并判定其为串音通道,实录现场的墙壁吸音材料不均匀容易使吸音面弱的一侧的麦克风更易采集到其他人的声源,或说话过程中讲话人偏向相邻的其他麦克风导致自身的麦克风采集到的信号较弱造成其他麦克风串音,或拾音设备因混响、灵敏度、拾音范围等造成麦克风易被串音,等等.以上现象在实际排查过程中均是造成串音现象的潜在因素,而单独对众多因素进行测试调优,则会造成大量的维护成本,再加上这些因素具有易变性,因而本方法考虑从采集
到的各通道声学数字信号和特征量化入手,通过模型方式,识别相互通道之间具有的潜在相似模式来进行串音抑制。
[0015]作为优选,步骤S3包括:步骤S3A:基于目标文本信息,确定庭审案件的类型;步骤S3B:根据所述庭审案件的类型获取对应的笔录模板,在所述笔录模板中的目标位置添加纠错后的文本信息,生成待处理笔录;步骤S3C:将笔录内容进行多通道处理输出,进入串音识别模块和环境噪音辨识模块,将最终笔录内容进行多通道处理输出至可视化界面。
[0016]串音辨识模块是防串音过程的主要处理步骤,负责对各通道的声音信号和相应得到的特征数据进行是否为串音通道,同时进行相应的串音过滤,即对串音通道中进行串音音源消除;保留非串音音源信号环境噪音辨识模块负责识别实录环境中各通道采集到的声学信号是否为环境噪音音源.在不同的实录环境中,存在着不同的环境噪音,这些噪音可能被硬件拾音设备采集到,从而在各识别通道持续输出不正常的文字.因此本专利技术在串音分析之前首先排除主要采集到环境噪音的麦克风通道。
[0017]作为优选,环境噪音辨识模块在串音分析之前首先排除主要采集到环境噪音的麦克风通道,包括以下步骤:步骤SA:计算通道采集数据的功率;步骤SB:对步骤2中得到的特征数据经过分类模型,输出该音源为噪音音源的概率,进行给定阈本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自适应增益的智能审讯笔录方法,其特征是,包括:步骤S1:通过多通道声音采集设备进行音源采集;步骤S2:解析音源,生成对应文本信息;步骤S3:基于目标文本信息,生成文本文件数据并输出。2.根据权利要求1所述的一种自适应增益的智能审讯笔录方法,其特征是,步骤S1包括:步骤S1A:将采集设备分区布置采音设备及其相关组件;步骤S1B:采集由采音设备及其相关组件的各通道语音信号;步骤S1C:提取声源的数字信号和声学信息,提供预设的特征;步骤S1D:根据预设的特征量化和分析,确定原信号的音量指标。3.根据权利要求2所述的一种自适应增益的智能审讯笔录方法,其特征是,在步骤S1中,特征量化过程中, 该方法因动态根据说话人的音量大小的实时变化进行自适应的参数输出,采用基于前馈记忆网络的时序建模, 输出每一帧声音信号的增益参数, 并进行增益和输出。4.根据权利要求1所述的一种自适应增益的智能审讯笔录方法,其特征是,步骤S2包括:步骤S2A:将采集到的音源的语音帧按照条件进行划分,得到多个语音组;步骤S2B:将划分的语音组进行状态划分;步骤S2C:对划分后的语音状态进行数据分离,获得若干单字或单词;步骤S2D:将获得的单字或单词进行逻辑组合,得到多条语音信息。5.根据权利要求4所述的一种自适应增益的智能审讯笔录方法,其特征是,对各通道的特征数据进行相似...

【专利技术属性】
技术研发人员:麦联韬唐海江朱宇袁宇豪
申请(专利权)人:杭州云嘉云计算有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1