庭审语音实时转写方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:20078071 阅读:48 留言:0更新日期:2019-01-15 01:33
本发明专利技术公开一种庭审语音实时转写方法、装置、计算机设备极存储介质,该方法包括通过麦克风阵列采集原始语音数据;对原始语音数据进行数据预处理,获取目标语音数据;采用MFCC算法对目标语音数据进行声纹特征提取,获取目标声纹特征;基于麦克风阵列标识查询数据库,获取与麦克风阵列标识所在位置对应的至少一个身份数据和与每一获取的身份数据相对应的标准声纹特征;基于目标声纹特征与每一标准声纹特征进行匹配处理,获取匹配的标准声纹特征对应的目标身份数据;采用预先训练的语音识别模型对目标声纹特征进行识别,获取与目标声纹特征对应的目标文字数据;在显示设备实时显示目标文字数据和目标身份数据,解决人工转写过程中效率低下的问题。

Real-time transcription method, device, computer equipment and storage medium of court hearing voice

The invention discloses a real-time transcription method, device and computer equipment pole storage medium for court hearing voice. The method includes collecting original voice data through microphone array, preprocessing original voice data to obtain target voice data, extracting voice print features from target voice data by MFCC algorithm, and obtaining target voice print features based on microphone array identification. Query the database to obtain at least one identity data corresponding to the location of the microphone array identification and standard voiceprint features corresponding to each acquired identity data; match each standard voiceprint feature based on the target voiceprint features to obtain the target identity data corresponding to the matched standard voiceprint features; adopt the pre-trained speech recognition model to identify the target voiceprint. Feature recognition, acquisition of target text data corresponding to target voiceprint features; real-time display of target text data and target identity data in display equipment, to solve the problem of inefficiency in the process of manual transcription.

【技术实现步骤摘要】
庭审语音实时转写方法、装置、计算机设备及存储介质
本专利技术涉及数据处理领域,尤其涉及一种庭审语音实时转写方法、装置、计算机设备及存储介质。
技术介绍
目前法庭庭审中,通常由书记员事先确认每一当事人的身份信息之后,再对每一当事人陈述的意见或内容进行记录。这种由书记员人工对法庭庭审内容进行整理和记录的方式,可能对当事人陈述的意见或内容造成一定的误差,且通过人工记录速度较慢,影响庭审进程,导致实时转写效率低下。
技术实现思路
本专利技术实施例提供一种庭审语音实时转写方法、装置、计算机设备及存储介质,以解决人工转写庭审记录过程中效率低下的问题。一种庭审语音实时转写方法,包括:通过麦克风阵列采集原始语音数据,每一所述原始语音数据对应一麦克风阵列标识;对所述原始语音数据进行数据预处理,获取目标语音数据;采用MFCC算法对所述目标语音数据进行声纹特征提取,获取目标声纹特征;基于所述麦克风阵列标识查询数据库,获取与所述麦克风阵列标识所在位置对应的至少一个身份数据和与每一获取的身份数据相对应的标准声纹特征;基于所述目标声纹特征与每一所述标准声纹特征进行匹配处理,获取匹配的标准声纹特征对应的目标身份数据;采用预先训练的语音识别模型对所述目标声纹特征进行识别,获取与所述目标声纹特征对应的目标文字数据;在显示设备上实时显示所述目标文字数据和对应的所述目标身份数据。一种庭审语音实时转写装置,包括:采集模块,用于通过麦克风阵列采集原始语音数据,每一所述原始语音数据对应一麦克风阵列标识;预处理模块,用于对所述原始语音数据进行数据预处理,获取目标语音数据;声纹特征提取模块,用于采用MFCC算法对所述目标语音数据进行声纹特征提取,获取目标声纹特征;数据查找模块,用于基于所述麦克风阵列标识查询数据库,获取与所述麦克风阵列标识所在位置对应的至少一个身份数据和与每一获取的身份数据相对应的标准声纹特征;身份数据获取模块,用于基于所述目标声纹特征与每一所述标准声纹特征进行匹配处理,获取匹配的标准声纹特征对应的目标身份数据;文字数据获取模块,用于采用预先训练的语音识别模型对所述目标声纹特征进行识别,获取与所述目标声纹特征对应的目标文字数据;显示模块,用于在显示设备上实时显示所述目标文字数据和对应的所述目标身份数据。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述庭审语音实时转写方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述庭审语音实时转写方法的步骤。上述庭审语音实时转写方法、装置、计算机设备及存储介质,该方法包括:通过麦克风阵列采集原始语音数据,每一原始语音数据对应一麦克风阵列标识,以便后续根据原始语音数据获取对应的身份数据和目标文字数据。通过对原始语音数据进行数据预处理,获取目标语音数据,以实现增强原始语音数据,降低原始语音数据噪声,解决外部噪声造成内容误差的问题。采用MFCC算法对目标语音数据进行声纹特征提取,获取目标声纹特征,采用MFCC算法提取声纹特征简单方便,且可快速获取到目标声纹特征。基于麦克风阵列标识查询数据库,获取与麦克风阵列标识所在位置对应的至少一个身份数据和与每一获取的身份数据相对应的标准声纹特征,通过目标声纹特征与每一标准声纹特征进行匹配处理,获取匹配的标准声纹特征对应的目标身份数据,将该身份数据作为目标声纹数据对应的目标身份数据,实现方法简单快速,以快速获取到身份数据。采用预先训练的语音识别模型对目标声纹特征进行识别,获取与目标声纹特征对应的目标文字数据,以快速获取目标文字数据。在显示设备上实时显示目标文字数据和对应的目标身份数据,无需人工介入,实时显示身份数据和目标文字数据,提高对法庭庭审内容进行整理和记录的效率,以便提高庭审效率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中庭审语音实时转写方法的一应用环境示意图;图2是本专利技术一实施例中庭审语音实时转写方法的一流程图;图3是本专利技术一实施例中庭审语音实时转写方法的一流程图;图4是本专利技术一实施例中庭审语音实时转写方法的一流程图;图5是本专利技术一实施例中庭审语音实时转写方法的一流程图;图6是本专利技术一实施例中庭审语音实时转写方法的一流程图;图7是本专利技术一实施例中庭审语音实时转写方法的一流程图;图8是本专利技术一实施例中庭审语音实时转写装置的一原理框图;图9是本专利技术一实施例中计算机设备的一示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供的庭审语音实时转写方法,可应用在如图1的应用环境中。该庭审语音实时转写方法应用在庭审语音实时转写系统中,该庭审语音实时转写系统包括用户端、服务端和显示设备。其中,用户端通过网络与服务端进行通信,该网络可以是有线网络或者无线网络,用户端将接收到的原始语音数据发送至服务端,服务端对原始语音数据实时转写成目标文字数据,并通过原始语音数据获取对应的身份数据,将目标文字数据与身份信息一一对应,并在显示设备上进行显示,以解决人工转写效率低下的问题。其中,服务端和用户端之间通过网络进行连接,其中,用户端可以为采集原始语音数据的语音采集设备,于本实施例中,该用户端为麦克风阵列。服务端可以用独立的服务端或者是多个服务端组成的服务端集群来实现。在一实施例中,如图2所示,提供一种庭审语音实时转写方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:S10:通过麦克风阵列采集原始语音数据,每一原始语音数据对应一麦克风阵列标识。其中,原始语音数据是通过麦克风阵列实时采集的当事人的语音数据。麦克风阵列是将不同麦克风按某种方式放置在不同的空间位置上。该麦克风陈列在空间上接收语音数据,经过一定的处理过程,可以提取语音数据的相关特征信息,如幅度、频率和方向等。麦克风阵列按麦克风在空间位置的不同分布,会有如下的拓扑结构:线性阵列、圆形阵列和球形阵列等。每一麦克风阵列对应一麦克风阵列标识,麦克风阵列采集到的原始语音数据与麦克风阵列标识对应。例如,麦克风阵列标识为A,通过A对应的麦克风阵列采集原始语音数据,将该原始语音数据与A进行对应。具体地,法庭庭审前,确定每一麦克风阵列所在的位置,对麦克风阵列的位置进行固定,并确定每一麦克风阵列对应的麦克风阵列标识。用户端与服务端通信连接,用户端通过麦克风阵列实时采集当事人的原始语音数据,并将原始语音数据与麦克风阵列标识一一对应。例如,法庭庭审中,固定三个麦克风阵列,通过该三个麦克风阵列实时采集当事人的原始语音数据,其中,当事人可以是被告、原告、被告律师、原告律师、法官和陪审员等,麦克风阵列1采集法官和陪审员的原始语音数据,麦克风阵列2本文档来自技高网...

【技术保护点】
1.一种庭审语音实时转写方法,其特征在于,包括:通过麦克风阵列采集原始语音数据,每一所述原始语音数据对应一麦克风阵列标识;对所述原始语音数据进行数据预处理,获取目标语音数据;采用MFCC算法对所述目标语音数据进行声纹特征提取,获取目标声纹特征;基于所述麦克风阵列标识查询数据库,获取与所述麦克风阵列标识所在位置对应的至少一个身份数据和与每一获取的身份数据相对应的标准声纹特征;基于所述目标声纹特征与每一所述标准声纹特征进行匹配处理,获取匹配的标准声纹特征对应的目标身份数据;采用预先训练的语音识别模型对所述目标声纹特征进行识别,获取与所述目标声纹特征对应的目标文字数据;在显示设备上实时显示所述目标文字数据和对应的所述目标身份数据。

【技术特征摘要】
1.一种庭审语音实时转写方法,其特征在于,包括:通过麦克风阵列采集原始语音数据,每一所述原始语音数据对应一麦克风阵列标识;对所述原始语音数据进行数据预处理,获取目标语音数据;采用MFCC算法对所述目标语音数据进行声纹特征提取,获取目标声纹特征;基于所述麦克风阵列标识查询数据库,获取与所述麦克风阵列标识所在位置对应的至少一个身份数据和与每一获取的身份数据相对应的标准声纹特征;基于所述目标声纹特征与每一所述标准声纹特征进行匹配处理,获取匹配的标准声纹特征对应的目标身份数据;采用预先训练的语音识别模型对所述目标声纹特征进行识别,获取与所述目标声纹特征对应的目标文字数据;在显示设备上实时显示所述目标文字数据和对应的所述目标身份数据。2.如权利要求1所述的庭审语音实时转写方法,其特征在于,所述麦克风阵列包括至少三个麦克风;所述对所述原始语音数据进行数据预处理,获取目标语音数据,包括:采用GCC估计算法估算所述原始语音数据到达第一麦克风和第二麦克风的时延差;基于所述原始语音数据到达所述第一麦克风和所述第二麦克风的时延差,采用几何定位法获取所述原始语音数据的空间坐标;基于所述原始语音数据的空间坐标,确定所述麦克风阵列中每一麦克风对应的权重,采用加权公式对所述原始语音数据进行加权处理,获取待滤波语音数据;其中,所述加权公式为y(t)为待滤波语音数据,n为麦克风数量,i为第i个麦克风的标识,wi为第i个麦克风对应的权重,xi(t)为第i个麦克风接收到的原始语音数据;采用维纳滤波算法对所述待滤波语音数据进行滤波处理,获取目标语音数据。3.如权利要求2所述的庭审语音实时转写方法,其特征在于,采用GCC估计算法估算所述原始语音数据到达第一麦克风和第二麦克风的时延差,包括:基于所述第一麦克风和所述第二麦克风,获取所述第一麦克风和所述第二麦克风的原始互相关函数;对所述原始互相关函数做傅里叶变换,获取互功率谱;对所述互功率谱进行加权处理,获取加权互功率谱,并对所述加权互功率谱做反傅里叶变换,获取目标互相关函数;基于所述目标互相关函数,获取所述目标互相关函数的极大值,将所述极大值作为所述原始语音数据到达所述第一麦克风和所述第二麦克风的时延差。4.如权利要求2所述的庭审语音实时转写方法,其特征在于,所述基于所述原始语音数据到达所述第一麦克风和所述第二麦克风的时延差,采用几何定位法获取所述原始语音数据的空间坐标,包括:基于所述原始语音数据到达所述第一麦克风和所述第二麦克风的时延差和每一所述麦克风的空间坐标,采用定位公式获取所述原始语音数据的空间坐标;其中,所述定位公式为||s-mi||-||s-mj||=τij*v,(i=1,...,n)(j=1,...,n),s为原始语音数据的空间坐标,i和j为麦克风标识,mi为第i个麦克风的空间坐标,mj为第j个麦克风的空间坐标,τij为原始语音数据到达麦克风i和麦克风j的时延差,v为声速。5.如权利要求1所述的庭审语音实时转写方法,其特征在于,所述基于所述目标声纹特征与所述标准声纹特征进行匹配处理,获取匹配的标准声纹特征对应的目标身份数据,包括:将...

【专利技术属性】
技术研发人员:黄锦伦
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1