一种具有语音提取功能的会议记录器及语音提取方法技术

技术编号:9596901 阅读:125 留言:0更新日期:2014-01-23 02:22
本发明专利技术公开了一种具有说话人语音提取功能的会议记录器,包括主控模块、录音与放音模块、可移动存储模块、交互与显示模块和说话人语音处理模块,其中说话人语音处理模块包含说话人分割模块和说话人聚类模块。主控模块将会议语音流传输至说话人分割模块,说话人分割模块检测上述语音流中说话人改变点,根据这些改变点将语音流分成多个语音段;说话人聚类模块利用谱聚类算法对分割出来的语音段进行说话人聚类,把相同说话人的语音段按顺序拼接在一起,得到说话人个数以及各个说话人的语音。本发明专利技术的会议记录器及语音提取方法,可以从会议语音中自动提取出各个说话人的语音,功能全面且使用方便。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种具有说话人语音提取功能的会议记录器,包括主控模块、录音与放音模块、可移动存储模块、交互与显示模块和说话人语音处理模块,其中说话人语音处理模块包含说话人分割模块和说话人聚类模块。主控模块将会议语音流传输至说话人分割模块,说话人分割模块检测上述语音流中说话人改变点,根据这些改变点将语音流分成多个语音段;说话人聚类模块利用谱聚类算法对分割出来的语音段进行说话人聚类,把相同说话人的语音段按顺序拼接在一起,得到说话人个数以及各个说话人的语音。本专利技术的会议记录器及语音提取方法,可以从会议语音中自动提取出各个说话人的语音,功能全面且使用方便。【专利说明】
本专利技术涉及音频处理领域,特别涉及。
技术介绍
目前市场上的会议记录器只是具有简单的录音、回放、转存等功能,没有说话人语音内容分析与理解的功能。使用者在做作会议记录时,如果需要针对某一个特定的说话人讲话进行汇总与处理,必须听完整个录音,人工进行识别是否为同一说话人。为了节省时间,快进播放又会存在漏掉有用信息的风险。通过手工对语音数据进行标注和提取,对使用者来说,是极为不方便的。因此,人们希望会议记录器除了能录音、放音等功能外,还能对会议记录内容进行内容分析与理解,特别希望会议记录器能根据会议语音资料自动地从所有与会人员中提取出每个说话人的语音。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种具有语音提取功能的会议记录器,其不仅具有录音、放音、转存功能,而且还可以自动提取各个说话人的语音。本专利技术的另一目的在于提供一种语音提取方法,其能分析说话人的个数以及对各个说话人的语音进行分类。本专利技术的目的通过以下的技术方案实现:一种具有语音提取功能的会议记录器,包括主控模块、录音与放音模块、可移动存储模块、交互与显示模块,还包括说话人语音处理模块,说话人语音处理模块包含说话人分割模块和说话人聚类模块,其中说话人分割模块:主控模块将会议音流传输至说话人分割模块,说话人分割模块检测上述语音流中说话人改变点,根据这些改变点将语音流分成多个语音段;说话人聚类模块,利用谱聚类算法对说话人分割模块分割出来的语音段进行说话人聚类,把相同说话人的语音段按顺序拼接在一起,得到说话人个数以及各个说话人的语音?所述的说话人分割模块,包含静音段和语音段检测模块、音频特征提取模块、说话人改变点检测模块和语音段分割模块,其中静音段和语音段检测模块,利用基于门限判决的静音检测算法从上述读入的语音流中找出静音段和语音段;音频特征提取模块,将上述语音段按顺序拼接成一个长语音段,并从长语音段中提取音频特征;说话人改变点检测模块,利用上述提取出来的音频特征,根据贝叶斯信息准则,判断长语音段中相邻数据窗之间的相似度来检测说话人改变点;语音段分割模块,根据上述说话人改变点,把语音流分割成多个语音段,且每个语音段只包含一个说话人。静音段和语音段检测模块中,所述的基于门限判决的静音检测算法包含以下顺序的步骤:(I)对读入的语音流进行分帧,并计算每帧语音的能量,得到语音流的能量特征矢量;(2)计算能量门限;(3)将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧,否则为语音帧,将相邻的静音帧按顺序拼接成一个静音段,将相邻的语音帧按顺序拼接成一个语音段。音频特征提取模块中,所述的音频特征包括梅尔频率倒谱系数(Mel FrequencyCepstral Coefficients, MFCCs)及其一阶差分(Delta-MFCCs)。梅尔频率倒谱系数及其一阶差分是业内公知的特征。所述录音与放音模块,包括麦克风、扬声器和音频处理芯片。所述交互与显示模块,包括一个触摸屏及其控制电路,提供具有控制功能的用户交互界面,利用触摸屏与用户交互。所述可移动存储模块,采用SD卡实现对数据的存储。本专利技术的另一目的通过以下的技术方案来实现:一种语音提取方法,包含以下顺序的步骤:(I)读入语音流:读入记录有多说话人语音的语音流;(2)通过说话人语音处理模块对读入的语音流进行处理,其中说话人语音处理模块包括说话人分割模块和说话人聚类模块;(3)通过说话人分割模块检测上述语音流中说话人改变点,根据这些改变点将语音流分成多个语音段;(4)说话人聚类模块利用谱聚类算法对说话人分割模块分割出来的语音段进行说话人聚类,把相同说话人的语音段按顺序拼接在一起,得到说话人个数以及各个说话人的语音。所述的步骤(3)具体包含以下步骤:a、说话人分割模块包含静音段和语音段检测模块、音频特征提取模块、说话人改变点检测模块和语音段分割模块;b、静音段和语音段检测模块利用基于门限判决的静音检测算法从上述读入的语音流中找出静音段和语音段;C、音频特征提取模块,将上述语音段按顺序拼接成一个长语音段,并从长语音段中提取音频特征;d、说话人改变点检测模块,利用上述提取出来的音频特征,根据贝叶斯信息准则,判断长语音段中相邻数据窗之间的相似度来检测说话人改变点;e、语音段分割模块,根据上述说话人改变点,把语音流分割成多个语音段,且每个语音段只包含一个说话人。步骤b中,所述的基于门限判决的静音检测算法包含以下顺序的步骤:( I)对读入的语音流进行分帧,并计算每帧语音的能量,得到语音流的能量特征矢量;(2)计算能量门限;(3)将每帧语音的能量与能量门限比较,低于能量门限的帧为静音帧,否则为语音帧,将相邻的静音帧按顺序拼接成一个静音段,将相邻的语音帧按顺序拼接成一个语音段;步骤c中,所述的音频特征包括梅尔频率倒谱系数及其一阶差分。本专利技术与现有技术相比,具有如下优点和有益效果:A、使用方便、节省时间:本专利技术所述的会议记录器通过录音与放音模块采集语音数据之后,可以对语音资料自动进行处理,将各个说话人区别开来,并将各个说话人的语音进行归类、存储,使用者可以根据自己的需要直接选择特定说话人及特定说话人的语音。B、功能全面:本专利技术的会议记录器同时具有一般会议记录器的功能,如录音、放音、转存,另外其可移动存储模块可以将别处获得的语音数据拷贝到本会议记录器进行分析处理。【专利附图】【附图说明】图1为本专利技术所述的一种具有说话人语音提取功能的会议记录器的结构框图;图2为图1所述会议记录器的工作流程图;图3为本专利技术所述的语音提取方法的流程图。【具体实施方式】下面结合实施例及附图对本专利技术作进一步详细的描述,如图1、2,一种具有说话人语音提取功能的会议记录器,如图1,包括主控模块、录音与放音模块、可移动存储模块、交互与显示模块,还包括说话人语音处理模块,说话人语音处理模块包含说话人分割模块和说话人聚类模块,其中录音与放音模块,包括麦克风、扬声器和音频处理芯片;交互与显示模块,包括一个触摸屏及其控制电路,提供具有控制功能的用户交互界面,利用触摸屏与用户交互;可移动存储模块,采用SD卡实现对数据的存储;录音与放音模块,负责语音资料的录入与播放;主控模块,发出指令,控制各个模块之间的协调工作,主控模块采用基于三星S5PV210处理器的微电脑处理平台,搭载嵌入式Linux系统;说话人分割模块,主控模块将读入记录有多个说话人语音的语音流传输至说话人分割模块,说话人分割模块检测上述语音流中说话人改变点,根据这些改变点将语音流分成多个语音段,说话人分割模块具体包含静本文档来自技高网...

【技术保护点】
一种具有语音提取功能的会议记录器,包括主控模块、录音与放音模块、可移动存储模块、交互与显示模块,其特征在于,还包括说话人语音处理模块,说话人语音处理模块包含说话人分割模块和说话人聚类模块,其中说话人分割模块:主控模块将会议语音流传输至说话人分割模块,说话人分割模块检测上述会议语音流中说话人改变点,根据这些改变点将语音流分成多个语音段;说话人聚类模块,利用谱聚类算法对说话人分割模块分割出来的语音段进行说话人聚类,把相同说话人的语音段按顺序拼接在一起,得到说话人个数以及各个说话人的语音。

【技术特征摘要】

【专利技术属性】
技术研发人员:王梓里李艳雄李广隆
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1