【技术实现步骤摘要】
一种多通道语音识别装置及其语音转文字方法
[0001]本专利技术涉及语音识别的
,尤其是指一种多通道语音识别装置及其语音转文字方法。
技术介绍
[0002]在电力调度过程中,使用语音识别技术,可以提高效率,进一步实现调度自动化和智能化。除了识别调度员发出的语音指令外,还需要识别调度员和现场人员之间的电话通话,把这些通话变为文本后存储起来可以实现调度日志的快速查询,进一步还可以实现更为高级的智能操作票功能。所以,电力调度系统需要实现三个语音识别功能:调度员指令识别、调度员通话识别、现场人员通话识别。当然,一个调度员不可能同时发出语音指令和打电话。目前普遍使用的方法是在一台电脑上用一个麦克风实现一个语音源的识别,通过开关进行切换语音指令和通话识别功能,这种方案有比较明显的缺点:
[0003]1、三个音源输入,都要麦克风,用开关切换极为不便;
[0004]2、因为只有一个语音识别装置和麦克风,为了识别电话对话,只能用免提外放,通过麦克风再输入识别,环境噪声太大,严重影响识别率;
[0005]3、因为只有一个语音识别装置,调度员和现场人员通话时必须保证:当一人说话时,另一人静默,否则无法语音识别;
[0006]以上方案也是目前智能音箱的语音识别方案,显然不适合电力调度系统。
[0007]此外,还有一个重要的技术问题要解决。电力调度中通常涉及大量的电力专业术语以及各个电力部门特有的地名、线路、电站、特定编号的设备名乃至人名,由于语言中大量同音词的存在,目前的语音识别技术往往把这些平
【技术保护点】
【技术特征摘要】
1.一种多通道语音识别装置,其特征在于,包括:电话监听器、声卡、语音功能切换单元、第一语音转文字单元和第二语音转文字单元;所述电话监听器和调度员的电话机并联在同一根电话线,获取调度员和现场人员通话的2路模拟语音信号;所述声卡包含第一Line in接口、第二Line in接口、Mic接口,此三个输入接口分别对应接收调度员通话语音、现场人员通话语音、调度员语音指令三个模拟语音信号,通过声卡的模/数电路转换为数字信号,调度员通话语音的数字信号和调度员语音指令的数字信号输出到语音功能切换单元,现场人员通话语音的数字信号输出到第二语音转文字单元;所述语音功能切换单元负责在所述调度员通话或调度员语音指令两个数字信号进行切换,使得所述第一语音转文字单元同一时间只识别一个数字信号;所述第一语音转文字单元接收调度员通话的数字信号或调度员语音指令的数字信号,将其识别为相应的文字;所述第二语音转文字单元接收现场人员通话语音的数字信号,将其识别为相应的文字。2.根据权利要求1所述的一种多通道语音识别装置,其特征在于,所述声卡、语音功能切换单元、第一语音转文字单元、第二语音转文字单元都内置在同一台电脑内,所述第一语音转文字单元、第二语音转文字单元分别由所述电脑的一个CPU的两个核心并行实现。3.根据权利要求1所述的一种多通道语音识别装置,其特征在于,还包括:差频专用词库单元,用于存储分级的专用词汇及其拼音,以供两个语音转文字单元查询,从而提高专用词汇匹配的准确率,词汇的级别由其两个频率的差异决定,即在专用资料中出现的频率越高该词汇级别越高,而在通用资料中出现的频率越高该词汇级别越低,所述词汇指中文词组,一个中文词组包括至少2个中文字,所述专用词汇包括本地专用词汇和专业术语,所述本地专用词汇指仅在本机、本地局域网、一个特定的地域、群体或部门中使用的词汇,同级别的专用词汇存储在同一个子库内,最高级子库为一级子库,以下依次为二级到最低级子库,存储在差频专用词汇库单元中的词汇称之为差频专用词汇或差频词汇。4.根据权利要求3所述的一种多通道语音识别装置,其特征在于,所述差频专用词库单元包括:一、二、三、四级子库模块,用于存储一、二、三、四级差频词汇及其差频值,同一级子库中差频值越高的词汇在子库排队越前面;所述一、二、三、四级子库模块由构建单元得到并更新,所述构建单元包括:文字资料采集模块,用于采集包括本地电力调度日志、工作票、设备记录和通话文本的文字资料,并搜索网络上的电力专业学术文章,所述通话文本由第一语音转文字单元和第二语音转文字单元得到并持续地提供给文字资料采集模块;专用词频词典模块,用于对采集的文字资料进行清理、分词操作,获得词汇列表,接着对词汇列表进行专用词频统计并保存;其中,专用词频=该词重复的次数
×
该词长度/全部资料总字数;通用词频词典模块,用于对包括人民日报语料库及新浪、搜狐、网易三大网站的新闻进行分词操作,获得词汇列表,接着对词汇列表进行通用词频统计并保存,其中,通用词频=该词重复的次数
×
该词长度/全部资料总字数;差频操作模块,用于对专用词频词典的每个词汇做差频操作,所述差频操作即:
差频值=一个词汇的专用词频-k
×
其通用词频,此处k为固定的系数;差频分配模块,用于将差频值排名前25%的词汇存入一级子库模块,26%至50%的词汇存入二级子库模块,51%至75%的词汇存入三级子库模块,其它大于0的词汇存入四级,差频值小于或等于0的舍去。5.根据权利要求1所述的一种多通道语音识别装置,其特征在于,所述第一语音转文字单元与第二语音转文字单元相同,都包...
【专利技术属性】
技术研发人员:胡劲松,冯思铭,杨皓晖,连泽涛,贺映玲,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。