一种多通道语音识别装置及其语音转文字方法制造方法及图纸

技术编号:35027151 阅读:19 留言:0更新日期:2022-09-24 22:59
本发明专利技术公开了一种多通道语音识别装置及其语音转文字方法,用于识别电力调度过程中的语音指令和对话。电力智能化调度需要3个语音识别功能:调度员通话语音识别、现场人员通话语音识别、调度员语音指令操作,因此有3个语音源输入,目前的做法是用多个语音识别装置,为避免装置之间的干扰,还需要人工频繁开关切换,本发明专利技术设计了一种单声卡三音源装置,用一个普通内置声卡的Mic接口和Line in接口,解决了上述三个语音源的识别,同时,本发明专利技术提出差频原理,自动建立本地电力差频专用词库,能识别本地电力部门的专用词汇。别本地电力部门的专用词汇。别本地电力部门的专用词汇。

【技术实现步骤摘要】
一种多通道语音识别装置及其语音转文字方法


[0001]本专利技术涉及语音识别的
,尤其是指一种多通道语音识别装置及其语音转文字方法。

技术介绍

[0002]在电力调度过程中,使用语音识别技术,可以提高效率,进一步实现调度自动化和智能化。除了识别调度员发出的语音指令外,还需要识别调度员和现场人员之间的电话通话,把这些通话变为文本后存储起来可以实现调度日志的快速查询,进一步还可以实现更为高级的智能操作票功能。所以,电力调度系统需要实现三个语音识别功能:调度员指令识别、调度员通话识别、现场人员通话识别。当然,一个调度员不可能同时发出语音指令和打电话。目前普遍使用的方法是在一台电脑上用一个麦克风实现一个语音源的识别,通过开关进行切换语音指令和通话识别功能,这种方案有比较明显的缺点:
[0003]1、三个音源输入,都要麦克风,用开关切换极为不便;
[0004]2、因为只有一个语音识别装置和麦克风,为了识别电话对话,只能用免提外放,通过麦克风再输入识别,环境噪声太大,严重影响识别率;
[0005]3、因为只有一个语音识别装置,调度员和现场人员通话时必须保证:当一人说话时,另一人静默,否则无法语音识别;
[0006]以上方案也是目前智能音箱的语音识别方案,显然不适合电力调度系统。
[0007]此外,还有一个重要的技术问题要解决。电力调度中通常涉及大量的电力专业术语以及各个电力部门特有的地名、线路、电站、特定编号的设备名乃至人名,由于语言中大量同音词的存在,目前的语音识别技术往往把这些平时比较生僻的专用词汇识别成其它常见的普通词汇,因而错误率比较高,难以满足电力专业的需要。因此,造成以上问题的主要原因在于:目前的语音识别技术是基于频率优先匹配,当语音变为拼音之后,会优先匹配那些平时出现频率较高的通用词汇、热门词汇。
[0008]有些文献提出加入专用的词汇,但还是存在3个问题:
[0009]1、本地电力部门的专用词汇不会在通用的词汇库中出现,需要各个地区的电力部门根据自己部门的需要手工建立,要调度员在大量本地文本资料中逐个筛选专用词汇,此外,这些专用词汇还要不断更新、替换和统计刷新频率,费时费力,而调度部门平时责任重大,任务繁重,难以分身。
[0010]2、在词库中加入专用词汇和通用的热门词汇合一起,专用词汇出现频率较低,在拼音相同的情况下,仍然会优先热门词汇。
[0011]3、目前的匹配都是以一个拼音串的首字母为起点,向后逐个开始转换为文字,因为噪声的干扰和同音字的存在,后面重要的专用词汇的某些拼音可能和前面的拼音提前组合转换成了其它词组,导致错误。例如本来要XXX线路的刀闸合闸,结果变成了其它线路合闸,造成严重的后果。相反,普通词汇的错误相对可以接受。

技术实现思路

[0012]本专利技术的第一目的在于克服现有技术的缺点与不足,提供了一种多通道语音识别装置,可以准确识别电力调度语音指令、调度员和现场人员通话语音,其关键是如何用较小的代价实现三个语音源的识别,此外还需要解决电力调度中的专用词汇的识别,尤其是本地电力部门的专用词汇,例如本地特有的地名、线路、电站、特定设备名乃至人名。
[0013]本专利技术的第二目的在于提供一种多通道语音识别装置的语音转文字方法。
[0014]为规范化,本专利技术的有关名词定义如下:所述的词汇指中文词组,一个中文词组包括至少2个中文字,本地专用词汇指仅在本机、本地局域网、一个特定的地域、群体或部门中使用的词汇,本地专用词汇和专业术语统称专用词汇,其它称为通用词汇;所述词频指一个词汇出现的频率;所述差频指词汇的频率差异;所述匹配即求拼音串A的一部分拼音和某个中文词组或字的正确拼音之间的相似度,在本专利技术中也简称为拼音与文字或词汇的匹配。
[0015]本专利技术的第一目的通过下述技术方案实现:一种多通道语音识别装置,包括:电话监听器、声卡、语音功能切换单元、第一语音转文字单元和第二语音转文字单元;
[0016]所述电话监听器和调度员的电话机并联在同一根电话线,获取调度员和现场人员通话的2路模拟语音信号;
[0017]所述声卡包含第一Line in接口、第二Line in接口、Mic接口,此三个输入接口分别对应接收调度员通话语音、现场人员通话语音、调度员语音指令三个模拟语音信号,通过声卡的模/数电路转换为数字信号,调度员通话语音的数字信号和调度员语音指令的数字信号输出到语音功能切换单元,现场人员通话语音的数字信号输出到第二语音转文字单元;
[0018]所述语音功能切换单元负责在所述调度员通话或调度员语音指令两个数字信号进行切换,使得所述第一语音转文字单元同一时间只识别一个数字信号;
[0019]所述第一语音转文字单元接收调度员通话的数字信号或调度员语音指令的数字信号,将其识别为相应的文字;
[0020]所述第二语音转文字单元接收现场人员通话语音的数字信号,将其识别为相应的文字。
[0021]优选的,所述声卡、语音功能切换单元、第一语音转文字单元、第二语音转文字单元都内置在同一台电脑内,所述第一语音转文字单元、第二语音转文字单元分别由所述电脑的一个CPU的两个核心并行实现。
[0022]优选的,所述多通道语音识别装置,还包括:
[0023]差频专用词库单元,用于存储分级的专用词汇及其拼音,以供两个语音转文字单元查询,从而提高专用词汇匹配的准确率,词汇的级别由其两个频率的差异决定,即在专用资料中出现的频率越高该词汇级别越高,而在通用资料中出现的频率越高该词汇级别越低,所述词汇指中文词组,一个中文词组包括至少2个中文字,所述专用词汇包括本地专用词汇和专业术语,所述本地专用词汇指仅在本机、本地局域网、一个特定的地域、群体或部门中使用的词汇,同级别的专用词汇存储在同一个子库内,最高级子库为一级子库,以下依次为二级到最低级子库,存储在差频专用词汇库单元中的词汇称之为差频专用词汇或差频词汇。
[0024]优选的,所述差频专用词库单元包括:一、二、三、四级子库模块,用于存储一、二、
三、四级差频词汇及其差频值,同一级子库中差频值越高的词汇在子库排队越前面;
[0025]所述一、二、三、四级子库模块由构建单元得到并更新,所述构建单元包括:
[0026]文字资料采集模块,用于采集包括本地电力调度日志、工作票、设备记录和通话文本的文字资料,并搜索网络上的电力专业学术文章,所述通话文本由第一语音转文字单元和第二语音转文字单元得到并持续地提供给文字资料采集模块;
[0027]专用词频词典模块,用于对采集的文字资料进行清理、分词操作,获得词汇列表,接着对词汇列表进行专用词频统计并保存;其中,专用词频=该词重复的次数
×
该词长度/全部资料总字数;
[0028]通用词频词典模块,用于对包括人民日报语料库及新浪、搜狐、网易三大网站的新闻进行分词操作,获得词汇列表,接着对词汇列表进行通用词频统计并保存,其中,通用词频=该词重复的次数
×
...

【技术保护点】

【技术特征摘要】
1.一种多通道语音识别装置,其特征在于,包括:电话监听器、声卡、语音功能切换单元、第一语音转文字单元和第二语音转文字单元;所述电话监听器和调度员的电话机并联在同一根电话线,获取调度员和现场人员通话的2路模拟语音信号;所述声卡包含第一Line in接口、第二Line in接口、Mic接口,此三个输入接口分别对应接收调度员通话语音、现场人员通话语音、调度员语音指令三个模拟语音信号,通过声卡的模/数电路转换为数字信号,调度员通话语音的数字信号和调度员语音指令的数字信号输出到语音功能切换单元,现场人员通话语音的数字信号输出到第二语音转文字单元;所述语音功能切换单元负责在所述调度员通话或调度员语音指令两个数字信号进行切换,使得所述第一语音转文字单元同一时间只识别一个数字信号;所述第一语音转文字单元接收调度员通话的数字信号或调度员语音指令的数字信号,将其识别为相应的文字;所述第二语音转文字单元接收现场人员通话语音的数字信号,将其识别为相应的文字。2.根据权利要求1所述的一种多通道语音识别装置,其特征在于,所述声卡、语音功能切换单元、第一语音转文字单元、第二语音转文字单元都内置在同一台电脑内,所述第一语音转文字单元、第二语音转文字单元分别由所述电脑的一个CPU的两个核心并行实现。3.根据权利要求1所述的一种多通道语音识别装置,其特征在于,还包括:差频专用词库单元,用于存储分级的专用词汇及其拼音,以供两个语音转文字单元查询,从而提高专用词汇匹配的准确率,词汇的级别由其两个频率的差异决定,即在专用资料中出现的频率越高该词汇级别越高,而在通用资料中出现的频率越高该词汇级别越低,所述词汇指中文词组,一个中文词组包括至少2个中文字,所述专用词汇包括本地专用词汇和专业术语,所述本地专用词汇指仅在本机、本地局域网、一个特定的地域、群体或部门中使用的词汇,同级别的专用词汇存储在同一个子库内,最高级子库为一级子库,以下依次为二级到最低级子库,存储在差频专用词汇库单元中的词汇称之为差频专用词汇或差频词汇。4.根据权利要求3所述的一种多通道语音识别装置,其特征在于,所述差频专用词库单元包括:一、二、三、四级子库模块,用于存储一、二、三、四级差频词汇及其差频值,同一级子库中差频值越高的词汇在子库排队越前面;所述一、二、三、四级子库模块由构建单元得到并更新,所述构建单元包括:文字资料采集模块,用于采集包括本地电力调度日志、工作票、设备记录和通话文本的文字资料,并搜索网络上的电力专业学术文章,所述通话文本由第一语音转文字单元和第二语音转文字单元得到并持续地提供给文字资料采集模块;专用词频词典模块,用于对采集的文字资料进行清理、分词操作,获得词汇列表,接着对词汇列表进行专用词频统计并保存;其中,专用词频=该词重复的次数
×
该词长度/全部资料总字数;通用词频词典模块,用于对包括人民日报语料库及新浪、搜狐、网易三大网站的新闻进行分词操作,获得词汇列表,接着对词汇列表进行通用词频统计并保存,其中,通用词频=该词重复的次数
×
该词长度/全部资料总字数;差频操作模块,用于对专用词频词典的每个词汇做差频操作,所述差频操作即:
差频值=一个词汇的专用词频-k
×
其通用词频,此处k为固定的系数;差频分配模块,用于将差频值排名前25%的词汇存入一级子库模块,26%至50%的词汇存入二级子库模块,51%至75%的词汇存入三级子库模块,其它大于0的词汇存入四级,差频值小于或等于0的舍去。5.根据权利要求1所述的一种多通道语音识别装置,其特征在于,所述第一语音转文字单元与第二语音转文字单元相同,都包...

【专利技术属性】
技术研发人员:胡劲松冯思铭杨皓晖连泽涛贺映玲
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1