一种语音词库筛选方法技术

技术编号:7935744 阅读:206 留言:0更新日期:2012-11-01 05:44
本发明专利技术涉及语音词库筛选方法,可有效解决不能满足对语音文件内容和基于关键词信息的内容监测需求的问题,解决的技术方案是,通过构建一个企业电话订货管理的关键词库,应用批量自动语音识别技术、语音文件内容检测技术及分组关键词对比筛选技术,实现对批量电话录音文件基于分组关键词的筛选、自动提取、智能分析,应用语音识别技术通过计算机实现批量语音到文本的转换,应用语音文件内容检测技术通过计算机实现对语音文件中涉及到关键词库中关键词语的语音文件,均通过标记、信息提取、展示的方法将该类文件信息进行过滤,以实现对企业电话订货录音文件中特定或敏感信息的自动捕捉、智能分析展示,本发明专利技术是语音识别技术上的创新。

【技术实现步骤摘要】

本专利技术涉及多人语音自动识别技术、连续语音识别技术、非特定人语音识别技术、语音词库人工智能筛选技术及语音文件内容检测技术等,特别是。
技术介绍
(一)语音识别技术的研究历史及现状 在国外,语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问 题。这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。实验室语音识别研究的巨大突破产生于20世纪80年代末人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。这一时期,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。在声学模型方面,以Markov链为基础的语音序列建模方法HMM (隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。在语言层面上,通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有IBM 公司推出的 ViaVoice 和 DragonSystem 公司的 NaturallySpeaking, Nuance 公司的NuanceVoicePlatform 语音平台,Microsoft 的 Whisper, Sun 的 VoiceTone 等。其中 IBM 公司于1997年开发出汉语ViaVoice语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice’ 98。它带有一个32,000词的基本词汇表,可以扩展到65,000词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。 清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94. 8% (不定长数字串)和96. 8% (定长数字串)。在有5%的拒识率情况下,系统识别率可以达到96. 9%(不定长数字串)和98. 7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98. 73%,前三选识别率达99. 96% ;并且可以识别普通话与四川话两种语言,达到实用要求。中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品一PattekASR,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。(二)国内语音文件内容监测技术应用现状 语音文件内容监测如果采用传统依靠人工方式开展将面临着大量的困难。由于人的耳力无法辨别以倍速播放的声音内容,因此,在人工方式语音文件内容监测过程中,只能是常速播放语音文件,一个语音文件内容监测人员若要真实可信地处理一个约6个小时的语音文件,就必须花6 8个小时的时间。因此,对于一个约6小时的语音文件数据处理,需要I个人工来完成(按每人每天工作8小时计算),然后还需要人员录入、校对、最后生成报告,这样,则至少需要I至2个人工来完成。如果依靠传统的工作方式,要实现对20个人员每人6小时通话录音的语音文件内容监测,需要的人力将超过20人。显然,这样规模的人力消耗对任何一个监测机构来说,都是很难负担的,也是不现实的。因此,虽然国内很多行业已经认识到语音文件内容监测的重要性,但如果没有行之有效的监测技术和监测手段作为保障,实施难度仍然很高。相比于采用语音文件内容人工监测方式,计算机自动处理有着速度快、效率高、漏检率低等特点,尤其是需要同时对批量语音文件进行内容监测时,语音文件内容自动监测和处理技术更是具有不可替代的作用。近年来,国内已经出现了利用计算机音频快速匹配技术进行广播电视广告监播,以及利用计算机语种识别技术进行短波广播的自动监测,但这些自动监测技术和成果不能满足对语音文件内容和基于关键词信息的内容监测需求,因此,语音识别技术的改进和创新是目前亟需解决的问题。
技术实现思路
针对上述情况,为解决现有技术之缺陷,本专利技术之目的就是提供,可有效解决不能满足对语音文件内容和基于关键词信息的内容监测需求的问题。本专利技术解决的技术方案是该专利技术是通过构建一个针对企业电话本文档来自技高网
...

【技术保护点】
一种语音词库筛选方法,其特征在于,包括以下步骤:第一步、关键词库建立及维护,根据企业对电话订货管理的要求,应用Oracle数据库系统建立关键词库及关键词库管理模块,关键词库内容包括针对电话订货服务人员的服务质量、标准用语、服务禁语几大类,每个大类包括若干关键词,每个关键词都包括所在大类、是否被选取、被选取日期、出现次数及与之对应的HMM编号信息;应用JAVA编程技术建立关键词库管理模块,该模块具有关键词的录入、修改、保存、删除、查询及关键词选取、导入、导出的功能,应用该管理模块管理人员能够根据实际需要录入、编辑、删除和选取电话订货服务用语关键词,能够选择用于语音识别筛选的一组关键词;第二步、语音识别系统建模,应用隐马尔可夫模型HMM构建语音识别系统的声学模型,应用隐马尔可夫Trigram模型构建汉语语音识别系统的语言模型,其内容包括以下三个部分:一是基于HMM模型应用向前向后算法解决关键词的评估问题,即为关键词库中的每个关键生成一个对应的HMM,每个观测序列由一个关键词的语音构成,关键词的识别是通过评估进而选出最有可能产生观测序列所代表的读音的HMM而实现;二是基于HMM模型应用Viterbi算法解决语音识别解码问题,即解决一个中文句子如何划分其构成才合适的问题,用隐马尔科夫模型,把中文句子的分词方法看成是隐含状态,而句子则可以看成是给定的可观测状态,从而通过建HMM来寻找出最可能正确的分词方法,解决正确识别汉语单词和连续汉语语句的难题;三是基于HMM模型应用Baum?Welch算法以及Reversed?Viterbi算法,解决语音识别过程中的识别速度、准确率、系统自适应、汉语单语语料库收集与整理、模型选择、训练、平滑、压缩问题;第三步、语音识别处理分析,应用JAVA编程技术构建语音识别处理分析模块,该模块具有语音文件导入、关键词导入、关键词对比提取、关键词出现次数计数及保存、特定语音文件导出及与嵌入式非特定人语音识别芯片SR160X的设备相互通信功能,即应用该模块,根据企业考核管理人员从关键词库中选择若干关键词,应用含有嵌入式非特定人语音识别芯片SR160X的设备对指定电话订货人员的电话订货录音文件进行基于关键词的批量对比分析,选取电话订货录音文件中与指定关键词相匹配的录音文件,记录指定关键词出现的次数,并把相对应的录音文件导出到指定的文件夹内;第四步、智能处理分析结果,应用JAVA编程技术构建信息处理分析模块,实现分人员、分关键词的统计分析,导出语音文件监听及分时间段出现频率分析功能,即,根据从Oracle数据库表中提取第三步语音识别处理分析中筛选得到的数据信息,在信息处理分析界面中统计分析录音文件所对应电话订货人员工作情况,其内容包括电话订货服务质量是否合格、服务标准用语是否达标、服务禁语出现频率是否超标相关考核信息,实现分析结果的查询、存储、打印及保存快照功能,以方便管理人员对分析处理结果的管理和应用。...

【技术特征摘要】
1.一种语音词库筛选方法,其特征在于,包括以下步骤 第一步、关键词库建立及维护,根据企业对电话订货管理的要求,应用Oracle数据库系统建立关键词库及关键词库管理模块,关键词库内容包括针对电话订货服务人员的服务质量、标准用语、服务禁语几大类,每个大类包括若干关键词,每个关键词都包括所在大类、是否被选取、被选取日期、出现次数及与之对应的HMM编号信息;应用JAVA编程技术建立关键词库管理模块,该模块具有关键词的录入、修改、保存、删除、查询及关键词选取、导入、导出的功能,应用该管理模块管理人员能够根据实际需要录入、编辑、删除和选取电话订货服务用语关键词,能够选择用于语音识别筛选的一组关键词; 第二步、语音识别系统建模,应用隐马尔可夫模型HMM构建语音识别系统的声学模型,应用隐马尔可夫Trigram模型构建汉语语音识别系统的语言模型,其内容包括以下三个部分一是基于HMM模型应用向前向后算法解决关键词的评估问题,即为关键词库中的每个关键生成一个对应的HMM,每个观测序列由一个关键词的语音构成,关键词的识别是通过评估进而选出最有可能产生观测序列所代表的读音的HMM而实现;二是基于HMM模型应用Viterbi算法解决语音识别解码问题,即解决一个中文句子如何划分其构成才合适的问题,用隐马尔科夫模型,把中文句子的分词方法看成是隐含状态,而句子则可以看成是给定的可观测状态,从而通过建HMM来寻找出最可能正确的分词方法,解决正确识别汉语单词和连续汉语语句的难题;三是基于HMM模型应用Baum-Welch算法以及Reversed Viterbi算法,解决语音识别过程中的识别速度、准确率、系统自适应、汉语单语语料库收集与整理、模型选择、训练、平滑、压缩问题; 第三步、语音识别处理分析,应用JAVA编程技术构建语音识别处理分析模块,该模块具有语音文件导入、关键词导入、关键词对比提取、关键词出现次数计数及保存、特定语音文件导出及与嵌入式非特定人语音识别芯片SR160X的设备相互通信功能,即应用该模块,根据企业考核管理人员从关键词库中选择若干关键词,应用含有嵌入式非特定人语音识别芯片SR160X的设备对指定电话订...

【专利技术属性】
技术研发人员:白晓东李天印强锋刚薛万疆
申请(专利权)人:河南省烟草公司开封市公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1