一种语音识别的方法技术

技术编号：6081617 阅读：220 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种语音识别的方法，采集音频数据；获取音频数据的Lattice结果，包括时间点信息、多候选信息和匹配似然值打分信息；根据多候选信息和匹配似然值打分信息，获得置信度打分信息；采用更强的语音模型对多候选信息进行重新排序，并给出最优识别结果；定位音频数据的对应的发音位置，同时显示其他候选词；选择或者输入正确的文本，完成修改，并且冻结修改后的文本；根据修改后的文本为关键词，利用搜索引擎检索相关的文本训练语言模型，并插值获得自适应的语言模型，返回利用自适应的语音模型对剩余部分的音频数据重新进行识别。采用了本发明专利技术的技术方案，能够提高语音识别率，降低人工校对的工作量。

A method of speech recognition

The invention discloses a method for speech recognition, audio data acquisition; acquisition of audio data Lattice results, including the time point information, candidate information and matching likelihood scoring information; according to the candidate information and matching likelihood scoring information gain confidence scoring information; using the speech model of candidate information is stronger re ordering, and gives the optimal recognition results; the pronunciation of the audio data corresponding to the positioning position, also shows that other candidate words; select or enter the correct text, change, and freeze the revised text; according to the revised text as a keyword search using text retrieval model training language related engine, and interpolation of language adaptive model, re using speech recognition returns model adaptive audio data on the remaining part of the. By adopting the technical proposal of the invention, the rate of speech recognition can be improved, and the workload of manual proofreading can be reduced.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多媒体
，尤其涉及。
技术介绍
伴随信息时代的发展，音视频资料日益增多，呈现海量化的规模。音视频内容同其它类型内容相比，具备更为生动的展现形式，承载了更为丰富的信息。为了便捷地获取感兴趣的内容，需要对这些资料进行信息提取。目前的手段是用各种方面的智能分析手段，来从各个角度从音视频中提取有用的价值信息，进行智能化的信息标引。其中目前最主要的技术就是利用语音识别对音视频数据中的语音数据进行识别，根据识别结果把音视频加上文本的标签，经过上述处理后的音视频就可以用传统的搜索引擎对音视频数据进行索引和检索。人们经过研究发现，获取一段语音的意思时，不是简单地通过对声音信号中单个音进行识别然后拼接起来完成的，对某个音识别正确与否和该音所处语境的上下文紧密相关。有时候说话人由于某种原因使得某个音或某几个音发生了一定程度上的畸变，或者听者因环境噪音等因素没有听清说话人所说的一或几个音，但在大部分情况下听者都能够根据各方面的非语音知识，包括当前谈话的主题、上下文信息、语境等来弥补漏掉的音节而获得正确的信息。人在进行语音识别时，不仅使用了耳...

【技术保护点】
１．一种语音识别的方法，其特征在于，包括以下步骤：Ａ、采集音频数据；Ｂ、获取音频数据的Ｌａｔｔｉｃｅ结果，包括时间点信息、多候选信息和匹配似然值打分信息；Ｃ、根据多候选信息和匹配似然值打分信息，获得置信度打分信息；Ｄ、采用更强的语音模型对多候选信息进行重新排序，并给出最优识别结果；Ｅ、定位音频数据的对应的发音位置，同时显示其他候选词；Ｆ、选择或者输入正确的文本，完成修改，并且冻结修改后的文本；Ｇ、根据修改后的文本为关键词，利用搜索引擎检索相关的文本训练语言模型，并和插值获得自适应的语言模型，返回步骤Ｂ，利用自适应的语音模型对剩余部分的音频数据重新进行识别。

【技术特征摘要】

【专利技术属性】
技术研发人员：吴鹏，刘赵杰，
申请(专利权)人：天脉聚源北京传媒科技有限公司，
类型：发明
国别省市：11

全部详细技术资料下载我是这个专利的主人