一种基于拼音的语音识别字符串处理比对方法技术

技术编号:19544057 阅读:38 留言:0更新日期:2018-11-24 20:39
本发明专利技术涉及一种基于拼音的语音识别字符串处理比对方法。现有的语音识别技术,对于人名的识别、设备名的识别等等某些特殊场合的应用,很容易由于比对的不正确而产生错误。本发明专利技术是基于通常汉字识别算法之上的一个“二次加工”,将识别出来的汉字字符串转化为拼音串,然后与目标拼音串进行比对。包括以下步骤:第一步,拼音编码:将所有的汉字拼音进行编码,此编码类似于unicode的编码,将所有的汉字拼音组合枚举出来;第二步,编码转换:将表达汉字的GBK、Unicode、UTF‑8等编码方式的字符串转化为拼音串;第三步,多音字的处理,将所有姓氏的多音字枚举,进行特殊处理,分配相同的拼音码。本发明专利技术可以快速实现精准识别、避免误判。

A Speech Recognition String Processing and Comparison Method Based on Pinyin

The invention relates to a speech recognition string processing and comparison method based on pinyin. The existing speech recognition technology, for some special occasions such as person name recognition, device name recognition and so on, is prone to errors due to incorrect comparison. The invention is based on a \secondary processing\ based on the usual Chinese character recognition algorithm, which converts the recognized Chinese character strings into pinyin strings, and then compares them with the target Pinyin strings. It includes the following steps: the first step is Pinyin coding: encoding all Chinese characters'pinyin, which is similar to unicode coding, enumerating all Chinese characters' Pinyin combinations; the second step is encoding conversion: transforming strings expressing Chinese characters such as GBK, Unicode, UTF_8 encoding methods into pinyin strings; and the third step is to encoding all Chinese characters'Pinyin combinations. The processing of multi-syllable words enumerates all the multi-syllable words of surnames, carries out special processing, and assigns the same Pinyin code. The invention can quickly realize accurate identification and avoid misjudgment.

【技术实现步骤摘要】
一种基于拼音的语音识别字符串处理比对方法
本专利技术涉及数码电子产品领域,具体涉及一种基于拼音的语音识别字符串处理比对方法。
技术介绍
在通常情况下,语音识别是将输入语音通过特征识别转化为文字的一种技术。而在某些特殊场合的应用,这种通用的技术并不能满足人们的需要,比如对人名的识别、设备名的识别等等,也许语音识别算法通过输入的语音识别出“于国权”这个字符串,而真正的用户讲的可能是“余国全”,由于姓名本身很少有上下文的关联性,就会造成比对的不正确。
技术实现思路
本专利技术的目的在于提供一种基于拼音的语音识别字符串处理比对方法。在需要“特殊性名词”对“音”进行识别的小字符集场合,如姓名、设备名、地名等等,可以快速实现精准识别、避免误判。本专利技术识别算法是基于通常汉字识别算法之上的一个“二次加工”,将识别出来的汉字字符串转化为拼音串,然后与目标拼音串进行比对。本专利技术方法包括以下步骤:第一步:拼音编码:将所有的汉字拼音进行编码,此编码类似于unicode的编码,将所有的汉字拼音组合枚举出来(根据需要也可以包含声调)。我们用两个字节(16位)来编码拼音,第一个字节的最高位为1,如下表:拼音编本文档来自技高网...

【技术保护点】
1.一种基于拼音的语音识别字符串处理比对方法,其特征在于它是基于通常汉字识别算法之上的一个“二次加工”,是将识别出来的汉字字符串转化为拼音串,然后与目标拼音串进行比对,包括以下步骤:第一步:拼音编码:将所有的汉字拼音进行编码,此编码类似于unicode的编码,将所有的汉字拼音组合枚举出来,用两个字节(16位)来编码拼音,第一个字节的最高位为1,如下表:

【技术特征摘要】
1.一种基于拼音的语音识别字符串处理比对方法,其特征在于它是基于通常汉字识别算法之上的一个“二次加工”,是将识别出来的汉字字符串转化为拼音串,然后与目标拼音串进行比对,包括以下步骤:第一步:拼音编码:将所有的汉字拼音进行编码,此编码类似于unicode的编码,将所有的汉字拼音组合枚举出来,用两个字节(16位)来编码拼音,第一个字节的最高位为1,如下表:拼音编码(16进制)a8080ai8081an8082ang8083ao8084ba8085…………zu820Azuan820Bz...

【专利技术属性】
技术研发人员:孙涛
申请(专利权)人:深圳市艾塔文化科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1