字符串识别方法及装置制造方法及图纸

技术编号:11192985 阅读:41 留言:0更新日期:2015-03-25 21:36
本发明专利技术涉及一种字符串识别方法及装置,在一个实施例中所述方法包括以下步骤:获取字符串,所述字符串由多种类型子字符串组成;将所述字符串根据所述多种类型子字符串及其组合的子字符串类型进行分词,将所述字符串分成至少一个子字符串;判断所述至少一个子字符串是否为单词汇,所述单词汇为所述子字符串所属语种中有唯一含义的词汇;若判断所述子字符串不是单词汇,则将所述至少一个子字符串进行识别处理;以及将识别后的所有子字符串合成连贯语音。根据本发明专利技术实施例的方法及装置,可以准确识别字符串的含义。

【技术实现步骤摘要】
字符串识别方法及装置
本专利技术涉及计算机
,特别涉及一种字符串识别方法及装置。
技术介绍
现在计算机技术的发展,语音合成也随之出现,语音合成即将任意的文字信息实时转化为标准流畅的语音朗读出来。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都方便用户传送消息以及阅读消息。但是大量字符串都有多种读法,不同的读法也有不同的含义,只有正确的读法才能在合成语音后,表达出恰当含义。因此在语音合成时,准确的识别字符串的词义尤为重要。
技术实现思路
有鉴于此,本专利技术提供一种字符串识别方法及装置,可以准确识别字符串的含义。 一种字符串识别方法,所述方法包括以下步骤: 获取字符串,所述字符串由多种类型子字符串组成; 将所述字符串根据所述多种类型的子字符串及其组合的子字符串类型进行分词,将所述字符串分成至少一个子字符串; 判断所述至少一个子字符串是否为单词汇,所述单词汇为所述子字符串所属语种中有唯一含义的词汇; 若判断所述子字符串不是单词汇,则将所述至少一个子字符串进行识别处理;以及 将识别后的所有子字符串合成连贯语音。 一种字符串识别装置,所述装置包括以下模块: 获取模块,用于获取字符串,所述字符串由多种类型子字符串组成; 分词模块,用于将所述字符串根据所述多种类型子字符串及其组合的子字符串类型进行分词,将所述字符串分成至少一个子字符串; 判断模块,用于判断所述至少一个子字符串是否为单词汇,所述单词汇为所述子字符串所属语种中有唯一含义的词汇; 处理模块,用于若判断所述子字符串不是单词汇,则将所述至少一个子字符串进行识别处理;以及 合成模块,用于将识别后的所有子字符串合成连贯语音。 根据上述实施例的方法及装置,通过按照字符串的分类对字符串进行分词,然后逐词进行识别,提闻字符串识别的准确性。 为让本专利技术的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。 【附图说明】 图1为一种电子装置的结构框图。 图2为第一实施例提供的字符串识别方法流程图。 图3为第二实施例提供的字符串识别方法流程图。 图4为第三实施例提供的字符串识别方法流程图。 图5为第四实施例提供的字符串识别方法流程图。 图6为第五实施例提供的字符串识别方法流程图。 图7为第六实施例提供的字符串识别装置结构框图。 图8为第七实施例提供的字符串识别装置结构框图。 图9为第八实施例提供的字符串识别装置结构框图。 图10为第九实施例提供的字符串识别装置结构框图。 图11为第十实施例提供的字符串识别装置结构框图。 【具体实施方式】 为更进一步阐述本专利技术为实现预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术的【具体实施方式】、结构、特征及其功效,详细说明如后。 本专利技术实施例中涉及一种字符串识别方法及装置,可以用于语音合成中字符串的识别,具体其可用于电子装置中。 图1为上述电子装置的结构框图。如图1所示,电子装置100包括一个或多个(图中仅示出一个)处理器102、存储器104、RF (Rad1 Frequency,射频)模块106、网络模块108、音频模块110、输入模块112、显示模块114、。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对电子装置100的结构造成限定。例如,电子装置100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。上述的电子装置100的具体实例包括但并不限于手持式计算机、移动电话、媒体播放器、车载设备、个人数字助理及前述装置的各种组合。 本领域普通技术人员可以理解,相对于处理器102来说,所有其他的组件均属于外设,处理器102与这些外设之间通过多个外设接口 124相耦合。外设接口 124可基于以下标准实现:通用异步接收 / 发送装置(Universal Asynchronous Receiver/Transmitter,UART)、通用输入 / 输出(General Purpose Input Output, GP1)、串行外设接口(SerialPeripheral Interface, SPI)、内部集成电路(Inter-1ntegrated Circuit, I2C),但不并限于上述标准。在一些实例中,外设接口 124可仅包括总线;在另一些实例中,外设接口 124还可包括其他元件,如一个或者多个控制器,例如用于连接液晶显示面板的显示控制器或者用于连接存储器的存储控制器122。此外,这此控制器还可以从外设接口 124中脱离出来,而集成于处理器102内或者相应的外设内。 存储器104可用于存储软件程序以及模块,如本专利技术实施例中的字符串识别方法/装置对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的字符串识别方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至电子装置100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。 RF模块106用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯。RF模块106可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SM)卡、存储器等等。RF模块106可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。上述的无线网络可以使用各种通信标准、协议及技术,包括但并不限于全球移动通信系统(Global System for Mobile Communicat1n, GSM)、增强型移动通信技术(Enhanced Data GSM Environment, EDGE),宽带码分多址技术(wideband code divis1nmultiple access, W-CDMA),码分多址技术(Code divis1n access, CDMA)、时分多址技术(time divis1n multiple access, TDMA),无线保真技术(Wireless, Fidelity, WiFi)(如美国电气和电子工程师协会标准IEEE 802.11a, IEEE 802.lib, IEEE802.1Ig和/或IEEE 802.1ln)、网络电话(Voice over internet protocal, VoIP)、全球微波互联接入(Worldwide Interoperability for Microwave Access,W1-Max)、其他用于邮件、即时通讯及短消息的协议,以及任何其他合适的通讯协议,甚至可包括那些当前仍未被开发出来的协议。 网络模块108用于接收以及发送网络信号。上述网络信号可包括无线信号或者有线信号。在一个实本文档来自技高网...

【技术保护点】
一种字符串识别方法,其特征在于,所述方法包括以下步骤:获取字符串,所述字符串由多种类型子字符串组成;将所述字符串根据所述多种类型子字符串及其组合的子字符串类型进行分词,将所述字符串分成至少一个子字符串;判断所述至少一个子字符串是否为单词汇,所述单词汇为所述子字符串所属语种中有唯一含义的词汇;若判断所述子字符串不是单词汇,则将所述至少一个子字符串进行识别处理;以及将识别后的所有子字符串合成连贯语音。

【技术特征摘要】
1.一种字符串识别方法,其特征在于,所述方法包括以下步骤: 获取字符串,所述字符串由多种类型子字符串组成; 将所述字符串根据所述多种类型子字符串及其组合的子字符串类型进行分词,将所述字符串分成至少一个子字符串; 判断所述至少一个子字符串是否为单词汇,所述单词汇为所述子字符串所属语种中有唯一含义的词汇; 若判断所述子字符串不是单词汇,则将所述至少一个子字符串进行识别处理;以及 将识别后的所有子字符串合成连贯语音。2.如权利要求1所述的字符串识别方法,其特征在于,所述将所述子字符串进行识别具体包括: 根据所述子字符串对应的前后字符串的内容识别所述子字符串; 将识别后的所述子字符串合成语音。3.如权利要求1所述的字符串识别方法,其特征在于,所述将所述子字符串进行识别具体包括: 建立字符串匹配模型,根据所述匹配模型识别所述子字符串的含义; 将识别后的所述子字符串合成语音。4.如权利要求1所述的字符串识别方法,其特征在于,所述将所述子字符串进行识别具体包括: 根据所述子字符串的含义直接识别; 将识别后的所述子字符串合成语音。5.如权利要求1所述的字符串识别方法,其特征在于,所述将所述子字符串进行识别具体包括: 根据所述子字符串中的可识别字符串按照默认类型进行识别; 将识别后的所述字子符串合成语音。6.如权利要求1-5任意一项所述的字符串识别方法,其特征在于,所述多种类型子字符串包括:英语类型、数字类型、符号类型、汉字类型及其组合。7.如权利要求6所述的字符串识别方法,其特征在于,所述预多种类型子字符串还对应匹配相应配置文件,所述配置文件用于标记所述预存的字符串类型对应确定目标类型。8.一种字符串识别装置,其特征在于,所述装置包括以下模块: 获取模块,用于获取字符串...

【专利技术属性】
技术研发人员:戴强刘骁
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1