一种文本处理方法和装置、计算机存储介质和电子设备制造方法及图纸

技术编号：24251969 阅读：32 留言：0更新日期：2020-05-22 23:47

本发明专利技术公开一种文本处理方法，用于文本正则化分析的TN规则由n级构成，n为大于等于2的整数，方法包括：获得待分析文本；根据TN规则中的第一级规则匹配待分析文本，获得待分析文本命中的第一级规则；根据命中的第一级规则对应的第二级规则继续匹配待分析文本，获得待分析文本命中的第二级规则；以此类推，根据命中的第m‑1级规则对应的第m级规则匹配待分析文本，获得待分析文本命中的第m级规则，m为小于等于n的整数；在待分析文本匹配TN规则结束时，根据待分析文本所命中的各级规则，将待分析文本转换为标准文本输出。本发明专利技术还公开一种文本处理装置、计算机存储介质和电子设备。本发明专利技术让TN系统更加简洁清晰，规则覆盖更全，规则匹配效率更高。

A text processing method and device, computer storage medium and electronic equipment

全部详细技术资料下载

【技术实现步骤摘要】
一种文本处理方法和装置、计算机存储介质和电子设备
本专利技术涉及语音合成
，尤其涉及一种文本处理方法和装置、计算机可读存储介质和电子设备。
技术介绍
语音合成(TTS，TextToSpeech)是一种将文字转换成人类自然语言的技术，被广泛应用在导航播报、商家在线客服、智能机器人语音交互等方面。TTS系统主要分为前端和后端，前端主要完成文本分析的工作，让机器知道这段文字该怎么读，因此，文本分析对TTS的合成效果具有举足轻重的作用。文本正则化(TN，TextNormalization)是文本分析的重要步骤，是将不规则的文本转换成标准文本的过程，如：将带有各种数字、符号的不规则文本转换成不含有数字而只含有系统指定的几个表示停顿的符号的标准文本。例如：文本“33+12等于45”在TN后的结果变成“三十三加十二等于四十五”。TN需要遵循规则，TN规则是指在文本中寻找匹配符合特定条件的文本，并根据设计的规则进行该部分文本的替代，例如：“连续数字串匹配规则”可以将“今天天气23摄氏度星期6”中的“23”和“6”匹配出...

【技术保护点】
1.一种文本处理方法，其特征在于，用于文本正则化分析的TN规则由n层级规则构成，n为大于等于2的整数，所述方法包括：/n获得待分析文本；/n根据所述TN规则中的第一级规则匹配所述待分析文本，获得所述待分析文本命中的第一级规则；/n根据所述命中的第一级规则所对应的第二级规则继续匹配所述待分析文本，获得所述待分析文本命中的第二级规则；/n以此类推，根据命中的第m-1级规则所对应的第m级规则匹配所述待分析文本，获得所述待分析文本命中的第m级规则，m为大于等于2且小于等于n的整数；/n在所述待分析文本匹配所述TN规则结束时，根据所述待分析文本所命中的各级规则，将所述待分析文本转换为标准文本输出。/n

【技术特征摘要】
1.一种文本处理方法，其特征在于，用于文本正则化分析的TN规则由n层级规则构成，n为大于等于2的整数，所述方法包括：
获得待分析文本；
根据所述TN规则中的第一级规则匹配所述待分析文本，获得所述待分析文本命中的第一级规则；
根据所述命中的第一级规则所对应的第二级规则继续匹配所述待分析文本，获得所述待分析文本命中的第二级规则；
以此类推，根据命中的第m-1级规则所对应的第m级规则匹配所述待分析文本，获得所述待分析文本命中的第m级规则，m为大于等于2且小于等于n的整数；
在所述待分析文本匹配所述TN规则结束时，根据所述待分析文本所命中的各级规则，将所述待分析文本转换为标准文本输出。

2.根据权利要求1所述文本处理方法，其特征在于，所述第一级规则包括符号划分规则，所述符号划分规则将符号按种类不同划分为不同的符号集，同一类符号归为同一符号集；所述符号划分规则中的每个符号对应有各自的第二级规则，所述第二级规则中对相应符号按不同的转换替代方式进行分类，同一符号对应至少一种转换替代方式，且每一种转换替代方式由转换方式的名称和对应的转换替代结果进行描述。

3.根据权利要求2所述文本处理方法，其特征在于，在所述符号划分规则中，将全部符号中预选的常用符号归为第一类符号集；剩余符号中不发音的符号归为第二类符号集，读音无歧义的符号归为第三类符号集，数字归为第四类符号集。

4.根据权利要求1、2或3所述文本处理方法，其特征在于，所述方法还包括：
在通过匹配所述待分析文本获得命中的第m-1级规则时，通过界面显示所述命中的第m-1级规则所对应的第m级规则中的所有转换替代方式；
获得针对所述第m级规则的选中指令，所述选中指令用于指示所述第m级规则中的被选转换替代方式；
响应所述选中指令，将所述被选转换替代方式确定为所述待分析文本所命中的转换替代方式。

5.一种文本处理装置，其特征在于，用于文本正则化分析的TN规则由n层级规则构成，n为大于等于2的整数，所述装置包括：
文本获得单元，用于获得待分析文本；
规则匹配单元，用于根据所述TN规则中的第一级规则匹配所述待分析文本，...

【专利技术属性】
技术研发人员：张征，雷欣，李志飞，
申请(专利权)人：出门问问信息科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人