本发明专利技术公开一种文本处理方法,用于文本正则化分析的TN规则由n级构成,n为大于等于2的整数,方法包括:获得待分析文本;根据TN规则中的第一级规则匹配待分析文本,获得待分析文本命中的第一级规则;根据命中的第一级规则对应的第二级规则继续匹配待分析文本,获得待分析文本命中的第二级规则;以此类推,根据命中的第m‑1级规则对应的第m级规则匹配待分析文本,获得待分析文本命中的第m级规则,m为小于等于n的整数;在待分析文本匹配TN规则结束时,根据待分析文本所命中的各级规则,将待分析文本转换为标准文本输出。本发明专利技术还公开一种文本处理装置、计算机存储介质和电子设备。本发明专利技术让TN系统更加简洁清晰,规则覆盖更全,规则匹配效率更高。
A text processing method and device, computer storage medium and electronic equipment
【技术实现步骤摘要】
一种文本处理方法和装置、计算机存储介质和电子设备
本专利技术涉及语音合成
,尤其涉及一种文本处理方法和装置、计算机可读存储介质和电子设备。
技术介绍
语音合成(TTS,TextToSpeech)是一种将文字转换成人类自然语言的技术,被广泛应用在导航播报、商家在线客服、智能机器人语音交互等方面。TTS系统主要分为前端和后端,前端主要完成文本分析的工作,让机器知道这段文字该怎么读,因此,文本分析对TTS的合成效果具有举足轻重的作用。文本正则化(TN,TextNormalization)是文本分析的重要步骤,是将不规则的文本转换成标准文本的过程,如:将带有各种数字、符号的不规则文本转换成不含有数字而只含有系统指定的几个表示停顿的符号的标准文本。例如:文本“33+12等于45”在TN后的结果变成“三十三加十二等于四十五”。TN需要遵循规则,TN规则是指在文本中寻找匹配符合特定条件的文本,并根据设计的规则进行该部分文本的替代,例如:“连续数字串匹配规则”可以将“今天天气23摄氏度星期6”中的“23”和“6”匹配出,然后,根据“数字转写规则”转写成“二十三”和“六”,这里的“连续数字串匹配规则”和“数字转写规则”合称TN规则。TN系统最有效的方式是通过一系列TN规则进行转写的方式,然而绝大部分现有TN系统采用的都是单层级的逻辑,即所有的TN规则处于一个层级,这些规则中有处理日期格式的规则比如“2019-09-09”,有处理比分格式的规则,比如“20:13”,有处理时间格式的规则,比如“20:00PM”等等。这些规则由设计者根据经验或测试数据罗列出所有可能的场景并生成,并按照一定的先后顺序被依次处理,在实际中的确能够完成TN在一般TTS中的任务,但存在至少以下缺陷:1、TN规则缺乏完整性:由于所有的规则场景来源于数据和设计者的经验,很有可能导致一些场景的遗漏,使得后续的维护工作增加,需要不断补充新的场景来修复之前没处理到的问题,进而使得系统越来越复杂;2、具有复杂性:TN本身是一项比较复杂的工作,很多规则之间是互相交叉的,比如,“20:13”同时可以表示时间和比分,如果所有的规则全部放在一个层级,在判断优先顺序上就会随着规则的增加变的越来越困难。
技术实现思路
有鉴于此,本专利技术提供一种文本处理方法和装置、计算机可读存储介质和电子设备,以至少解决现有技术存在的以上技术问题。本专利技术一方面提供一种文本处理方法,用于文本正则化分析的TN规则由n层级规则构成,n为大于等于2的整数,所述方法包括:获得待分析文本;根据所述TN规则中的第一级规则匹配所述待分析文本,获得所述待分析文本命中的第一级规则;根据所述命中的第一级规则所对应的第二级规则继续匹配所述待分析文本,获得所述待分析文本命中的第二级规则;以此类推,根据命中的第m-1级规则所对应的第m级规则匹配所述待分析文本,获得所述待分析文本命中的第m级规则,m为大于等于2且小于等于n的整数;在所述待分析文本匹配所述TN规则结束时,根据所述待分析文本所命中的各级规则,将所述待分析文本转换为标准文本输出。在一可实施方式中,所述第一级规则包括符号划分规则,所述符号划分规则将符号按种类不同划分为不同的符号集,同一类符号归为同一符号集;所述符号划分规则中的每个符号对应有各自的第二级规则,所述第二级规则中对相应符号按不同的转换替代方式进行分类,同一符号对应至少一种转换替代方式,且每一种转换替代方式由转换方式的名称和对应的转换替代结果进行描述。在一可实施方式中,在所述符号划分规则中,将全部符号中预选的常用符号归为第一类符号集;剩余符号中不发音的符号归为第二类符号集,读音无歧义的符号归为第三类符号集,数字归为第四类符号集。在一可实施方式中,所述方法还包括:在通过匹配所述待分析文本获得命中的第m-1级规则时,通过界面显示所述命中的第m-1级规则所对应的第m级规则中的所有转换替代方式;获得针对所述第m级规则的选中指令,所述选中指令用于指示所述第m级规则中的被选转换替代方式;响应所述选中指令,将所述被选转换替代方式确定为所述待分析文本所命中的转换替代方式。本专利技术另一方面提供一种文本处理装置,用于文本正则化分析的TN规则由n层级规则构成,n为大于等于2的整数,所述装置包括:文本获得单元,用于获得待分析文本;规则匹配单元,用于根据所述TN规则中的第一级规则匹配所述待分析文本,获得所述待分析文本命中的第一级规则;根据所述命中的第一级规则所对应的第二级规则继续匹配所述待分析文本,获得所述待分析文本命中的第二级规则;以此类推,根据命中的第m-1级规则所对应的第m级规则匹配所述待分析文本,获得所述待分析文本命中的第m级规则,m为大于等于2且小于等于n的整数;转换输出单元,用于在所述待分析文本匹配所述TN规则结束时,根据所述待分析文本所命中的各级规则,将所述待分析文本转换为标准文本输出。在一可实施方式中,所述第一级规则包括符号划分规则,所述符号划分规则将符号按种类不同划分为不同的符号集,同一类符号归为同一符号集;所述符号划分规则中的每个符号对应有各自的第二级规则,所述第二级规则中对相应符号按不同的转换替代方式进行分类,同一符号对应至少一种转换替代方式,且每一种转换替代方式由转换方式的名称和对应的转换替代结果进行描述。在一可实施方式中,在所述符号划分规则中,将全部符号中预选的常用符号归为第一类符号集;剩余符号中不发音的符号归为第二类符号集,读音无歧义的符号归为第三类符号集,数字归为第四类符号集。在一可实施方式中,所述装置还包括:显示单元,用于在通过匹配所述待分析文本获得命中的第m-1级规则时,通过界面显示所述命中的第m-1级规则所对应的第m级规则中的所有转换替代方式;指令获得单元,用于获得针对所述第m级规则的选中指令,所述选中指令用于指示所述第m级规则中的被选转换替代方式;指令响应单元,用于响应所述选中指令,将所述被选转换替代方式确定为所述待分析文本所命中的转换替代方式。本专利技术再一方面提供一种计算机存储介质,所述存储介质存储有计算机可执行指令,当所述指令被执行时用执行本专利技术所述的文本处理方法。本专利技术还一方面提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本专利技术所述的文本处理方法。本专利技术所提供的一种文本处理方法和装置、计算机可读存储介质和电子设备,通过采用两层级或多层级的TN规则逻辑架构,一方面,让TN系统更加简洁清晰,便于后续优化;另一方面,TN规则覆盖更全,不易遗漏;再一方面,在进行文本规则匹配时按层级匹配的方式更高效,避免了不必要的规则匹配操作,提高了规则匹配效率;还一方面,为用户提供了对文本的可编辑功能,当TN规则出错或者用户有个性化的定制需求时,其可编辑性能够很好的支持用户需求,并且通过本文档来自技高网...
【技术保护点】
1.一种文本处理方法,其特征在于,用于文本正则化分析的TN规则由n层级规则构成,n为大于等于2的整数,所述方法包括:/n获得待分析文本;/n根据所述TN规则中的第一级规则匹配所述待分析文本,获得所述待分析文本命中的第一级规则;/n根据所述命中的第一级规则所对应的第二级规则继续匹配所述待分析文本,获得所述待分析文本命中的第二级规则;/n以此类推,根据命中的第m-1级规则所对应的第m级规则匹配所述待分析文本,获得所述待分析文本命中的第m级规则,m为大于等于2且小于等于n的整数;/n在所述待分析文本匹配所述TN规则结束时,根据所述待分析文本所命中的各级规则,将所述待分析文本转换为标准文本输出。/n
【技术特征摘要】
1.一种文本处理方法,其特征在于,用于文本正则化分析的TN规则由n层级规则构成,n为大于等于2的整数,所述方法包括:
获得待分析文本;
根据所述TN规则中的第一级规则匹配所述待分析文本,获得所述待分析文本命中的第一级规则;
根据所述命中的第一级规则所对应的第二级规则继续匹配所述待分析文本,获得所述待分析文本命中的第二级规则;
以此类推,根据命中的第m-1级规则所对应的第m级规则匹配所述待分析文本,获得所述待分析文本命中的第m级规则,m为大于等于2且小于等于n的整数;
在所述待分析文本匹配所述TN规则结束时,根据所述待分析文本所命中的各级规则,将所述待分析文本转换为标准文本输出。
2.根据权利要求1所述文本处理方法,其特征在于,所述第一级规则包括符号划分规则,所述符号划分规则将符号按种类不同划分为不同的符号集,同一类符号归为同一符号集;所述符号划分规则中的每个符号对应有各自的第二级规则,所述第二级规则中对相应符号按不同的转换替代方式进行分类,同一符号对应至少一种转换替代方式,且每一种转换替代方式由转换方式的名称和对应的转换替代结果进行描述。
3.根据权利要求2所述文本处理方法,其特征在于,在所述符号划分规则中,将全部符号中预选的常用符号归为第一类符号集;剩余符号中不发音的符号归为第二类符号集,读音无歧义的符号归为第三类符号集,数字归为第四类符号集。
4.根据权利要求1、2或3所述文本处理方法,其特征在于,所述方法还包括:
在通过匹配所述待分析文本获得命中的第m-1级规则时,通过界面显示所述命中的第m-1级规则所对应的第m级规则中的所有转换替代方式;
获得针对所述第m级规则的选中指令,所述选中指令用于指示所述第m级规则中的被选转换替代方式;
响应所述选中指令,将所述被选转换替代方式确定为所述待分析文本所命中的转换替代方式。
5.一种文本处理装置,其特征在于,用于文本正则化分析的TN规则由n层级规则构成,n为大于等于2的整数,所述装置包括:
文本获得单元,用于获得待分析文本;
规则匹配单元,用于根据所述TN规则中的第一级规则匹配所述待分析文本,...
【专利技术属性】
技术研发人员:张征,雷欣,李志飞,
申请(专利权)人:出门问问信息科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。