一种数据处理方法、装置及计算机存储介质制造方法及图纸

技术编号:24207877 阅读:11 留言:0更新日期:2020-05-20 15:28
本发明专利技术实施例公开了一种数据处理方法、装置及计算机存储介质,方法包括:获取初始文本;根据目标正则化系统对所述初始文本进行文本分析,得到标准文本以及对应于所述标准文本的置信度,所述目标正则化系统至少包括最优规则和备选规则,以及对应于最优规则的最优概率信息和对应于备选规则的备选概率信息;根据所述置信度对所述标准文本进行标记处理,得到标记文本。本发明专利技术实施例提供的数据处理方法、装置及计算机存储介质,通过计算文本分析的置信度,并根据不同文本的置信度对文本进行不同程度的标记处理,优化编辑系统,提高了用户体验感,增加了文本编辑效率。

A data processing method, device and computer storage medium

【技术实现步骤摘要】
一种数据处理方法、装置及计算机存储介质
本专利技术涉及信息处理
,尤其涉及一种数据处理方法、装置及计算机存储介质。
技术介绍
TTS(texttospeech,语音合成)是一种将文字转换成人类自然语言的技术,被广泛应用在导航播报、商家在线客服、只能机器人语音交互等方面。TTS系统主要分为前端和后端,其中前端主要完成文本分析的工作,让机器知道这段文字该怎么读。TTS编辑系统是一个可供用户编辑的TTS合成系统,用户可以编辑文本中字词的读音,读法以及停顿等等,以达到用户自己的需求。比如TN(TextNormalization,文本正则化)编辑,“13年”可以读成“十三年”,用户也可以通过编辑读法,让它按“年份读法”去读,读作“一三年”,或者其他读法。文本分析对TTS的合成效果起着举足轻重的作用。而TN,即文本正则化是文本分析的重要步骤,将不规则的文本,即带有各种数字、符号的文本转换成标准文本,即不含有数字,只含有系统指定的几个表示停顿的符号的文本的过程。比如“33+12等于45”TN后的结果会变成“三十三加十二等于四十五”。现有TTS编辑系统在编辑文本正则化时,不会区分易错TN和不易错的TN,这样的TTS编辑系统,会造成界面混乱,编辑效率低下的问题。
技术实现思路
本专利技术实施例为了有效克服现有技术所存在的上述缺陷,创造性地提供一种数据处理方法,包括:获取初始文本;根据目标正则化系统对所述初始文本进行文本分析,得到标准文本以及对应于所述标准文本的置信度,所述目标正则化系统至少包括最优规则和备选规则,以及对应于最优规则的最优概率信息和对应于备选规则的备选概率信息;根据所述置信度对所述标准文本进行标记处理,得到标记文本。在一可实施方式中,在根据目标正则化系统对所述初始文本进行文本分析,得到标准文本以及对应于所述标准文本的置信度之前,包括:获取样本文本及初始正则化系统;修改所述初始正则化系统中的规则匹配条件,得到调整正则化系统,所述调整正则化系统为能够匹配到每个文本的最优规则和备选规则的系统;根据所述样本文本对所述调整正则化系统进行置信度训练,得到目标正则化系统。在一可实施方式中,所述根据所述样本文本对所述调整正则化系统进行置信度训练,得到目标正则化系统包括:根据所述调整正则化系统获取对应于所述样本文本的最优规则和备选规则;根据所述样本文本的邻近文本对所述调整正则化系统进行规则匹配训练,得到对应于所述样本文本的最优规则的最优概率信息和对应于所述样本文本的备选规则的备选概率信息,所述最优概率信息和所述备选概率信息分别与所述样本文本的邻近文本相对应;根据所述样本文本的最优规则和备选规则以及对应于所述样本文本的最优规则的最优概率信息和对应于所述样本文本的备选规则的备选概率信息建立目标正则化系统。在一可实施方式中,所述根据目标正则化系统对所述初始文本进行文本分析,得到标准文本以及对应于所述标准文本的置信度包括:根据所述目标正则化系统对所述初始文本进行规则匹配,得到对应于所述初始文本的最优规则和备选规则;根据所述初始文本的最优规则对所述初始文本进行转写,得到标准文本;根据所述初始文本的邻近文本获取所述目标正则化系统中对应于所述初始文本的最优规则的最优概率信息以及对应于所述初始文本的备选规则的备选概率信息;根据所述初始文本的最优规则的最优概率信息以及对应于所述初始文本的备选规则的备选概率信息确定所述标准文本的置信度。在一可实施方式中,所述根据所述置信度对所述标准文本进行标记处理,得到标记文本包括:判断所述置信度是否符合第一阈值,若符合则对所述标准文本进行第一标记处理;判断所述置信度是否符合第二阈值,若符合则对所述标准文本进行第二标记处理;判断所述置信度是否符合第三阈值,若符合则对所述标准文本进行第三标记处理;其中,所述第一阈值、第二阈值、第三阈值按照置信度大小从低到高排列,所述第一标记、第二标记和第三标记按照标记内容提示度从高到低排列。本专利技术实施例另一方面提供一种数据处理装置,包括:初始文本获取模块,用于获取初始文本;置信度分析模块,用于根据目标正则化系统对所述初始文本进行文本分析,得到标准文本以及对应于所述标准文本的置信度,所述目标正则化系统至少包括最优规则和备选规则,以及对应于最优规则的最优概率信息和对应于备选规则的备选概率信息;标记模块,用于根据所述置信度对所述标准文本进行标记处理,得到标记文本。在一可实施方式中,装置还包括:样本获取模块,用于获取样本文本及初始正则化系统;系统修改模块,用于修改所述初始正则化系统中的规则匹配条件,得到调整正则化系统,所述调整正则化系统为能够匹配到每个文本的最优规则和备选规则的系统;系统训练模块,用于根据所述样本文本对所述调整正则化系统进行置信度训练,得到目标正则化系统。在一可实施方式中,所述系统训练模块包括:规则获取单元,用于根据所述调整正则化系统获取对应于所述样本文本的最优规则和备选规则;系统训练单元,用于根据所述样本文本的邻近文本对所述调整正则化系统进行规则匹配训练,得到对应于所述样本文本的最优规则的最优概率信息和对应于所述样本文本的备选规则的备选概率信息,所述最优概率信息和所述备选概率信息分别与所述样本文本的邻近文本相对应;系统建立单元,用于根据所述样本文本的最优规则和备选规则以及对应于所述样本文本的最优规则的最优概率信息和对应于所述样本文本的备选规则的备选概率信息建立目标正则化系统。在一可实施方式中,所述置信度分析模块包括:规则匹配单元,用于根据所述目标正则化系统对所述初始文本进行规则匹配,得到对应于所述初始文本的最优规则和备选规则;文本转写单元,用于根据所述初始文本的最优规则对所述初始文本进行转写,得到标准文本;概率获取单元,用于根据所述初始文本的邻近文本获取所述目标正则化系统中对应于所述初始文本的最优规则的最优概率信息以及对应于所述初始文本的备选规则的备选概率信息;置信度确定单元,用于根据所述初始文本的最优规则的最优概率信息以及对应于所述初始文本的备选规则的备选概率信息确定所述标准文本的置信度。在一可实施方式中,所述标记模块包括:第一标记单元,用于判断所述置信度是否符合第一阈值,若符合则对所述标准文本进行第一标记处理;第二标记单元,用于判断所述置信度是否符合第二阈值,若符合则对所述标准文本进行第二标记处理;第三标记单元,用于判断所述置信度是否符合第三阈值,若符合则对所述标准文本进行第三标记处理;其中,所述第一阈值、第二阈值、第三阈值按照置信度大小从低到高排列,所述第一标记、第二标记和第三标记按照标记内容提示度从高到低排列。本专利技术实施例另一方面提供一种计算机可读存储介质,所述计算机存储介质中存储有计算机可执行指令,当所述指令被执行时用于执行上述中任一项所述的数据处理方法。本专利技术实施例提供的数据处理方法、装置及计算机存储介质,通过计算文本分析的置信度,并根据不同文本的置信度对文本进行不同程度的标记处理,优化编辑系统,提高了用户体验感,增加了文本编辑效率。附图说明通过参考附图阅读下文的详细本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取初始文本;/n根据目标正则化系统对所述初始文本进行文本分析,得到标准文本以及对应于所述标准文本的置信度,所述目标正则化系统至少包括最优规则和备选规则,以及对应于最优规则的最优概率信息和对应于备选规则的备选概率信息;/n根据所述置信度对所述标准文本进行标记处理,得到标记文本。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取初始文本;
根据目标正则化系统对所述初始文本进行文本分析,得到标准文本以及对应于所述标准文本的置信度,所述目标正则化系统至少包括最优规则和备选规则,以及对应于最优规则的最优概率信息和对应于备选规则的备选概率信息;
根据所述置信度对所述标准文本进行标记处理,得到标记文本。


2.根据权利要求1所述的方法,其特征在于,在根据目标正则化系统对所述初始文本进行文本分析,得到标准文本以及对应于所述标准文本的置信度之前,包括:
获取样本文本及初始正则化系统;
修改所述初始正则化系统中的规则匹配条件,得到调整正则化系统,所述调整正则化系统为能够匹配到每个文本的最优规则和备选规则的系统;
根据所述样本文本对所述调整正则化系统进行置信度训练,得到目标正则化系统。


3.根据权利要求2所述的方法,其特征在于,所述根据所述样本文本对所述调整正则化系统进行置信度训练,得到目标正则化系统包括:
根据所述调整正则化系统获取对应于所述样本文本的最优规则和备选规则;
根据所述样本文本的邻近文本对所述调整正则化系统进行规则匹配训练,得到对应于所述样本文本的最优规则的最优概率信息和对应于所述样本文本的备选规则的备选概率信息,所述最优概率信息和所述备选概率信息分别与所述样本文本的邻近文本相对应;
根据所述样本文本的最优规则和备选规则以及对应于所述样本文本的最优规则的最优概率信息和对应于所述样本文本的备选规则的备选概率信息建立目标正则化系统。


4.根据权利要求3所述的方法,其特征在于,所述根据目标正则化系统对所述初始文本进行文本分析,得到标准文本以及对应于所述标准文本的置信度包括:
根据所述目标正则化系统对所述初始文本进行规则匹配,得到对应于所述初始文本的最优规则和备选规则;
根据所述初始文本的最优规则对所述初始文本进行转写,得到标准文本;
根据所述初始文本的邻近文本获取所述目标正则化系统中对应于所述初始文本的最优规则的最优概率信息以及对应于所述初始文本的备选规则的备选概率信息;
根据所述初始文本的最优规则的最优概率信息以及对应于所述初始文本的备选规则的备选概率信息确定所述标准文本的置信度。


5.根据权利要求1或2所述的方法,其特征在于,所述根据所述置信度对所述标准文本进行标记处理,得到标记文本包括:
判断所述置信度是否符合第一阈值,若符合则对所述标准文本进行第一标记处理;
判断所述置信度是否符合第二阈值,若符合则对所述标准文本进行第二标记处理;
判断所述置信度是否符合第三阈值,若符合则对所述标准文本进行第三标记处理;
其中,所述第一阈值、第二阈值、第三阈值按照置信度大小从低到高排列,所述第一标记、第二标记和第三标记按照标记内容提示度从高到低排列。


6.一种数据处理装置,其特征在于,包括:
初始文本获取模块,用于获取初始文本;...

【专利技术属性】
技术研发人员:张征冯小琴雷欣李志飞
申请(专利权)人:出门问问信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1