一种信息化合成语音的识别方法技术

技术编号:38970821 阅读:17 留言:0更新日期:2023-09-28 09:34
本发明专利技术公开了一种信息化合成语音的识别方法,涉及智能语音技术领域,用于解决信息化合成语音识别判定的精准性较的问题,具体步骤包括:采集样本语音并进行预处理,获取处理语音;通过语音内容分析模型对处理语音进行音频特征提取,并对处理语音进行文本转化,生成处理语音文本;对处理语音文本进行文本内容特征的提取,并公式化分析生成兴奋系数;设置兴奋系数比对阈值,将兴奋系数比对阈值与兴奋系数进行比对处理,生成情绪标识;对音频特征进行分析,生成音文差异值,对音文差异值进行阈值比对,进而生成音文符合程度标识;将情绪标识和音文符合程度标识进行整合处理,生成识别目标,并对对应样本语音进行标记。并对对应样本语音进行标记。并对对应样本语音进行标记。

【技术实现步骤摘要】
一种信息化合成语音的识别方法


[0001]本专利技术涉及智能语音
,具体涉及一种信息化合成语音的识别方法。

技术介绍

[0002]信息化合成语音是一种将文字或其他形式的信息转化为声音的技术,它可以将书籍、文档、电子邮件等文字信息转化为声音,为视障人士提供听觉上的辅助,同时提供可访问性,对于那些有阅读困难或无法阅读的人群,信息化合成语音可以将文字内容转化为语音,为他们提供更容易理解和获取信息的方式,具体包括老年人、残疾人、学习困难者等。
[0003]参考公开号为CN113921012A提出的一种合成语音的识别方法、系统、智能设备和存储介质,根据目标待识别语音获取目标待识别文字数据,获取目标待识别语音数据中每个发音音素的语音情感数据和所述目标待识别文字数据中每个单词的文字情感数据,判断所述语音情感数据和所述文字情感数据是否匹配,若语音情感数据和所述文字情感数据匹配,则判定目标待识别语音数据为非合成语音数据,可以从情感方面判断语音是否是合成的,能够提升判断的准确性和可靠性。
[0004]结合上述方案与现有技术提出以下需要处理的地方:
[0005]1.但随着智能化ai的普及,信息化合成语音的情感逐渐趋向于与真人相似,单依靠情感判定无法识别信息化合成语音的特性,从而导致采用音调进行情感判定的方式过于局限;
[0006]2.现有技术中对语音的信息化合成语音的识别随着科技的鉴定难度逐渐增大,以往的对信息化合成语音的识别判定的精准性较低。
[0007]为解决上述所提及的问题,提出了一种信息化合成语音的识别方法。

技术实现思路

[0008]本专利技术的目的是提供一种信息化合成语音的识别方法,以解决
技术介绍
中不足。
[0009]为了实现上述目的,本专利技术提供如下技术方案:
[0010]所述信息化合成语音的识别方法包括以下步骤:
[0011]步骤S100,采集样本语音并进行预处理,获取处理语音;
[0012]步骤S200,通过语音内容分析模型对处理语音进行音频特征提取,并对处理语音进行文本转化,生成处理语音文本;
[0013]步骤S300,对处理语音文本进行文本内容特征的提取,并公式化分析生成兴奋系数;
[0014]步骤S400,设置兴奋系数比对阈值,将兴奋系数比对阈值与兴奋系数进行比对处理,生成情绪标识;
[0015]步骤S500,对音频特征进行分析,生成音文差异值,对音文差异值进行阈值比对,进而生成音文符合程度标识;
[0016]步骤S600,将情绪标识和音文符合程度标识进行整合处理,生成识别目标,并对对
应样本语音进行标记。
[0017]在一个优选的实施方式中,所述文本内容特征包括情绪表达词和情绪符号,对文本内容分析过程为;
[0018]将处理语音文本分为n个分析区间,其中一句话表示一个分析区间,将n个分析区间的情绪表达词和符号进行提取并整合分析,将情感表达词依据情感兴奋程度进行分类,将高兴、兴奋、愤怒等情绪设置为一级情绪词,将悲伤、害怕、厌恶和焦虑等情绪分为二级情绪词,将平静情绪分为三级情绪词,其中一级情绪词相比于二级情绪词的情绪反映更大,以此类推;
[0019]将“,”和“。”分为一级情绪符号,将
“……”
和“~”分为二级情绪符号,将“?”和“!”分为三级情绪符号,其中一级情绪符号相比于二级情绪符号的情绪反映程度更低,依次类推;
[0020]将n个分析区间内的情感表达词与情绪符号进行匹配分析,当单个分析区间内同时拥有一级情绪词和三级情绪符号时,对该分析区间标记为高度情绪对象,当单个分析区间内同时拥有二级情绪词和二级情绪符号、一级情绪词和二级情绪符号或二级情绪词和三级情绪符号时,对该分析区间标记为中度情绪对象,当单个分析区间内同时拥有二级情绪词和一级情绪符号、一级情绪词和二级情绪符号或一级情绪词和一级情绪符号时,对该分析区间标记为低度情绪对象,其他的情感表达词和情绪符号之间匹配分析则不进行情绪对象程度的标记,高度情绪对象相较于中度情绪对象的情绪表现程度更大,即文本中分析出的情感更为强烈。
[0021]在一个优选的实施方式中,所述兴奋系数的生成逻辑为:
[0022]设标记为高度情绪对象的分析区间数量为a1,标记为中度情绪对象的分析区间数量为a2,标记为低度情绪对象的分析区间数量为a3,已知处理语音文本的总分析区间数值为n,进行公式化分析得出兴奋系数β:
[0023](其中a1、a2和a3皆大于等于0,n为大于1的整数);
[0024]通过公式处理可知,当存有高度情绪对象的分析区间数量a1占比越大时,中度情绪对象的分析区间数量a2和低度情绪对象的分析区间数量a3的占比之和越小,兴奋系数β则越大,兴奋系数β越大,表明处理语音文本中的情绪表达程度越大,反之越小。
[0025]在一个优选的实施方式中,所述情绪标识包括浅层情绪标识、均衡情绪标识和深层情绪标识,所述情绪标识生成步骤为:
[0026]设置兴奋系数比对阈值为qx1和qx2,其中qx1<qx2,qx1和qx2皆大于0,将处理语音文本中的兴奋系数β代入兴奋系数比对阈值qx1和qx2中进行比对分析,若兴奋系数β小于兴奋系数比对阈值qx1,对该处理语音文本对应的样本语音生成浅层情绪标识;若兴奋系数β大于兴奋系数比对阈值qx1且小于兴奋系数比对阈值qx2,对该处理语音文本对应的样本语音生成均衡情绪标识;若兴奋系数β大于兴奋系数比对阈值qx2,对该处理语音文本对应的样本语音生成深层情绪标识;
[0027]其中处理语音文本具有深层情绪标识,表示该处理语音文本内的情感表达程度较高,而处理语音文本中的情绪标识由深层情绪标识到浅层情绪标识的情绪表达程度依次递减,而相比于信息化合成语音,人声语音其变化程度更为明显,即具有深层情绪标识的信息
化合成程度越低,以此类推。
[0028]在一个优选的实施方式中,所述音频特征包括音频语速和音调强度,所述音频特征的分析步骤为:
[0029]将样本语音分为m个检测区间,将语音中的每一句话表示为单个区间,由此可知,在样本语音的m个检测区间与处理语音文本的n个分析区间中,检测区间数量m与分析区间数量n的数值相同;
[0030]将样本语音中的单个检测区间的音频语速和音调强度进行提取,其中,音调高低程度分为高速节奏、中速节奏和低速节奏,而音调强度可分为高强度音调、中强度音调和低强度音调;
[0031]将m个检测区间内的音频语速和音调强度进行匹配分析,当单个检测区间内同时拥有高速节奏和高强度音调时,对该检测区间标记为高幅激动对象,当单个检测区间内同时拥有高速节奏和中强度音调、中速节奏和高强度音调或中速节奏和中强度音调时,对该检测区间标记为中幅激动对象,当单个检测区间内同时拥有低速节奏和中强度音调、低速节奏和低强度音调或中速节奏和低强度音调时,对该检测区间标记为低幅激动对象,其他的音频语速和音调强度之间匹配分析则不进行激动对象幅度的标记,高幅激动本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息化合成语音的识别方法,其特征在于,所述方法包括以下步骤:步骤S100,采集样本语音并进行预处理,获取处理语音;步骤S200,通过语音内容分析模型对处理语音进行音频特征提取,并对处理语音进行文本转化,生成处理语音文本;步骤S300,对处理语音文本进行文本内容特征的提取,并公式化分析生成兴奋系数;步骤S400,设置兴奋系数比对阈值,将兴奋系数比对阈值与兴奋系数进行比对处理,生成情绪标识;步骤S500,对音频特征进行分析,生成音文差异值,对音文差异值进行阈值比对,进而生成音文符合程度标识;步骤S600,将情绪标识和音文符合程度标识进行整合处理,生成识别目标,并对对应样本语音进行标记。2.根据权利要求1所述的一种信息化合成语音的识别方法,其特征在于,所述文本内容特征包括情绪表达词和情绪符号,对文本内容分析过程为;将处理语音文本分为n个分析区间,其中一句话表示一个分析区间,将n个分析区间的情绪表达词和符号进行提取并整合分析,将情感表达词依据情感兴奋程度进行分类,将高兴、兴奋、愤怒等情绪设置为一级情绪词,将悲伤、害怕、厌恶和焦虑等情绪分为二级情绪词,将平静情绪分为三级情绪词,其中一级情绪词相比于二级情绪词的情绪反映更大,以此类推;将“,”和“。”分为一级情绪符号,将
“……”
和“~”分为二级情绪符号,将“?”和“!”分为三级情绪符号,其中一级情绪符号相比于二级情绪符号的情绪反映程度更低,依次类推;将n个分析区间内的情感表达词与情绪符号进行匹配分析,当单个分析区间内同时拥有一级情绪词和三级情绪符号时,对该分析区间标记为高度情绪对象,当单个分析区间内同时拥有二级情绪词和二级情绪符号、一级情绪词和二级情绪符号或二级情绪词和三级情绪符号时,对该分析区间标记为中度情绪对象,当单个分析区间内同时拥有二级情绪词和一级情绪符号、一级情绪词和二级情绪符号或一级情绪词和一级情绪符号时,对该分析区间标记为低度情绪对象,其他的情感表达词和情绪符号之间匹配分析则不进行情绪对象程度的标记,高度情绪对象相较于中度情绪对象的情绪表现程度更大,即文本中分析出的情感更为强烈。3.根据权利要求2所述的一种信息化合成语音的识别方法,其特征在于,所述兴奋系数的生成逻辑为:设标记为高度情绪对象的分析区间数量为a1,标记为中度情绪对象的分析区间数量为a2,标记为低度情绪对象的分析区间数量为a3,已知处理语音文本的总分析区间数值为n,进行公式化分析得出兴奋系数β:(其中a1、a2和a3皆大于等于0,n为大于1的整数);通过公式处理可知,当存有高度情绪对象的分析区间数量a1占比越大时,中度情绪对象的分析区间数量a2和低度情绪对象的分析区间数量a3的占比之和越小,兴奋系数β则越大,兴奋系数β越大,表明处理语音文本中的情绪表达程度越大,反之越小。4.根据权利要求3所述的一种信息化合成语音的识别方法,其特征在于,所述情绪标识
包括浅层情绪标识、均衡情绪标识和深层情绪标识,所述情绪标识生成步骤为:设置兴奋系数比对阈值为qx1和qx2,其中qx1<qx2,qx1和qx2皆大于0,将处理语音文本中的兴奋系数β代入兴奋系数比对阈值qx1和qx2中进行比对分析,若兴奋系数β小于兴奋系数比对阈值qx1,对该处理语音文本对应的样本语音生成浅层情绪标识;若兴奋系数β大于兴奋系数比对阈值qx1且小于兴奋系数比对阈值qx2,对该处理语音文本对应的样本语音生成均衡情绪标识;若兴奋系数β大于兴奋系数比对阈值qx...

【专利技术属性】
技术研发人员:郑威云剑凌霞郑晓玲周凡棣海涵辛鑫刘澎
申请(专利权)人:中国信息通信研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1