一种信息化合成语音的识别方法技术

技术编号：38970821 阅读：17 留言：0更新日期：2023-09-28 09:34

本发明专利技术公开了一种信息化合成语音的识别方法，涉及智能语音技术领域，用于解决信息化合成语音识别判定的精准性较的问题，具体步骤包括：采集样本语音并进行预处理，获取处理语音；通过语音内容分析模型对处理语音进行音频特征提取，并对处理语音进行文本转化，生成处理语音文本；对处理语音文本进行文本内容特征的提取，并公式化分析生成兴奋系数；设置兴奋系数比对阈值，将兴奋系数比对阈值与兴奋系数进行比对处理，生成情绪标识；对音频特征进行分析，生成音文差异值，对音文差异值进行阈值比对，进而生成音文符合程度标识；将情绪标识和音文符合程度标识进行整合处理，生成识别目标，并对对应样本语音进行标记。并对对应样本语音进行标记。并对对应样本语音进行标记。

全部详细技术资料下载

【技术实现步骤摘要】
一种信息化合成语音的识别方法

[0001]本专利技术涉及智能语音
，具体涉及一种信息化合成语音的识别方法。

技术介绍

[0002]信息化合成语音是一种将文字或其他形式的信息转化为声音的技术，它可以将书籍、文档、电子邮件等文字信息转化为声音，为视障人士提供听觉上的辅助，同时提供可访问性，对于那些有阅读困难或无法阅读的人群，信息化合成语音可以将文字内容转化为语音，为他们提供更容易理解和获取信息的方式，具体包括老年人、残疾人、学习困难者等。
[0003]参考公开号为CN113921012A提出的一种合成语音的识别方法、系统、智能设备和存储介质，根据目标待识别语音获取目标待识别文字数据，获取目标待识别语音数据中每个发音音素的语音情感数据和所述目标待识别文字数据中每个单词的文字情感数据，判断所述语音情感数据和所述文字情感数据是否匹配，若语音情感数据和所述文字情感数据匹配，则判定目标待识别语音数据为非合成语音数据，可以从情感方面判断语音是否是合成的，能够提升判断的准确性和可靠性。
[0004]结合上述方案与现有技术提出以下需要处理的地方：
[0005]1.但随着智能化ai的普及，信息化合成语音的情感逐渐趋向于与真人相似，单依靠情感判定无法识别信息化合成语音的特性，从而导致采用音调进行情感判定的方式过于局限；
[0006]2.现有技术中对语音的信息化合成语音的识别随着科技的鉴定难度逐渐增大，以往的对信息化合成语音的识别判定的精准性较低。
[0007]为解决上述所提及的问题，提出了一种信...

【技术保护点】

【技术特征摘要】
1.一种信息化合成语音的识别方法，其特征在于，所述方法包括以下步骤：步骤S100，采集样本语音并进行预处理，获取处理语音；步骤S200，通过语音内容分析模型对处理语音进行音频特征提取，并对处理语音进行文本转化，生成处理语音文本；步骤S300，对处理语音文本进行文本内容特征的提取，并公式化分析生成兴奋系数；步骤S400，设置兴奋系数比对阈值，将兴奋系数比对阈值与兴奋系数进行比对处理，生成情绪标识；步骤S500，对音频特征进行分析，生成音文差异值，对音文差异值进行阈值比对，进而生成音文符合程度标识；步骤S600，将情绪标识和音文符合程度标识进行整合处理，生成识别目标，并对对应样本语音进行标记。2.根据权利要求1所述的一种信息化合成语音的识别方法，其特征在于，所述文本内容特征包括情绪表达词和情绪符号，对文本内容分析过程为；将处理语音文本分为n个分析区间，其中一句话表示一个分析区间，将n个分析区间的情绪表达词和符号进行提取并整合分析，将情感表达词依据情感兴奋程度进行分类，将高兴、兴奋、愤怒等情绪设置为一级情绪词，将悲伤、害怕、厌恶和焦虑等情绪分为二级情绪词，将平静情绪分为三级情绪词，其中一级情绪词相比于二级情绪词的情绪反映更大，以此类推；将“，”和“。”分为一级情绪符号，将
“……”
和“～”分为二级情绪符号，将“？”和“！”分为三级情绪符号，其中一级情绪符号相比于二级情绪符号的情绪反映程度更低，依次类推；将n个分析区间内的情感表达词与情绪符号进行匹配分析，当单个分析区间内同时拥有一级情绪词和三级情绪符号时，对该分析区间标记为高度情绪对象,当单个分析区间内同时拥有二级情绪词和二级情绪符号、一级情绪词和二级情绪符号或二级情绪词和三级情绪符号时，对该分析区间标记为中度情绪对象，当单个分析区间内同时拥有二级情绪词和一级情绪符号、一级情绪词和二级情绪符号或一级情绪词和一级情绪符号时，对该分析区间标记为低度情绪对象，其他的情感表达词和情绪符号之间匹配分析则不进行情绪对象程度的标记，高度情绪对象相较于中度情绪对象的情绪表现程度更大，即文本中分析出的情感更为强烈。3.根据权利要求2所述的一种信息化合成语音的识别方法，其特征在于，所述兴奋系数的生成逻辑为：设标记为高度情绪对象的分析区间数量为a1,标记为中度情绪对象的分析区间数量为a2,标记为低度情绪对象的分析区间数量为a3,已知处理语音文本的总分析区间数值为n,进行公式化分析得出兴奋系数β:(其中a1、a2和a3皆大于等于0，n为大于1的整数)；通过公式处理可知，当存有高度情绪对象的分析区间数量a1占比越大时，中度情绪对象的分析区间数量a2和低度情绪对象的分析区间数量a3的占比之和越小,兴奋系数β则越大，兴奋系数β越大，表明处理语音文本中的情绪表达程度越大，反之越小。4.根据权利要求3所述的一种信息化合成语音的识别方法，其特征在于，所述情绪标识
包括浅层情绪标识、均衡情绪标识和深层情绪标识，所述情绪标识生成步骤为：设置兴奋系数比对阈值为qx1和qx2，其中qx1＜qx2，qx1和qx2皆大于0，将处理语音文本中的兴奋系数β代入兴奋系数比对阈值qx1和qx2中进行比对分析，若兴奋系数β小于兴奋系数比对阈值qx1，对该处理语音文本对应的样本语音生成浅层情绪标识；若兴奋系数β大于兴奋系数比对阈值qx1且小于兴奋系数比对阈值qx2，对该处理语音文本对应的样本语音生成均衡情绪标识；若兴奋系数β大于兴奋系数比对阈值qx...

【专利技术属性】
技术研发人员：郑威，云剑，凌霞，郑晓玲，周凡棣，海涵，辛鑫，刘澎，
申请(专利权)人：中国信息通信研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人