基于自然语言模式调节机器人音色、角色和语速的方法技术

技术编号:38878888 阅读:14 留言:0更新日期:2023-09-22 14:10
本申请提供了一种基于自然语言模式调节机器人音色、角色和语速的方法包括:S1、确认第一通话事件并确认呼出角色,根据呼出角色从音色数据子库定义音色;S2、呼出电话;S3、根据第一通话事件,确认出第一文本信息,并按照词义对第一文本信息进行拆解,而后将拆解后的第一文本信息音频化,形成间隙输出式的第一语音信息;S4、将第一语音信息与情绪数据子库中的一情绪状态进行绑定,并根据情绪状态从文字数据子库中调取语气助词分段式对第一语音信息进行嵌入添加,形成第二语音信息;S5、分段式播出第二语音信息,并实时判断是否收到反馈信息;若是,则根据反馈信息对应调整第一通话事件,形成第二通话事件并重新执行步骤S3~S5的步骤。骤。骤。

【技术实现步骤摘要】
基于自然语言模式调节机器人音色、角色和语速的方法


[0001]本申请涉及语音机器人
,特别涉及一种基于自然语言模式调节机器人音色、角色和语速的方法。

技术介绍

[0002]现在的语音通话有传统的电话沟通以及微信沟通等,但归其本质即是用户声音的输出与接收,而在语音机器人这个领域,用户声音的输出可以通过录制的形式,先事先录制进入语音机器人中,随后的向外呼出后创建多个应答支线,从而针对获取到反馈的语音信息进行对应的回答和交流,当然目前市场阶段的语音机器人形色种种,但是解决以下问题的相关方案却是较少的:
[0003](1)无法模拟真实的电话沟通语境,呼出以及接入的反馈的过于生硬。
[0004](2)对于用户反馈的语音信息反应不敏感,导致语音通话的过程中产生间隙,进而存在沟通意外。
[0005](3)没有良好的语音库构建,导致语音信息的构建不良,与用户的沟通牛头不对马嘴。
[0006]针对于上述技术问题,做出了专利技术的搜索,201910125823

基于深度学习的电话机器人语音识别结果校正方法,基于历史语音数据集得到拼音语句文本数据集Sp和正确的语句文本样本集Sc,采用深度学习建立校正模型,建立校正模型包括基于一个多头注意力模型和前馈神经网络的encoder部分构建和基于堆叠的两个多头注意力模型和前馈神经网络的decoder部分构建,基于正确的语句文本样本集Sc对建立的校正模型进行训练,将需要校正的语音识别结果经向量化过程处理后输入训练好的校正模型,得到校正后的文本。本专利技术充分利用历史录音数据资源,训练语音识别结果校正模型,对不安静环境和多种不同说话方式、发音准确度、收音能力等语音识别精度低情况的高效语音识别校正。
[0007]此专利技术具有构建语音数据库的意识,通过训练语音识别结果来校正模型,进而解决用户与机器人之间沟通上下承接不顺的问题,并提升准确性。
[0008]但在实际上,机器人与真正用户之间存在一本质性问题,即是“情绪”,若能将语音机器人上施加情绪的色彩,势必能够解决上述(1)(2)点的问题。这也是目前现有专利技术中确实的一块。
[0009]基于此,本专利技术提出一种基于自然语言模式调节机器人音色、角色和语速的方法,以使语音机器人具有“情绪”价值,增加与用户的交互体验,让人与语音机器人的交流更加自然。

技术实现思路

[0010]本申请的目的是提供一种基于自然语言模式调节机器人音色、角色和语速的方法,旨在实现使语音机器人具有“情绪”价值,增加与用户的交互体验,让人与语音机器人的交流更加自然。
[0011]为实现上述目的,本申请提供如下技术方案:
[0012]本申请提供一种基于自然语言模式调节机器人音色、角色和语速的方法,包括:
[0013]构建语音数据库,所述语音数据库分别由情绪数据子库、文字数据子库和音色数据子库采用知识图谱链接的形式构成;
[0014]构建自然语言处理模型,所述自然语言处理模型通过知识图谱调用语音数据库中数据进行训练并使用;
[0015]构建信息采集反馈端口,所述信息采集反馈端口联通自然语言处理模型作为语音信息的输出及采集端口,所述语音信息包括呼出的第一语音信息和接收的第二语音信息;
[0016]在进行用户的语音通话的过程时,步骤为:
[0017]S1、呼出前确认第一通话事件并根据所述第一通话事件确认呼出角色,根据所述呼出角色由自然语言处理模型从音色数据子库定义音色;
[0018]S2、呼出电话;
[0019]S3、根据所述第一通话事件,通过所述自然语言处理模型采用知识图谱链接形式从文字数据子库中确认出第一文本信息,并按照词义对所述第一文本信息进行拆解,而后将拆解后的第一文本信息音频化,形成间隙输出式的第一语音信息;
[0020]S4、通过预设于自然语言处理模型中的话轮匹配机制将第一语音信息与情绪数据子库中的一情绪状态进行绑定,并根据所述情绪状态从文字数据子库中调取语气助词分段式对第一语音信息进行嵌入添加,形成第二语音信息;
[0021]S5、通过信息采集反馈端口分段式播出所述第二语音信息,并实时判断是否收到反馈信息,所述反馈信息为另外语音输出端所输出的语音信息;
[0022]若是,则根据所述反馈信息对应调整第一通话事件,形成第二通话事件并重新执行步骤S3~S5的步骤。
[0023]进一步地,通过信息采集反馈端口分段式播出所述第二语音信息,并实时判断是否收到反馈信息,所述反馈信息为另外语音输出端所输出的语音信息的步骤,包括:
[0024]播出所述第二语音信息,所述第二语音信息的分段间隙为0.5秒~1秒,且所述分段间隙中具有语气助词的添加播出;
[0025]实时判断是否收到反馈信息;
[0026]若是,则根据所述收到反馈信息的时间戳对第二语音信息未播出的语音音频进行暂停。
[0027]进一步地,构建自然语言处理模型,所述自然语言处理模型通过知识图谱调用语音数据库中数据进行训练并使用的步骤,包括:
[0028]对所述自然语言处理模型进行训练,所述训练步骤包括:
[0029]设计所述自然语言处理模型的输入层、投影层、隐藏层和输出层,其中所述输入层、投影层、隐藏层和输出层依序链接,所述输入层接通语音数据库,所述输出层接通信息采集反馈端口;
[0030]S11、调取历史对话数据集对所述输入层进行训练,使所述输入层采用知识图谱的形式连通情绪数据子库、文字数据子库和音色数据子库;
[0031]S12、保持所述输入层与情绪数据子库和文字数据子库始终连通,且在一次训练中所述输入层调用一次音色数据子库获取音色数据;
[0032]S13、在投影层中,根据所述历史对话数据集并采用知识图谱链接而将输入层连通的情绪数据子库、文字数据子库和音色数据子库中的对应情绪数据、文字数据和音色数据映射于投影层中进行确认过程;
[0033]S14、在隐藏层中,对所述音色数据进行锁定,对所述文字数据进行文本信息化,且采用所述情绪数据对文字数据进行分段过程和语气助词添加过程以得到文本信息,逻辑公式为
[0034][0035]其中,tanh为接收到情绪数据、文字数据和音色数据后的激活函数,p为文字数据,结合中的音色数据w形成具有音色及向量制x的文本信息z
w
,并且通过情绪数据U结合文本信息z
w
进行空隙分段化,加入语气助词q后形成待输出的语音信息y
w

[0036]S15、通过所述输出层接通信息采集反馈端口将语音信息y
w
按照预设的分段间隙进行播出训练;
[0037]采用S11~S15的步骤对所述自然语言处理模型进行训练,而所述自然语言处理模型在使用的过程中执行S11~S15的步骤。
[0038]进一步地,通过预设于自然语言处理模型中的话轮匹配机制将第一语音信息与情绪数据子库中的一情绪状态进行绑定,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言模式调节机器人音色、角色和语速的方法,其特征在于,包括:构建语音数据库,所述语音数据库分别由情绪数据子库、文字数据子库和音色数据子库采用知识图谱链接的形式构成;构建自然语言处理模型,所述自然语言处理模型通过知识图谱调用语音数据库中数据进行训练并使用;构建信息采集反馈端口,所述信息采集反馈端口联通自然语言处理模型作为语音信息的输出及采集端口,所述语音信息包括呼出的第一语音信息和接收的第二语音信息;在进行用户的语音通话的过程时,步骤为:S1、呼出前确认第一通话事件并根据所述第一通话事件确认呼出角色,根据所述呼出角色由自然语言处理模型从音色数据子库定义音色;S2、呼出电话;S3、根据所述第一通话事件,通过所述自然语言处理模型采用知识图谱链接形式从文字数据子库中确认出第一文本信息,并按照词义对所述第一文本信息进行拆解,而后将拆解后的第一文本信息音频化,形成间隙输出式的第一语音信息;S4、通过预设于自然语言处理模型中的话轮匹配机制将第一语音信息与情绪数据子库中的一情绪状态进行绑定,并根据所述情绪状态从文字数据子库中调取语气助词分段式对第一语音信息进行嵌入添加,形成第二语音信息;S5、通过信息采集反馈端口分段式播出所述第二语音信息,并实时判断是否收到反馈信息,所述反馈信息为另外语音输出端所输出的语音信息;若是,则根据所述反馈信息对应调整第一通话事件,形成第二通话事件并重新执行步骤S3~S5的步骤。2.根据权利要求1所述的基于自然语言模式调节机器人音色、角色和语速的方法,其特征在于,通过信息采集反馈端口分段式播出所述第二语音信息,并实时判断是否收到反馈信息,所述反馈信息为另外语音输出端所输出的语音信息的步骤,包括:播出所述第二语音信息,所述第二语音信息的分段间隙为0.5秒~1秒,且所述分段间隙中具有语气助词的添加播出;实时判断是否收到反馈信息;若是,则根据所述收到反馈信息的时间戳对第二语音信息未播出的语音音频进行暂停。3.根据权利要求1所述的基于自然语言模式调节机器人音色、角色和语速的方法,其特征在于,构建自然语言处理模型,所述自然语言处理模型通过知识图谱调用语音数据库中数据进行训练并使用的步骤,包括:对所述自然语言处理模型进行训练,所述训练步骤包括:设计所述自然语言处理模型的输入层、投影层、隐藏层和输出层,其中所述输入层、投影层、隐藏层和输出层依序链接,所述输入层接通语音数据库,所述输出层接通信息采集反馈端口;S11、调取历史对话数据集对所述输入层进行训练,使所述输入层采用知识图谱的形式连通情绪数据子库、文字数据子库和音色数据子库;S12、保持所述输入层与情绪数据子库和文字数据子库始终连通,且在一次训练中所述
输入层调用一次音色数据子库获取音色数据;S13、在投影层中,根据所述历史对话数据集并采用知识图谱链接而将输入层连通的情绪数据子库、文字数据子库和音色数据子库中的对应情绪数据、文字数据和音色数据映射于投影层中进行确认过程;S14、在隐藏层中,对所述音色数据进行锁定,对所述文字数据进行文本信息化,且采用所述情绪数据对文字数据进行分段过程和语气助词添加过程以得到文本信息,逻辑公式为其中,tanh为接收到情绪数据、文字数据和音色数据后的激活函数,p为文字数据,结合中的音色数据w形成具有音色及向量制x的文本信息z
w
,并且通过情绪数据U结合文本信息z
w
进行空隙分段化,加入语气助词q后形成待输出的语音信息y
w
;S15、通过所述输出层接通信息采集反馈端口将语音信息y
w
按照预设的分段间隙进行播出训练;采用S11~S15的步骤对所述自然语言处理模型进行训练,而所述自然语言处理模型在使用的过程中执行S11~S15的步骤。4.根据权利要求1所述的基于自然语言模式调节机器人音色、角色和语速的方法,其特征在于,通过预设于自然语言处理模型中的话轮匹配机制将第一语音信息与情绪数据子库中的一情绪状态进行绑定,并根据所述情绪状态从文字数据子库中调取语气助词分段式对第一语音信息进行嵌入添加,形成第二语音信息的步骤中,预设的话轮匹配机制为:对所述第一语音信息进行判断,判断所述第一语音信息是否因反馈信息发生改变;若是,则根据所述第二通话事件将第一语音信息与情绪数据子库中的一情绪状态进行绑定变更;若否,则将第一语音信息与情绪数据子库中的一情绪状态进行绑定,并根据所述情绪状态从文字数据子库中...

【专利技术属性】
技术研发人员:靳晓鹏林古山苏雷张建建龚诚
申请(专利权)人:北京微呼科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1