面向康养的对话实现方法及系统技术方案

技术编号:30334192 阅读:14 留言:0更新日期:2021-10-10 00:58
本发明专利技术公开了面向康养的对话实现方法及系统,属于语音交互领域,解决的技术问题为如何通过语音交互技术尽可能的模拟出独有的个人的说话方式及语气神态,提高丧偶老年人的生活质量以及减轻子女失去至亲所承受的痛苦,技术方案为:该方法具体如下:S1、用采集设备录制双方谈话声音;S2、对录制的声音转成文字并进行校对;S3、把整理好的语料输入对话模型进行训练,输出个人化对话模型;S4、利用已有的声音语料制作具有个人腔调特征的语音合成模型。该系统包括对话模型生成单元及个性化语音合成单元;对话模型生成单元包括对话录音采集模块、语音转文字模块、整理校对模块及模型训练模块;个性化语音合成单元包括声纹编码器、语音合成器及发声器。音合成器及发声器。音合成器及发声器。

【技术实现步骤摘要】
面向康养的对话实现方法及系统


[0001]本专利技术涉及语音交互
,具体地说是一种面向康养的对话实现方法及系统。

技术介绍

[0002]近年来,随着智能终端的普及,通过声音、视频、文字的方式,可以随时记录下生活当中的细节,如果这些数据从一个人出生开始收集,数据量是非常大的。
[0003]当前老年人口比例上升较快,人口老龄化程度的日益加深,如何提高丧偶老年人的生活质量以及减轻子女失去至亲所承受的痛苦,是摆在康养行业的一个亟需解决的问题。
[0004]而随着人工智能技术的发展,使得语音识别、语音合成、自然语言处理、对话交互技术也越来越成熟。故如何通过语音交互技术尽可能的模拟出独有的个人的说话方式及语气神态,提高丧偶老年人的生活质量以及减轻子女失去至亲所承受的痛苦是目前亟待解决的技术问题。

技术实现思路

[0005]本专利技术的技术任务是提供一种面向康养的对话实现方法及系统,来解决如何通过语音交互技术尽可能的模拟出独有的个人的说话方式及语气神态,提高丧偶老年人的生活质量以及减轻子女失去至亲所承受的痛苦的问题。
[0006]本专利技术的技术任务是按以下方式实现的,一种面向康养的对话实现方法,该方法具体如下:
[0007]S1、用采集设备录制双方谈话声音;
[0008]S2、对录制的声音转成文字并进行校对;
[0009]S3、把整理好的语料输入对话模型进行训练,输出个人化对话模型;
[0010]S4、利用已有的声音语料制作具有个人腔调特征的语音合成模型。
[0011]作为优选,个人化对话模型使用预训练的transformer模型,采用Encoder编码和Decorder解码结构;具体如下:
[0012]Encoder编码时,将说话人的个性化与对话历史编码在一起,并设计个人属性嵌入来模拟更丰富的对话上下文;
[0013]Decorder解码时,加入目标个性化信息,同时为了平衡权重,设计一种注意力路由结构,通过使用动态的权重选择器,对从目标个性化和对话上下文抽取的特征进行合并。
[0014]作为优选,语音合成模型包括,
[0015]声纹编码器,用于从一段参考音频中提取固定维度的声纹特征;
[0016]基于Tracotron2的语音合成器,用于将提取出的声纹特征与文本特征按照时间步进行拼接,生成频谱特征;
[0017]基于WaveNet的发声器,用于将频谱特征转换为时序波形。
[0018]更优地,所述声纹编码器采用3层LSTM架构,提取的声纹特征为256维;
[0019]参考音频采用公开的中文语音语料库通过预处理训练而成。
[0020]一种面向康养的对话系统,该系统包括,
[0021]对话模型生成单元,用于采集对话录音,将录音转换为文字并进行整理校对后,进行模型训练,生成对话模型;
[0022]个性化语音合成单元,用于从参考音频中提取声纹特征,将声纹特征与文本特征一起作为输入进行拼接,将拼接后的频谱特征转换为时序波形,完成个性化语音合成。
[0023]作为优选,所述对话模型生成单元包括,
[0024]对话录音采集模块,用于采用拾音设备,在无噪音环境中录制多轮对话;
[0025]语音转文字模块,用于利用静音检测处理从对话录音采集模块得到的音频数据,找到语音开始及结束位置,再借助语音转文字工具,实现语音到文字的转换;
[0026]整理校对模块,用于校对语音转文字过程中是否出现错误;
[0027]模型训练模块,用于个性化对话模型训练。
[0028]更优地,所述模型训练模块使用预训练的transformer模型,采用Encoder编码和Decorder解码结构;具体如下:
[0029]Encoder编码时,将说话人的个性化与对话历史编码在一起,并设计个人属性嵌入来模拟更丰富的对话上下文;
[0030]Decorder解码时,加入目标个性化信息,同时为了平衡权重,设计一种注意力路由结构,通过使用动态的权重选择器,对从目标个性化和对话上下文抽取的特征进行合并。
[0031]作为优选,所述个性化语音合成单元包括,
[0032]声纹编码器,用于从一段参考音频中提取固定维度的声纹特征;其中,声纹编码器采用3层LSTM架构,提取的声纹特征为256维;参考音频采用公开的中文语音语料库通过预处理训练而成;
[0033]基于Tracotron2的语音合成器,用于将提取出的声纹特征与文本特征按照时间步进行拼接,生成频谱特征;
[0034]基于WaveNet的发声器,用于将频谱特征转换为时序波形。
[0035]作为优选,该系统工作过程具体如下:
[0036](1)、声音采集:对采集到的声音做静音检测,去掉头尾的静音,输入到个性化对话模型中;
[0037](2)、语音转文字:个性化对话模型接收到语音文件后,通过语音转文字识别出语音文字信息;
[0038](3)、个性化对话模型:将文字信息输入到个性化对话模型中,生成带有个人特征的回复文字;
[0039](4)、个性化语音合成:将文字通过个性化语音合成模块,生成音频文件输出。
[0040]一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如上述的面向康养的对话实现方法。
[0041]本专利技术的面向康养的对话实现方法及系统具有以下优点:
[0042](一)本专利技术可以记录下某个人的声学特征以及说话方式特征,尽可能的模拟出独有的个人的说话方式及语气神态,让其拥有一个“不朽的化身”,提高丧偶老年人的生活质
量以及减轻子女失去至亲所承受的痛苦;
[0043](二)本专利技术的基于Tracotron2的语音合成器,相比于声纹编码器,合成器对训练数据的要求要严格得多,准确的文本,足够的时长,还要保证数据中不包含噪音;
[0044](三)本专利技术的基于Tracotron2的语音合成器生成的频谱特征进入基于WaveNet的发声器,完全独立于声纹编码器的发声器将频谱特征转换为时序波形,保证语音合成的准确性;
[0045](四)本专利技术构建了个性化对话模型,并采用个性化语音合成方式,且只做过程比较简单,具有良好的市场应用前景。
附图说明
[0046]下面结合附图对本专利技术进一步说明。
[0047]附图1为面向康养的对话实现方法的流程框图;
[0048]附图2为对话模型生成单元的结构框图;
[0049]附图3为个性化语音合成单元的结构框图;
[0050]附图4为面向康养的对话系统工作过程的流程框图。
具体实施方式
[0051]参照说明书附图和具体实施例对本专利技术的面向康养的对话实现方法及系统作以下详细地说明。
[0052]实施例1:
[0053]如附图1所示,本专利技术的面向康养的对话实现方法,该方法具体如下:...

【技术保护点】

【技术特征摘要】
1.一种面向康养的对话实现方法,其特征在于,该方法具体如下:S1、用采集设备录制双方谈话声音;S2、对录制的声音转成文字并进行校对;S3、把整理好的语料输入对话模型进行训练,输出个人化对话模型;S4、利用已有的声音语料制作具有个人腔调特征的语音合成模型。2.根据权利要求1所述的面向康养的对话实现方法,其特征在于,个人化对话模型使用预训练的transformer模型,采用Encoder编码和Decorder解码结构;具体如下:Encoder编码时,将说话人的个性化与对话历史编码在一起,并设计个人属性嵌入来模拟更丰富的对话上下文;Decorder解码时,加入目标个性化信息,同时为了平衡权重,设计一种注意力路由结构,通过使用动态的权重选择器,对从目标个性化和对话上下文抽取的特征进行合并。3.根据权利要求1所述的面向康养的对话实现方法,其特征在于,语音合成模型包括,声纹编码器,用于从一段参考音频中提取固定维度的声纹特征;基于Tracotron2的语音合成器,用于将提取出的声纹特征与文本特征按照时间步进行拼接,生成频谱特征;基于WaveNet的发声器,用于将频谱特征转换为时序波形。4.根据权利要求1

3中任一所述的面向康养的对话实现方法,其特征在于,所述声纹编码器采用3层LSTM架构,提取的声纹特征为256维;参考音频采用公开的中文语音语料库通过预处理训练而成。5.一种面向康养的对话系统,其特征在于,该系统包括,对话模型生成单元,用于采集对话录音,将录音转换为文字并进行整理校对后,进行模型训练,生成对话模型;个性化语音合成单元,用于从参考音频中提取声纹特征,将声纹特征与文本特征一起作为输入进行拼接,将拼接后的频谱特征转换为时序波形,完成个性化语音合成。6.根据权利要求5所述的面向康养的对话系统,其特征在于,所述对话模型生成单元包括,对话录音采集模块,用于采用拾音设备,在无噪音环境中录制多轮对...

【专利技术属性】
技术研发人员:王本强王建华尹青山
申请(专利权)人:山东新一代信息产业技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1