当前位置: 首页 > 专利查询>赵佳怡专利>正文

一种数智董秘生成方法及装置制造方法及图纸

技术编号:38637548 阅读:10 留言:0更新日期:2023-08-31 18:33
本申请公开了一种数智董秘生成方法及装置,涉及人工智能技术领域,通过获取董秘文本数据样本和音频数据样本;将文本数据样本和音频数据样本通过语音合成技术和语音克隆技术生成数智董秘的声音;获取董秘形象视频样本;将数智董秘的声音和董秘形象视频样本输入到预先训练好的数字人生成模型中,得到数智董秘形象;通过人脸数据增强技术增强数智董秘的脸部细节;通过背景去除算法将数智董秘切换至虚拟场景。本申请提供的方法可以生成数智董秘,使得智能董秘以更高的媒介传播形态及时回复投资者对于上市公司的信息披露工作,大大降低了董秘的工作量,同时能够提升董秘与投资者之间的互动效果。间的互动效果。间的互动效果。

【技术实现步骤摘要】
一种数智董秘生成方法及装置


[0001]本申请涉及人工智能
,具体涉及一种数智董秘生成方法及装置。

技术介绍

[0002]随着科技的不断进步,中国证券监督管理委员会也明确指出强化投资者关系管理,是提高上市公司质量的重要举措,也是投资者保护的重要内容。提出了进一步增加和丰富投资者关系管理的内容及方式,同时对近年来实践中的良好做法予以固化,使其适应互联网、新媒体等新时代发展形势,在电话、传真等投资者关系管理传统沟通渠道基础上,新增网站、新媒体平台、投资者教育基地等新兴渠道。
[0003]董秘作为上市公司的高级管理人员,其对外主要负责公司信息披露、投资者关系管理等。目前,董秘投资者关系管理主要依托交易所互动平台、财经媒体、公司网站等自媒体对上市公司公告、财报进行公开信息发布,与投资者的沟通方式目前只是电话、邮件、互动平台的问答等方式,多为图文的文本传输方式。对于投资者来说,互动非常效果差,不利于上市公司信息披露及投资者关系工作,同时也增加董秘的工作量。

技术实现思路

[0004]为此,本申请提供一种数智董秘生成方法及装置,以解决现有技术存在的董秘与投资者的互动效果差且工作量大的问题。
[0005]为了实现上述目的,本申请提供如下技术方案:
[0006]第一方面,一种数智董秘生成方法,包括:
[0007]获取董秘文本数据样本和音频数据样本;
[0008]将所述文本数据样本和音频数据样本通过语音合成技术和语音克隆技术生成数智董秘的声音;
[0009]获取董秘形象视频样本;
[0010]将数智董秘的声音和董秘形象视频样本输入到预先训练好的数字人生成模型中,得到数智董秘形象;
[0011]通过人脸数据增强技术增强数智董秘的脸部细节;
[0012]通过背景去除算法将数智董秘切换至虚拟场景。
[0013]作为优选,所述将所述文本数据样本和音频数据样本通过语音合成技术和语音克隆技术生成数智董秘的声音,具体包括:
[0014]提取所述音频数据样本的音色向量;
[0015]用所述文本数据样本结合所述音色向量,产生将所述音频数据样本中说话人特征融入到所述文本数据样本对应的语音频谱;
[0016]根据所述语音频谱生成数智董秘的声音。
[0017]作为优选,所述用所述文本数据样本结合所述音色向量,产生将所述音频数据样本中说话人特征融入到所述文本数据样本对应的语音频谱时采用FastPitch作为主干网
络。
[0018]作为优选,所述根据所述语音频谱生成数智董秘的声音时采用声码器HiFiGAN。
[0019]作为优选,所述数字人生成模型为Wav2lip模型。
[0020]作为优选,所述人脸数据增强技术为基于GFP

GAN的人脸数据增强技术。
[0021]作为优选,所述背景去除算法采用U2Net。
[0022]第二方面,一种数智董秘生成装置,包括:
[0023]第一数据获取模块,用于获取董秘文本数据样本和音频数据样本;
[0024]数智董秘声音生成模块,用于将所述文本数据样本和音频数据样本通过语音合成技术和语音克隆技术生成数智董秘的声音;
[0025]第二数据获取模块,用于获取董秘形象视频样本;
[0026]数智董秘形象生成模块,用于将数智董秘的声音和董秘形象视频样本输入到预先训练好的数字人生成模型中,得到数智董秘形象;
[0027]数智董秘脸部增强模块,用于通过人脸数据增强技术增强数智董秘的脸部细节;
[0028]虚拟场景切换模块,用于通过背景去除算法将数智董秘切换至虚拟场景。
[0029]第三方面,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现一种数智董秘生成方法的步骤。
[0030]第四方面,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现一种数智董秘生成方法的步骤。
[0031]相比现有技术,本申请至少具有以下有益效果:
[0032]本申请提供了一种数智董秘生成方法及装置,通过获取董秘文本数据样本和音频数据样本;将文本数据样本和音频数据样本通过语音合成技术和语音克隆技术生成数智董秘的声音;获取董秘形象视频样本;将数智董秘的声音和董秘形象视频样本输入到预先训练好的数字人生成模型中,得到数智董秘形象;通过人脸数据增强技术增强数智董秘的脸部细节;通过背景去除算法将数智董秘切换至虚拟场景。本申请提供的方法可以生成数智董秘的短视频或者在线直播等形态,以更高的媒介传播形态及时回复投资者对于上市公司的信息披露工作,大大降低了董秘的工作量,同时能够进一步增强投资者对上市公司公开信息的了解,提升了董秘与投资者之间的互动效果。
附图说明
[0033]为了更直观地说明现有技术以及本申请,下面给出几个示例性的附图。应当理解,附图中所示的具体形状、构造,通常不应视为实现本申请时的限定条件;例如,本领域技术人员基于本申请揭示的技术构思和示例性的附图,有能力对某些单元(部件)的增/减/归属划分、具体形状、位置关系、连接方式、尺寸比例关系等容易作出常规的调整或进一步的优化。
[0034]图1为本申请实施例一提供的一种数智董秘生成方法流程图;
[0035]图2为本申请实施例一提供的一种数智董秘生成方法结构示意图;
[0036]图3为本申请实施例一提供的数智董秘声音合成方法结构示意图;
[0037]图4为本申请实施例一提供的FastPitch网络结构示意图;
[0038]图5为本申请实施例一提供的语谱图结构示意图;
[0039]图6为本申请实施例一提供的HiFiGAN生成器结构示意图;
[0040]图7为本申请实施例一提供的MPD和MSD的结构示意图;
[0041]图8为本申请实施例一提供的Wav2lip唇形转换效果示意图;
[0042]图9为本申请实施例一提供的Wav2lip训练结构示意图;
[0043]图10为本申请实施例一提供的Wav2Lip生成唇形同步视频方法结构示意图;
[0044]图11为本申请实施例一提供的人脸数据增强技术增强效果示意图;
[0045]图12为本申请实施例一提供的GFP

GAN网络结构示意图;
[0046]图13为本申请实施例一提供的虚拟场景切换示意图;
[0047]图14为本申请实施例一提供的U2Net网络结构示意图;
[0048]图15为本申请实施例一提供的数智董秘多轮对话逻辑管理结构示意图;
[0049]图16为本申请实施例一提供的GPT

2网络结构示意图。
具体实施方式
[0050]以下结合附图,通过具体实施例对本申请作进一步详述。
[0051]在本申请的描述中:除非另有说明,“多个”的含义是两个或两个以上。本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数智董秘生成方法,其特征在于,包括:获取董秘文本数据样本和音频数据样本;将所述文本数据样本和音频数据样本通过语音合成技术和语音克隆技术生成数智董秘的声音;获取董秘形象视频样本;将数智董秘的声音和董秘形象视频样本输入到预先训练好的数字人生成模型中,得到数智董秘形象;通过人脸数据增强技术增强数智董秘的脸部细节;通过背景去除算法将数智董秘切换至虚拟场景。2.根据权利要求1所述的数智董秘生成方法,其特征在于,所述将所述文本数据样本和音频数据样本通过语音合成技术和语音克隆技术生成数智董秘的声音,具体包括:提取所述音频数据样本的音色向量;用所述文本数据样本结合所述音色向量,产生将所述音频数据样本中说话人特征融入到所述文本数据样本对应的语音频谱;根据所述语音频谱生成数智董秘的声音。3.根据权利要求2所述的数智董秘生成方法,其特征在于,所述用所述文本数据样本结合所述音色向量,产生将所述音频数据样本中说话人特征融入到所述文本数据样本对应的语音频谱时采用FastPitch作为主干网络。4.根据权利要求2所述的数智董秘生成方法,其特征在于,所述根据所述语音频谱生成数智董秘的声音时采用声码器HiFiGAN。5.根据权利要求1所述的数智董秘生成方法,其特征在于,所述数...

【专利技术属性】
技术研发人员:赵鑫邵学军赵佳怡
申请(专利权)人:赵佳怡
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1