视觉语音问答模型的训练方法、装置、交互方法及系统制造方法及图纸

技术编号：40082171 阅读：22 留言：0更新日期：2024-01-23 14:53

本申请实施例公开了一种视觉语音问答模型的训练方法、装置、交互方法及系统。其中，该训练方法包括：获取图像样本和所述图像样本的描述文本；将所述图像样本输入预先构建的语音视觉问答模型，得到预测文本；基于所述预测文本和所述描述文本，确定第一损失函数；确定问题文本和答复文本；将所述问题文本转化为语音样本；将所述语音样本和所述图像样本输入所述语音视觉问答模型，得到预测答复文本；基于所述预测答复文本和所述答复文本，确定第二损失函数；基于所述第一损失函数和所述第二损失函数，更新所述语音视觉问答模型。本发明专利技术能够支持针对当前场景图像的语音描述功能和语音问答功能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及一种视觉语音问答模型的训练方法、装置、交互方法及系统。

技术介绍

1、目前的问答模型多为图文问答模型，即问答模型的输入为图片，输出为文字信息。然而，在特殊应用场景下，例如对于视觉障碍人群，由于这类人群无法直接看到文字信息，因此基于图文问答的问答模型不能适配这类场景下的交互需求。

技术实现思路

1、本说明书的一个或多个实施例提供一种视觉语音问答模型的训练方法、装置、交互方法及系统，能够支持针对当前场景图像的语音描述功能和语音问答功能。

2、根据第一方面，提供了一种视觉语音问答模型的训练方法，包括：

3、获取图像样本和所述图像样本的描述文本；

4、将所述图像样本输入预先构建的语音视觉问答模型，得到预测文本；

5、基于所述预测文本和所述描述文本，确定第一损失函数；

6、确定问题文本和答复文本；

7、将所述问题文本转化为语音样本；

8、将所述语音样本和所述图像样本输入所述语音视觉问答模...

【技术保护点】

1.一种视觉语音问答模型的训练方法，包括：

2.如权利要求1所述的方法，在将所述语音样本和所述图像样本输入所述语音视觉问答模型之前，还包括：

3.如权利要求1所述的方法，确定所述问题文本和所述答复文本，具体包括：

4.如权利要求1所述的方法，将所述问题文本转化为所述语音样本，具体包括：

5.一种交互方法，包括：

6.如权利要求5所述的方法，还包括：

7.一种交互方法，应用于服务器端，包括：

8.如权利要求7所述的交互方法，还包括：

9.一种交互方法，应用于客户端，包括：p>

10.如权...

【技术特征摘要】

1.一种视觉语音问答模型的训练方法，包括：

2.如权利要求1所述的方法，在将所述语音样本和所述图像样本输入所述语音视觉问答模型之前，还包括：

3.如权利要求1所述的方法，确定所述问题文本和所述答复文本，具体包括：

4.如权利要求1所述的方法，将所述问题文本转化为所述语音样本，具体包括：

5.一种交互方法，包括：

6.如权利要求5所述的方法，还包括：

7.一种交互方法，应用于服务器端，包括：

8.如权利要求7所述的交互方法，还包括：

9.一种交互方法，应用于客户端，包括：

10.如权利要求9所述的方法，还包括：

11.一种视觉语音问...

【专利技术属性】
技术研发人员：陈志军，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人