【技术实现步骤摘要】
本申请涉及人工智能、金融和数字医疗,尤其涉及一种基于多模态信息的摘要生成方法、装置、设备及存储介质。
技术介绍
1、随着通信技术的飞速发展,在线会议工具已成为跨企业、跨区域沟通协作的新兴模式。在线会议具有不受时间和空间限制的独特优势,使得人们可以在任何时间、任何地点进行会议讨论,在线沟通的效率以及方便程度大大提升。在线会议也产生了大量的会议数据,用户通常被冗长或零碎的信息所围绕,为了帮助用户从繁杂的会议信息中快速定位核心内容,摘要技术应运而生。
2、现有业内的智能会议摘要技术通常是先通过语音识别(asr)系统将会议音频转换为文本,然后对文本进行处理,基于文本层面使用自然语言处理技术来生成摘要。然而,由于多人会议嘈杂纷乱的环境以及asr系统的局限性,会导致音频识别结果不准确、文本信息有限等问题,这些问题会进一步导致生成的摘要不够准确。
3、另一方面,在智能会议中,会议通常会产生和会议相关的图像资料,例如演讲幻灯片等,在一般的会议摘要生成方法中没有利用到这些额外的信息,导致生成的摘要不够全面。
...
【技术保护点】
1.一种基于多模态信息的摘要生成方法,其特征在于,包括下述步骤:
2.根据权利要求1所述的基于多模态信息的摘要生成方法,其特征在于,所述语音识别模型包括识别切分层、声学特征提取层、声学单元识别层和语音识别层;所述将所述目标音频数据输入训练好的语音识别模型中进行处理,得到语音识别文本的步骤包括:
3.根据权利要求1所述的基于多模态信息的摘要生成方法,其特征在于,所述对所述语音识别文本进行置信度过滤,得到过滤识别文本的步骤包括:
4.根据权利要求1所述的基于多模态信息的摘要生成方法,其特征在于,所述根据所述图像识别文本从所述过滤识别文本
...【技术特征摘要】
1.一种基于多模态信息的摘要生成方法,其特征在于,包括下述步骤:
2.根据权利要求1所述的基于多模态信息的摘要生成方法,其特征在于,所述语音识别模型包括识别切分层、声学特征提取层、声学单元识别层和语音识别层;所述将所述目标音频数据输入训练好的语音识别模型中进行处理,得到语音识别文本的步骤包括:
3.根据权利要求1所述的基于多模态信息的摘要生成方法,其特征在于,所述对所述语音识别文本进行置信度过滤,得到过滤识别文本的步骤包括:
4.根据权利要求1所述的基于多模态信息的摘要生成方法,其特征在于,所述根据所述图像识别文本从所述过滤识别文本中提取与所述目标图像数据对应的目标文本的步骤包括:
5.根据权利要求1所述的基于多模态信息的摘要生成方法,其特征在于,所述摘要生成模型包括图像特征提取层、文本特征提取层、特征融合层、编码器层以及解码器层;所述将所述目标文本、所述目标图像数据和所述图像识别文本输入训练好的摘要生成模型中,生成文本摘要的步骤包括:
6.根据权...
【专利技术属性】
技术研发人员:张旭龙,王健宗,彭俊清,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。