多媒体信息的标题修正方法、装置、电子设备及存储介质制造方法及图纸

技术编号:25522630 阅读:43 留言:0更新日期:2020-09-04 17:12
本发明专利技术提供了一种基于人工智能的多媒体信息的标题修正方法、装置、电子设备及计算机可读存储介质;方法包括:对多媒体信息进行类型识别处理,得到多媒体信息的类型;对多媒体信息的标题进行错误识别处理,得到标题中的错误位置;根据错误位置的文本搜索与类型对应的候选修正数据库,得到用于修正错误位置的文本的多个候选修正文本;对多个候选修正文本进行筛选,将筛选后得到的候选修正文本作为修正文本,并将标题的错误位置的文本替换为修正文本,以形成多媒体信息的正确标题。通过本发明专利技术,能够自动并准确地修正多媒体信息的标题,提高标题修正的效率。

【技术实现步骤摘要】
多媒体信息的标题修正方法、装置、电子设备及存储介质
本专利技术涉及人工智能技术,尤其涉及一种基于人工智能的多媒体信息的标题修正方法、装置、电子设备及计算机可读存储介质。
技术介绍
人工智能(ArtificialIntelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。目前,标题在各种多媒体应用中越来越广泛。但是,相关技术中缺乏基于人工智能来修正多媒体信息的标题的有效方案,主要依赖于人工对多媒体信息进行审核,以纠正多媒体信息的错误标题,实现了多媒体信息的标题修正。由于需要通过人工对海量的多媒体信息进行审核,即相关技术的标题修正的效率很低。
技术实现思路
本专利技术实施例提供一种基于人工智能的多媒体信息的标题修正方法、装置、电子设备及计算机可读存储介质,能够自动并准确地修正多媒体信息的标题,提高标题修正的效率。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种基于人工智能的多媒体信息的标题修正方法,包括:对多媒体信息进行类型识别处理,得到所述多媒体信息的类型;对所述多媒体信息的标题进行错误识别处理,得到所述标题中的错误位置;根据所述错误位置的文本搜索与所述类型对应的候选修正数据库,得到用于修正所述错误位置的文本的多个候选修正文本;对所述多个候选修正文本进行筛选,将筛选后得到的候选修正文本作为修正文本,并将所述标题的错误位置的文本替换为所述修正文本,以形成所述多媒体信息的正确标题。本专利技术实施例提供一种多媒体信息的标题修正装置,包括:识别模块,用于对多媒体信息进行类型识别处理,得到所述多媒体信息的类型;对所述多媒体信息的标题进行错误识别处理,得到所述标题中的错误位置;搜索模块,用于根据所述错误位置的文本搜索与所述类型对应的候选修正数据库,得到用于修正所述错误位置的文本的多个候选修正文本;筛选模块,用于对所述多个候选修正文本进行筛选,将筛选后得到的候选修正文本作为修正文本,并替换模块,用于将所述标题的错误位置的文本替换为所述修正文本,以形成所述多媒体信息的正确标题。上述技术方案中,所述装置还包括:提取模块,用于提取所述多媒体信息的多个模态的特征;其中,当所述多媒体信息为视频时,所述多个模态的特征包括:视频融合特征、音频融合特征和所述多媒体信息的标题的文本特征。上述技术方案中,所述提取模块还用于对所述多媒体信息中每个视频帧进行编码处理,得到所述每个视频帧的向量表示,并对所述每个视频帧的向量表示进行融合处理,得到所述视频融合特征;对所述多媒体信息中每个音频帧进行编码处理,得到所述每个音频帧的向量表示,并对所述每个音频帧的向量表示进行融合处理,得到所述音频融合特征;对所述多媒体信息的标题中每个位置的文本进行编码处理,得到对应的向量,并将所述每个位置的向量组合为向量序列,以作为所述标题的文本特征。上述技术方案中,所述识别模块还用于将所述视频融合特征、所述音频融合特征和所述文本特征进行融合处理,得到所述多媒体信息的多模态融合特征;将所述多模态融合特征映射为对应多个候选多媒体信息类型的概率,并将最大概率的候选多媒体信息类型确定为所述多媒体信息的类型。上述技术方案中,所述识别模块还用于将所述标题的文本特征映射为对应所述标题中每个位置的错误概率,并将错误概率大于错误阈值的位置确定为所述错误位置。上述技术方案中,所述识别模块还用于通过调用多任务识别模型中的视频类型分类子模型来进行所述类型识别处理;通过调用所述多任务识别模型中的错误分类子模型来进行所述错误识别处理。上述技术方案中,所述装置还包括:训练模块,用于通过所述多任务识别模型对多媒体信息样本进行类型识别处理,得到所述多媒体信息样本的预测类型,并对所述多媒体信息样本的标题进行错误识别处理,得到所述标题中的预测错误位置;根据所述多媒体信息样本的预测类型、所述多媒体信息样本的多媒体信息类型标注、所述多媒体信息样本中的预测错误位置以及所述多媒体信息样本中错误位置标注,构建所述多任务识别模型的损失函数;更新所述多任务识别模型的参数直至所述损失函数收敛,将所述损失函数收敛时所述多任务识别模型的更新的参数,作为训练后的所述多任务识别模型的参数。上述技术方案中,所述装置还包括:生成模块,用于从所述多媒体信息的正样本集合中抽取多媒体信息正样本的标题中的部分文本;从文本库中查询与所述部分文本对应的错误文本;将所述标题中的部分文本替换为所述错误文本,以生成包含错误文本的多媒体信息负样本,并将所述错误文本的位置确定为所述多媒体信息负样本的错误位置标注。上述技术方案中,所述搜索模块还用于针对与所述多媒体信息的类型对应的候选修正数据库,执行以下处理至少之一:查询与所述错误位置的文本的拼音对应的所述候选修正文本;查询与所述错误位置的文本的字形对应的所述候选修正文本;查询与所述错误位置的文本中的部分文本对应的所述候选修正文本。上述技术方案中,所述筛选模块还用于针对所述多个候选修正文本中的任一所述候选修正文本,执行以下处理:将所述标题的错误位置的文本替换为所述候选修正文本,以生成修正后的标题;通过语言模型对修正前的所述标题进行通顺程度预测处理,得到所述修正前的所述标题的通顺程度;通过所述语言模型对所述修正后的标题进行通顺程度预测处理,得到所述修正后的标题的通顺程度;将所述标题修正前后的通顺程度的差值,作为所述候选修正文本的语言通顺程度;当所述候选修正文本的语言通顺程度大于与所述多媒体信息的类型对应的语言通顺程度阈值时,将所述候选修正文本作为所述标题的修正文本。上述技术方案中,所述语言模型包括类型个性化语言模型以及通用语言模型;所述筛选模块还用于通过所述类型个性化语言模型对所述修正后的标题进行通顺程度预测处理,得到所述修正后的标题的第一通顺程度;通过所述通用语言模型对所述修正后的标题进行通顺度预测处理,得到所述修正后的标题的第二通顺程度;对所述第一通顺程度以及所述第二通顺程度进行加权求和,以得到所述修正后的标题的最终通顺程度;其中,所述类型个性化语言模型为根据与所述多媒体信息的类型对应的多媒体信息样本训练得到的,所述通用语言模型为根据包括所有多媒体信息的类型的多媒体信息样本训练得到的。上述技术方案中,所述装置还包括:处理模块,用于对所述修正前的所述标题进行分词处理,以得到所述修正前的所述标题包括的文本的数量;对所述修正后的标题进行分词处理,以得到所述修正后的标题包括的文本的数量;将所述标题的修本文档来自技高网...

【技术保护点】
1.一种基于人工智能的多媒体信息的标题修正方法,其特征在于,所述方法包括:/n对多媒体信息进行类型识别处理,得到所述多媒体信息的类型;/n对所述多媒体信息的标题进行错误识别处理,得到所述标题中的错误位置;/n根据所述错误位置的文本搜索与所述类型对应的候选修正数据库,得到用于修正所述错误位置的文本的多个候选修正文本;/n对所述多个候选修正文本进行筛选,将筛选后得到的候选修正文本作为修正文本,并/n将所述标题的错误位置的文本替换为所述修正文本,以形成所述多媒体信息的正确标题。/n

【技术特征摘要】
1.一种基于人工智能的多媒体信息的标题修正方法,其特征在于,所述方法包括:
对多媒体信息进行类型识别处理,得到所述多媒体信息的类型;
对所述多媒体信息的标题进行错误识别处理,得到所述标题中的错误位置;
根据所述错误位置的文本搜索与所述类型对应的候选修正数据库,得到用于修正所述错误位置的文本的多个候选修正文本;
对所述多个候选修正文本进行筛选,将筛选后得到的候选修正文本作为修正文本,并
将所述标题的错误位置的文本替换为所述修正文本,以形成所述多媒体信息的正确标题。


2.根据权利要求1所述的方法,其特征在于,在所述对多媒体信息进行类型识别处理之前,所述方法还包括:
提取所述多媒体信息的多个模态的特征;
其中,当所述多媒体信息为视频时,所述多个模态的特征包括:视频融合特征、音频融合特征和所述多媒体信息的标题的文本特征。


3.根据权利要求2所述的方法,其特征在于,所述提取所述多媒体信息的多个模态的特征,包括:
对所述多媒体信息中每个视频帧进行编码处理,得到所述每个视频帧的向量表示,并对所述每个视频帧的向量表示进行融合处理,得到所述视频融合特征;
对所述多媒体信息中每个音频帧进行编码处理,得到所述每个音频帧的向量表示,并对所述每个音频帧的向量表示进行融合处理,得到所述音频融合特征;
对所述多媒体信息的标题中每个位置的文本进行编码处理,得到对应的向量,并将所述每个位置的向量组合为向量序列,以作为所述标题的文本特征。


4.根据权利要求2所述的方法,其特征在于,所述对多媒体信息进行类型识别处理,得到所述多媒体信息的类型,包括:
将所述视频融合特征、所述音频融合特征和所述文本特征进行融合处理,得到所述多媒体信息的多模态融合特征;
将所述多模态融合特征映射为对应多个候选多媒体信息类型的概率,并
将最大概率的候选多媒体信息类型确定为所述多媒体信息的类型。


5.根据权利要求2所述的方法,其特征在于,所述对所述多媒体信息的标题进行错误识别处理,得到所述标题中的错误位置,包括:
将所述标题的文本特征映射为对应所述标题中每个位置的错误概率,并将错误概率大于错误阈值的位置确定为所述错误位置。


6.根据权利要求1所述的方法,其特征在于,
所述对多媒体信息进行类型识别处理,包括:
通过调用多任务识别模型中的视频类型分类子模型来进行所述类型识别处理;
所述对所述多媒体信息的标题进行错误识别处理,包括:
通过调用所述多任务识别模型中的错误分类子模型来进行所述错误识别处理。


7.根据权利要求6所述的方法,其特征在于,
所述对多媒体信息进行类型识别处理之前,所述方法还包括:
通过所述多任务识别模型对多媒体信息样本进行类型识别处理,得到所述多媒体信息样本的预测类型,并
对所述多媒体信息样本的标题进行错误识别处理,得到所述标题中的预测错误位置;
根据所述多媒体信息样本的预测类型、所述多媒体信息样本的多媒体信息类型标注、所述多媒体信息样本中的预测错误位置以及所述多媒体信息样本中错误位置标注,构建所述多任务识别模型的损失函数;
更新所述多任务识别模型的参数直至所述损失函数收敛,将所述损失函数收敛时所述多任务识别模型的更新的参数,作为训练后的所述多任务识别模型的参数。


8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
从所述多媒体信息的正样本集合中抽取多媒体信息正样本的标题中的部分文本;
从文本库中查询与所述部分文本对应的错误文本;
将所述标题中的部分文本替换为所述错误文本,以生成包含错误文本的多媒体信息负样本,并
将所述错误文本的位置确定为所述多媒体信息负样本的错误位置标注。


9...

【专利技术属性】
技术研发人员:陈小帅
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1