【技术实现步骤摘要】
模型训练方法、信息提取方法、相关装置及存储介质
[0001]本申请涉及计算机
,尤其涉及一种模型训练方法、信息提取方法、相关装置及存储介质。
技术介绍
[0002]目前互联网的普及率越来越高,网民数量也不断增加,越来越多的人通过视频等多模态数据来记录并且分享生活。在创作短视频过程中不仅需要准备视频内容、音频内容以及文字,而且还需要考虑如何生成高质量的文案或标题吸引更多的用户观看。目前的文案生成方法主要是通过人工编写等方式生成,通常会导致生成的文案质量低、生成效率低等问题。
技术实现思路
[0003]本申请实施例提供了一种模型训练方法、信息提取方法、相关装置及存储介质,可以快速准确地提取目标信息。
[0004]为解决以上技术问题,本申请包括以下技术方案:
[0005]第一方面,本申请实施例提供了一种模型训练方法,所述方法包括:
[0006]获取N个样本数据;每个所述样本数据包括M种类别的子数据;其中,N个所述样本数据包括的所述M种类别的子数据对应M
×
N个子数据对,每个所述子数据对包括M个子数据,每个所述子数据所属的类别不同,每个子数据对包括的M个子数据之间对应一个关联关系,每个所述样本数据包括的M种类别的子数据相互关联,所述M和N均为大于或等于2的正整数;
[0007]将所述M
×
N个子数据对输入到预设模型中进行训练,生成每种类别的子数据各自对应的预训练模型;其中,所述预设模型用于计算每个子数据对包括的M个子数据之间的相似度,并 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:获取N个样本数据;每个所述样本数据包括M种类别的子数据;其中,N个所述样本数据包括的所述M种类别的子数据对应M
×
N个子数据对,每个所述子数据对包括M个子数据,每个所述子数据所属的类别不同,每个子数据对包括的M个子数据之间对应一个关联关系,每个所述样本数据包括的M种类别的子数据相互关联,所述M和N均为大于或等于2的正整数;将所述M
×
N个子数据对输入到预设模型中进行训练,生成每种类别的子数据各自对应的预训练模型;其中,所述预设模型用于计算每个子数据对包括的M个子数据之间的相似度,并根据所述M
×
N个子数据对各自包括的M个子数据之间的相似度确定每一种数据类别各自对应的向量表示空间。2.如权利要求1所述的方法,其特征在于,所述将所述M
×
N个子数据对输入到预设模型中进行训练,生成每种类别的子数据各自对应的预训练模型,包括:将所述M
×
N个子数据对输入到预设模型中;根据所述M
×
N个子数据对包括的M个子数据之间的关联关系对所述预设模型进行训练,生成每种类别的子数据各自对应的预训练模型。3.一种信息提取方法,其特征在于,所述方法包括:获取待处理数据,所述待处理数据包括至少一种类别的待处理子数据;将所述至少一种类别的待处理子数据输入到各个所述待处理子数据的类别各自对应的预训练模型中,得到所述待处理数据对应的向量信息;其中,所述预训练模型为采用权利要求1所述的模型训练方法得到的预训练模型;根据所述向量信息提取所述待处理数据携带的目标信息。4.如权利要求3所述的方法,其特征在于,所述将所述至少一种类别的待处理子数据输入到各个所述待处理子数据的类别各自对应的预训练模型中,得到所述待处理数据对应的向量信息,包括:将所述至少一种类别的待处理子数据输入到各个所述待处理子数据的类别各自对应的预训练模型中,得到所述待处理子数据各自对应的向量信息;对所述待处理子数据各自对应的向量信息进行特征融合操作,得到所述待处理数据对应的向量信息;其中,所述特征融合操作包括以下至少一项:拼接操作、池化操作。5.如权利要求3所述的方法,其特征在于,所述根据所述向量信息提取所述待处理数据携带的目标信息,包括:对所述向量信息进行正则化处理;根据处理后的向量信息提取所述待处理数据携带的目标信息。6.如权利要求4所述的方法,其特征在于,所述待处理数据包括至少两种类别的待处理子数据;所述将所述至少一种类别的待处理子数据输入到各个所述待处理子数据的类别各自对应的预训练模型中之后,还包...
【专利技术属性】
技术研发人员:刘曙铭,
申请(专利权)人:成都欧珀通信科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。