【技术实现步骤摘要】
GRU编解码器训练方法、音频的摘要生成方法及装置
本申请涉及人工智能
,尤其涉及一种GRU编解码器训练方法、音频的摘要生成方法及装置。
技术介绍
随着智能终端设备(智能手机、平板电脑等)的迅猛发展与成熟,以智能终端设备为依托的多媒体(音视频等)业务也得到了巨大的发展,各种音视频网站及应用软件层出不穷(例如,喜马拉雅、抖音、快手等)。用户可以在这些应用软件上上传或者搜索以收听或者观看自己感兴趣的内容。但目前用于表征音视频内容的往往是上传者自己给出的命名,而且实践发现,上传者自行命名的内容往往存在于音视频实际内容不符(例如,上传这往往仅仅为了骗取点击量,将自己上传的音视频命名为当前的热点事件,以达到蹭热点的目的)。这就导致搜索相关内容的人往往搜索得到的内容是与预期内容不相同的,影响了用户体验。为此,音视频应用软件运营方只能采用人工方式对用户上传的内容进行标注并与相应音视频关联存储。这种方式不但耗时耗力,人工成本极高。而且由于限制于标注着个人的认知能力,对音视频的标注往往缺乏多样性,以至于当用户搜索是采用了不同于标注内容表述形式时无法搜索到实际匹配的音视频内容。专 ...
【技术保护点】
1.一种GRU编解码器训练方法,所述GRU编解码器用于生成待描述音频的摘要,所述方法包括:将样本音频分割为多个子样本音频片段;获取所述多个子样本音频片段的样本Fbank滤波器特征;将所述样本Fbank滤波器特征输入至待训练GRU编码器,以得到固定长度的样本特征向量;将所述样本特征向量输入至待训练GRU解码器,以得到相应的样本词向量嵌入;根据对应于所述样本音频的样本标注语句生成相应的参考样本词向量嵌入;根据所述样本词向量嵌入和所述参考样本词向量嵌入生成词级交叉熵损失;至少基于所述词级交叉熵损失对所述待训练GRU解码器和所述待训练GRU编码器的网络参数进行优化调整。
【技术特征摘要】
1.一种GRU编解码器训练方法,所述GRU编解码器用于生成待描述音频的摘要,所述方法包括:将样本音频分割为多个子样本音频片段;获取所述多个子样本音频片段的样本Fbank滤波器特征;将所述样本Fbank滤波器特征输入至待训练GRU编码器,以得到固定长度的样本特征向量;将所述样本特征向量输入至待训练GRU解码器,以得到相应的样本词向量嵌入;根据对应于所述样本音频的样本标注语句生成相应的参考样本词向量嵌入;根据所述样本词向量嵌入和所述参考样本词向量嵌入生成词级交叉熵损失;至少基于所述词级交叉熵损失对所述待训练GRU解码器和所述待训练GRU编码器的网络参数进行优化调整。2.根据权利要求1所述的方法,其中,所述根据对应于所述样本音频的样本标注语句生成相应的参考样本词向量嵌入包括:将对应于所述样本音频的样本标注语句输入至预训练的BERT网络模型,以得到相应的参考样本词向量嵌入。3.根据权利要求1所述的方法,其中,所述样本标注语句包括多个不同表述形式的子样本标注语句;所述根据对应于所述样本音频的样本标注语句生成相应的参考样本词向量嵌入包括:将所述多个不同表述形式的子样本标注语句依次输入至预训练的BERT网络模型以得到多个子参考样本词向量嵌入;基于所述多个子参考样本词向量嵌入确定所述参考样本词向量嵌入。4.根据权利要求1所述的方法,其中,还包括:自所述待训练GRU解码器的隐层提取对应于所述样本特征向量的样本隐层向量;根据对应于所述样本音频的样本标注语句生成相应的参考样本句子向量嵌入;根据所述样本隐层向量和所述参考样本句子向量嵌入生成句级损失;至少基于所述词级交叉熵损失对所述待训练GRU解码器和所述待训练GRU编码器的网络参数进行优化调整包括:基于所述词级交叉熵损失和所述句级损失对所述待训练GRU解码器和所述待训练GRU编码器的网络参数进行优化调整。5.一种音频的摘要生成方法,包括:将待描述音频分割为多个子音频片段;获取所述多个子音频片段的Fbank滤波器特征;采用预先训练的GRU编码器将所述Fbank滤波器特征转化为固定长度的特征向量;采用预先训练的GRU解码器对所述特征向量进行解码,以得到用于描述所述待描述音频的摘要;其中,所述G...
【专利技术属性】
技术研发人员:吴梦玥,俞凯,徐薛楠,丁翰林,
申请(专利权)人:苏州思必驰信息科技有限公司,上海交通大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。