【技术实现步骤摘要】
本专利技术涉及用多媒体数据压缩,具体涉及基于自回归生成式大模型的多媒体数据压缩方法。
技术介绍
1、在多媒体数据压缩
,现有的通用压缩算法广泛应用于各种数据模态,包括文本、图片、音频和视频数据。这些算法通常基于变长编码方法设计,例如rar、zip、7z、bzip2、gzip等,它们在数据压缩方面取得了一定的成果。
2、针对特定类型的多媒体数据,也有专门设计的压缩算法,以期获得更好的压缩效果。例如,图片数据的压缩算法包括png、jpeg、webp;音频数据的压缩算法有flac、alac;视频数据的压缩算法则有mpeg、h.264等。这些专门算法在特定应用场景下表现出色,但它们通常针对某一类型的数据优化,缺乏通用性。
3、无论是通用算法还是专门算法,在进行无损压缩时,压缩比通常较低,这限制了它们在需要高压缩比的应用场景中的使用。这是因为传统的压缩方法依赖于各种统计量或香农熵,或其他可计算属性。这些方法虽然易于计算和实现,但经过多年的研究,性能已经达到了极限。
技术实现思路
...【技术保护点】
1.一种基于自回归生成式大模型的多媒体数据压缩方法,其特征在于,包括下列步骤:
2.根据权利要求1所述的基于自回归生成式大模型的多媒体数据压缩方法,其特征在于,在所述步骤S1中,对于文本数据,根据自然语言大模型的上下文窗口裁切成长度合适的文本串,之后分别投入文本分词器,从而使该文本数据全部转变为符号串。
3.根据权利要求1所述的基于自回归生成式大模型的多媒体数据压缩方法,其特征在于,在所述步骤S1中,对于图片数据,首先根据图片大模型的上下文窗口裁切成合适的子图片,将每张子图片的每行像素从上到下逐行连接,从而将二维的图片转化为一维的像素串,最后分
...【技术特征摘要】
1.一种基于自回归生成式大模型的多媒体数据压缩方法,其特征在于,包括下列步骤:
2.根据权利要求1所述的基于自回归生成式大模型的多媒体数据压缩方法,其特征在于,在所述步骤s1中,对于文本数据,根据自然语言大模型的上下文窗口裁切成长度合适的文本串,之后分别投入文本分词器,从而使该文本数据全部转变为符号串。
3.根据权利要求1所述的基于自回归生成式大模型的多媒体数据压缩方法,其特征在于,在所述步骤s1中,对于图片数据,首先根据图片大模型的上下文窗口裁切成合适的子图片,将每张子图片的每行像素从上到下逐行连接,从而将二维的图片转化为一维的像素串,最后分别投入图片分词器,从而使该图片数据全部转变为符号串。
4.根据权利要求1所述的基于自回归生成式大模型的多媒体数据压缩方法,其特征在于,在所述步骤s1中,对于音频数据,对于音频的每一帧,将其映射成一个合法的字符;此时一个音频被映射为一个长文本串,根据音频大模型的上下文窗口裁切成长度合适的文本串,之后分别投入文本分词器,从而使该文本数据全部转变为符号串。
5.根据权利要求4所述的基于自回归生成式大模型的多媒体数据压缩方法,...
【专利技术属性】
技术研发人员:李明,刘兴武,李子光,黄晁,王绪亮,胡海波,卜东波,于全,高文,
申请(专利权)人:中原人工智能产业技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。