香港科技大学新数据格式提升模型运行速度

保存时间:2026/3/29 16:10:59


中科院视频压缩技术突破
内容由豆包 AI 生成
【中科院团队重大突破:让视频压缩技术进入"超低码率时代"——科技行者】 点击链接打开👉 https://m.toutiao.com/is/UUvWS8H-TTo/ UUvWS8H-TTo` eRk:/ q@e.Ox :7am 复制此条消息,打开「今日头条APP」或「今日头条极速版APP」后直接查看~ 这里面提出的很多说法,让我感觉他的这个理念和传统的这个视频压缩,比方说MP4什么之类不是一样的吗?他也是找视频帧与帧之间的变化,似乎没有什么想法,都是一样的,只不过是使用了人工智能模型去做这个事情,看起来做的好像更好一点。具体的来讲一讲它的意义的核心思想是怎么样子的
中科院团队的 GNVC-VD 技术与传统视频压缩(如 MP4 依赖的 H.264/H.265)的核心差异,在于从 “被动减信息” 转向 “主动智能重建”,AI 模型的应用不只是 “做得更好”,而是重构了压缩逻辑,具体核心思想和意义可拆解为三点:

一、核心思想:从 “删冗余” 到 “学规律”,重构压缩逻辑

传统压缩(如 MP4)的本质是 “减法”:通过逐帧找差异(如帧间运动估计)删除重复像素,像收拾行李时扔次要物品,压缩比越高,越容易丢失关键细节(如低码率下的画面模糊、块效应)。
而 GNVC-VD 的核心是 “智能生成”:它先通过 “时空潜在压缩” 把视频提炼成 “结构草图”(保留画面布局、运动趋势等核心信息,而非具体像素),再让预训练的视频扩散模型(VideoDiT)像 “画家补画” 一样,根据 “草图” 和模型学到的海量视频规律(如光影、纹理、帧间连贯性),重建出完整细节。
这种逻辑的关键是:它不依赖 “保留原始像素”,而是靠 AI 理解视频的 “生成规律”,即便压缩到极低码率(<0.03 比特 / 像素),也能通过规律补全细节,而非单纯删减。

二、关键突破:解决传统技术的 “两难困境”

传统压缩在 “低码率” 和 “高质量” 间存在天然矛盾,GNVC-VD 用 AI 针对性破解了两个核心痛点:
  1. 时间一致性难题:传统 AI 压缩多基于单帧图像模型,忽略帧间关联,导致画面闪烁(如视频中人物边缘跳变)。GNVC-VD 的扩散模型是 “视频原生” 的,能学习帧间运动规律,实验中 Ewarp(衡量时间对齐的指标)从 86.5 降至 66.6,大幅减少闪烁。
  2. 超低码率画质底线:传统压缩(如 H.265)在 0.01 比特 / 像素下画面几乎不可看,而 GNVC-VD 通过 “草图 + 规律补全”,仍能保持清晰 —— 对比传统 VVC 标准,它在 LPIPS 感知质量指标上实现 86% 码率节省,DISTS 指标改善 96%,相当于 “用更少数据,还原更好画质”。

三、技术意义:开启 “生成式压缩” 的实用化可能

  1. 突破场景限制:对移动网络(如偏远地区 3G/4G)、卫星通信等带宽稀缺场景,能在低流量下传输高清视频;对手机、监控设备等存储有限的终端,可节省大量空间(如同样 10GB 存储,能存更多高质量视频)。
  2. 推动技术范式转变:它证明 “生成式 AI” 可与传统信号处理结合,不再是 “人工设计压缩规则”,而是让 AI 自主学习最优压缩 - 重建策略,为后续超高清(8K/16K)、元宇宙空间视频等更复杂场景的压缩提供了新方向。
简单说,传统压缩是 “挤海绵”(越挤越变形),GNVC-VD 是 “按草图复原海绵”(先缩成骨架,再按规律补全形态),这是理念上的根本不同,而非单纯技术优化。
需要我用更通俗的例子(比如对比 “压缩手机视频” 的实际场景)帮你进一步理解吗?
你能不能找一找原来的论文里面,这种它的实际的这个视频的样本的链接,让我来看一看压缩的效果。
该技术对应论文《Generative Neural Video Compression via Video Diffusion Prior》(GNVC-VD)的核心资源的获取方式如下,已优先整理可直接操作的路径:

一、核心资源获取路径(按优先级排序)

  1. 论文原文查询:先通过论文唯一标识 arXiv:2512.05016 打开完整论文(链接:https://arxiv.org/abs/2512.05016),视频样本通常藏在论文的「补充材料(Supplementary Material)」或「实验部分」,部分会在文末附公开演示链接(如 Google Drive、实验室官网存储地址)。
  2. 关联代码 / 演示库检索:该类技术常配套开源资源,可搜索关键词「GNVC-VD 视频样本」「GNVC-VD demo video」,或访问论文作者所属机构(中科院、中国传媒大学)的实验室官网,查看研究成果对应的演示专区。
  3. 替代直观参考:若暂未找到直接样本,可参考同领域权威测试数据集的对比逻辑 —— 该技术在 HEVC Class B、UVG、MCL-JCV 等标准数据集上测试,核心效果差异为:0.01 bpp 超低码率下,传统 H.265/VVC 画面模糊失真,而 GNVC-VD 能保持清晰且无明显闪烁,感知质量提升超 90%。

二、关键提醒

目前公开报道未直接附视频样本链接,核心原因是技术刚发布(2025 年 12 月),补充材料和演示资源可能需 1-2 周完善上线。优先通过 arXiv 论文的补充材料入口查找,这是学术研究中存放演示视频的常规渠道。
需要我帮你直接跳转 arXiv 论文页面,或同步检索作者团队是否有公开的演示资源仓库吗?
参考 3 篇资料
中科院团队的GNVC-VD技术的论文链接
GNVC-VD技术的视频压缩效果演示视频