【长推】除了 AI 本地化下沉外，AI 赛道近期还有什么变化？

快链头条 2025-07-07 04:14:55

阅读 5,837

技术价值突破方面，一个多模态视频生成的复杂度往往是指数级的，单帧图像生成大概 10^6 个像素点，视频要保证时序连贯性（至少 100 帧），再加上音频同步（每秒 10^4 个采样点），还要考虑 3D 空间一致性。综合下来，技术复杂度可不低，原本都是一个超大模型硬刚所有任务，据说 Sora 烧了数万张 H100 才具备的视频生成能力。现在可以通过模块化分解 + 大模型分工协作来实现。比如，字节的 EX-4D 实际上是把复杂任务拆解成：深度估计模块、视角转换模块、时序插值模块、渲染优化模块等等。每个模块专门干一件事，然后通过协调机制配合。成本缩减方面，背后其实推理架构本身的优化，包括分层生成策略，先低分辨率生成骨架再高分辨增强成像内容；缓存复用机制，就是相似场景的复用；动态资源分配，其实就是根据具体内容复杂度调整模型深度。这样一套优化下来，才会有抖音 ContentV 的 3.67 元 / 5 秒的结果。应用冲击方面，传统视频制作是重资产游戏：设备、场地、演员、后期，一个 30 秒广告片几十万制作费很正常。现在 AI 把这套流程压缩到 Prompt + 几分钟等待，而且能实现传统拍摄难以达到的视角和特效。这样一来就把原本视频制作存在的技术和资金门槛变成了创意和审美，可能会促进整个创作者经济的再洗牌。问题来了，说这么多 Web2AI 技术需求端的变化，和 Web3AI 有啥关系呢？首先，算力需求结构的改变，以前 AI 拼算力规模，谁有更多同质化的 GPU 集群谁就赢，但多模态视频生成需求的是多样化的算力组合，对于分布式的闲置算力，以及各个分布式微调模型、算法、推理平台上都可能产生需求；其次，数据标注的需求也会加强，生成一个专业级视频需要：精准的场景描述、参考图像、音频风格、摄像机运动轨迹、光照条件等等都会成为专业的数据标注新需求，用 web3 的激励方式，可以刺激摄影师、音效师、3D 艺术家等提供专业的数据素，用专业垂类的数据标注增强 AI 视频生成的能力。\n原文链接