Unsloth极限压缩753B模型GLM-5.2，实现Mac本地流畅部署运行

星期三

06 / 25

星期三 2026-06-25 14:49

据动察 Beating 监测，Unsloth AI 宣布通过动态量化技术将智谱 AI 的 753B 参数大模型 GLM-5.2 体积压缩 80% 以上，并发布支持 Mac 本地部署的 GGUF 格式版本。通过动态 1-bit 和 2-bit 量化，原本高达 1.51 TB 的模型能够缩减至 217 GB（1-bit 变体）至 239 GB（2-bit UD-IQ2_M 变体），让普通开发者与中小企业仅凭单台 Mac Studio 即可本地离线部署运行。

量化版本在 Mac Studio M3 Ultra（256 GB 统一内存）设备上跑出了 21.6 tokens/s 的流畅速度，且保留了原始模型 76% 到 82% 的精度。在 Unsloth AI 发布的对比测试中，完全运行在本地时的 1-bit 级别 GLM-5.2 GGUF 面对编写带有独立像素风、音效和粒子系统的完整 HTML5 游戏（Flappy Bird 复刻版《Sunset Flier》）提示词，生成质量与 Claude 4.8 Opus 和 GPT-5.5 相当。

作为智谱 AI 推出的开源混合专家（MoE）模型，GLM-5.2 拥有 753B 总参数与 100 万 token 上下文。传统部署模式下运行超大模型必须搭建高昂的云端多卡算力集群，而动态量化方案的发布打破了硬件壁垒，大幅降低了个人与小型团队独立部署顶级开源模型的门槛。目前，GLM-5.2 GGUF 权重已在 Hugging Face 平台开放下载，用户能够通过 llama.cpp 或 Unsloth Studio 直接加载运行。