据动察 Beating 监测,Unsloth AI 宣布通过动态量化技术将智谱 AI 的 753B 参数大模型 GLM-5.2 体积压缩 80% 以上,并发布支持 Mac 本地部署的 GGUF 格式版本。通过动态 1-bit 和 2-bit 量化,原本高达 1.51 TB 的模型能够缩减至 217 GB(1-bit 变体)至 239 GB(2-bit UD-IQ2_M 变体),让普通开发者与中小企业仅凭单台 Mac Studio 即可本地离线部署运行。
量化版本在 Mac Studio M3 Ultra(256 GB 统一内存)设备上跑出了 21.6 tokens/s 的流畅速度,且保留了原始模型 76% 到 82% 的精度。在 Unsloth AI 发布的对比测试中,完全运行在本地时的 1-bit 级别 GLM-5.2 GGUF 面对编写带有独立像素风、音效和粒子系统的完整 HTML5 游戏(Flappy Bird 复刻版《Sunset Flier》)提示词,生成质量与 Claude 4.8 Opus 和 GPT-5.5 相当。
作为智谱 AI 推出的开源混合专家(MoE)模型,GLM-5.2 拥有 753B 总参数与 100 万 token 上下文。传统部署模式下运行超大模型必须搭建高昂的云端多卡算力集群,而动态量化方案的发布打破了硬件壁垒,大幅降低了个人与小型团队独立部署顶级开源模型的门槛。目前,GLM-5.2 GGUF 权重已在 Hugging Face 平台开放下载,用户能够通过 llama.cpp 或 Unsloth Studio 直接加载运行。