8G显存跑35G模型,部署教程。
1 小时前1 浏览综合
新技术 8G 显存可以跑 35B 的模型了,我 12G 显存,显存才吃了一半。
35B 的千问 3.6 Q4_K_M,模型文件都有 20G 了,加载完后显存约占用 6G,测试速度居然有 30 tokens/s。我直接把上下文 256K 拉满配置到上限,才占 9G 左右显存,依然 30+ tokens/s。
然后我通过 cc-switch 接入到 Claude Code,居然真能用。测试做个网页,代码一次性通过。新技术 666,Claude Code 66,千问 3.6 666。
最后,这必须是混合专家模型才能实现:35B 模型,每次激活约 3B。如果普通模型直接爆显存。
最后一张图是部署教程。











