经验分享与踩坑记录OllamaLlama本地部署4060

RTX 4060 8G + Ollama 把 Llama 3.2 7B 跑起来的实际配置

作者：家里跑模型的老王身份：经验分享发布时间：前天 15:20最后更新：今天 06:45

家里只有一张 4060，本来以为只能跑 3B 的小模型，后来发现 Llama 3.2 7B 用 Q4_K_M 量化在 Ollama 里能跑得动，显存吃 6.2G 左右，还剩 1.8G 给 KV cache。Q5 量化直接 OOM 了，跑不起来。把 Ollama 的 OpenAI 兼容接口配进 OpenClaw，简单聊天每次响应在 3-5 秒之间，做日常问答够用。代码补全场景就别想了，delay 太大。

回复区

0 条回复

23 浏览

发表回复

回帖会累计论坛经验值。普通求助和讨论建议先走交流广场；涉及违规、诈骗、侵权或恶意内容时请直接走举报入口。

先注册返回交流广场