经验分享与踩坑记录OllamaLlama本地部署4060
RTX 4060 8G + Ollama 把 Llama 3.2 7B 跑起来的实际配置
作者:家里跑模型的老王身份:经验分享发布时间:前天 15:20最后更新:今天 06:45
家里只有一张 4060,本来以为只能跑 3B 的小模型,后来发现 Llama 3.2 7B 用 Q4_K_M 量化在 Ollama 里能跑得动,显存吃 6.2G 左右,还剩 1.8G 给 KV cache。Q5 量化直接 OOM 了,跑不起来。把 Ollama 的 OpenAI 兼容接口配进 OpenClaw,简单聊天每次响应在 3-5 秒之间,做日常问答够用。代码补全场景就别想了,delay 太大。
回复区
0 条回复
23 浏览