Qwythos-9B 本地一键部署教程：llama.cpp 环境配置、GGUF量化选择、1M上下文与避坑指南

最近有不少朋友在问 Qwythos-9B 这个模型——一个体积只有9B、但号称支持1M（1,048,576 token）超长上下文，并且原生支持 function calling 的推理模型。本文整理了完整的本地部署流程，包括环境搭建、量化版本选择、长上下文的显存配置方式，以及部署过程中常见的坑。

在开始之前，有一点需要先说清楚： Qwythos-9B 的底座模型是阿里的开源模型 Qwen3.5-9B，发布方 Empero AI 使用其内部工具生成的推理数据对其进行了微调，训练数据里包含大量所谓”Claude Mythos / Claude Fable 对话痕迹”。也就是说，这个模型并非 Anthropic 官方发布，也不是 Claude 的官方衍生版本，命名中出现”Claude Mythos”只是描述了其训练数据来源，与 Anthropic 没有从属或合作关系。此外，该模型继承了一个”深度去审查”（uncensored）的底座，在网络攻防、药理学等高风险技术话题上不会主动拒绝或添加免责声明，如果你计划把它用在面向真实用户的产品里，务必自行加一层应用层的内容审核，不要直接暴露给终端用户。

一、硬件与环境要求

Qwythos-9B 本身只有9B参数量，单看模型体量对显卡不算太苛刻，但如果你想跑满官方标称的 1M 上下文窗口，情况就完全不同了：

仅跑模型本体（短上下文，如16k-32k）： 8GB显存即可流畅运行 Q4_K_M 量化版本
中等上下文（256k-512k）： 官方文档指出单张 H100/H200 级别显卡可以比较从容地处理
完整 1M 上下文： 通常需要多卡张量并行，或者对 KV 缓存做激进的offload处理，消费级单卡很难直接吃满

如果你只是想本地测试模型效果，不追求超长上下文，用一张 12GB 显存的显卡（如 RTX 3060 12GB）配合较小的量化版本完全可以跑起来。

二、Windows 本地部署步骤（基于 llama.cpp）

第一步：安装编译依赖

以管理员身份打开 PowerShell，先确认已安装 Git、CMake 和 C++ 编译环境（Visual Studio Build Tools）。

第二步：克隆并编译 llama.cpp

git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split

编译完成后，二进制文件会出现在 llama.cpp/build/bin/ 目录下，把 llama-* 系列文件复制到 llama.cpp 根目录方便调用。

第三步：选择并下载 GGUF 量化版本

Empero AI 官方仓库提供了多种量化规格，如果你不确定选哪个，Q4_K_M 是最推荐的起点——它是体积最小、同时质量损失可接受的量化版本。常见选项对比：

量化版本	大致体积	适用场景
Q4_K_M	~5.9GB	消费级显卡首选，质量与体积平衡最好
Q5_K_M	~6.7GB	显存充裕时，质量略优于Q4
Q6_K	~7.6GB	追求更高质量保真度
Q8_0	~9.8GB	几乎无损，显存充足时使用
BF16	~18.4GB	全精度，仅推荐多卡或大显存场景

如果你的显卡支持，还可以选择带 MTP（Multi-Token Prediction） 的变体，配合投机解码（speculative decoding）可以带来1.5-3倍的生成速度提升。

第四步：启动模型（命令行测试）

llama-cli -m Qwythos-9B-Claude-Mythos-5-1M-Q4_K_M.gguf --temp 0.6 --top-p 0.95 --top-k 20 -c 16384

第五步：启动 API 服务（供程序调用）

llama-server -m Qwythos-9B-Claude-Mythos-5-1M-Q4_K_M.gguf -c 16384 --port 8080

启动后即可用标准 OpenAI 兼容的 /v1/chat/completions 接口进行调用，方便接入现有的自动化脚本或Excel/AI集成工作流。

三、关于 1M 超长上下文的配置

Qwythos-9B 通过 YaRN rope-scaling 技术把原生 262k 上下文扩展到了 1,048,576 token。如果你要测试完整的 1M 窗口：

llama-cli -m Qwythos-9B-Claude-Mythos-5-1M-Q4_K_M.gguf -c 1010000

建议：不要一开始就直接拉满 1M。 先从 32k、64k、128k 逐步测试，确认显存和推理速度都稳定之后再往上加，避免一开始就因为显存不足或KV缓存爆炸而反复重启调试。

四、常见部署问题与调优建议

Q：生成内容出现重复循环，一直卡在同一句话？ A：这是官方文档明确提示过的已知问题。Qwythos 是推理模型，如果使用贪婪解码（greedy decoding）或者过低的temperature（T≤0.3），在长推理生成时容易陷入重复循环。官方推荐参数是 temperature=0.6、top_p=0.95、top_k=20，按这个设置基本可以避免。

Q：模型回复前面多了一段 <think>...</think>，怎么去掉？ A：Qwythos 是推理模型，默认会先输出思考过程再给最终答案。如果你要接入面向用户的产品，需要自己在应用层做后处理，把 <think> 块过滤掉，只展示最终回答部分。

Q：需要用到图像识别功能，怎么配置？ A：需要额外加载对应的视觉投影文件（mmproj），使用 llama-mtmd-cli 而非普通的 llama-cli：

llama-mtmd-cli -m Qwythos-9B-Claude-Mythos-5-1M-Q4_K_M.gguf --mmproj mmproj-Qwythos-9B-Claude-Mythos-5-1M-F16.gguf --image ./photo.jpg -p "描述这张图片" --temp 0.6 --top-p 0.95 --top-k 20 -c 16384

需要注意的是，这个模型的视觉能力完全继承自 Qwen3.5-9B 底座，并未针对视觉任务单独训练或评测过，实际效果以底座模型表现为准。

Q：function calling 怎么调用？ A：模型原生支持 Qwen3.5 规范的函数调用格式，不需要额外的wrapper或专门微调，直接按 Qwen3.5 的tool calling格式传参即可。

五、写在最后

Qwythos-9B 作为一个9B级别的开源模型，長上下文和推理能力的组合确实有一定吸引力，适合做整仓库代码分析、多文档研究这类场景的实验测试。但正如前文提到的，它是一个”深度去审查”的模型，官方也明确说明不会做安全拦截，如果你打算把它用在任何面向真实用户的场景里，请务必自行加一层内容审核机制，不要假设它会像主流商业模型一样有内置的安全护栏。