Qwythos-9B 本地一键部署教程:llama.cpp 环境配置、GGUF量化选择、1M上下文与避坑指南


最近有不少朋友在问 Qwythos-9B 这个模型——一个体积只有9B、但号称支持1M(1,048,576 token)超长上下文,并且原生支持 function calling 的推理模型。本文整理了完整的本地部署流程,包括环境搭建、量化版本选择、长上下文的显存配置方式,以及部署过程中常见的坑。

在开始之前,有一点需要先说清楚: Qwythos-9B 的底座模型是阿里的开源模型 Qwen3.5-9B,发布方 Empero AI 使用其内部工具生成的推理数据对其进行了微调,训练数据里包含大量所谓”Claude Mythos / Claude Fable 对话痕迹”。也就是说,这个模型并非 Anthropic 官方发布,也不是 Claude 的官方衍生版本,命名中出现”Claude Mythos”只是描述了其训练数据来源,与 Anthropic 没有从属或合作关系。此外,该模型继承了一个”深度去审查”(uncensored)的底座,在网络攻防、药理学等高风险技术话题上不会主动拒绝或添加免责声明,如果你计划把它用在面向真实用户的产品里,务必自行加一层应用层的内容审核,不要直接暴露给终端用户。

一、硬件与环境要求

Qwythos-9B 本身只有9B参数量,单看模型体量对显卡不算太苛刻,但如果你想跑满官方标称的 1M 上下文窗口,情况就完全不同了:

  • 仅跑模型本体(短上下文,如16k-32k): 8GB显存即可流畅运行 Q4_K_M 量化版本
  • 中等上下文(256k-512k): 官方文档指出单张 H100/H200 级别显卡可以比较从容地处理
  • 完整 1M 上下文: 通常需要多卡张量并行,或者对 KV 缓存做激进的offload处理,消费级单卡很难直接吃满

如果你只是想本地测试模型效果,不追求超长上下文,用一张 12GB 显存的显卡(如 RTX 3060 12GB)配合较小的量化版本完全可以跑起来。

二、Windows 本地部署步骤(基于 llama.cpp)

第一步:安装编译依赖

以管理员身份打开 PowerShell,先确认已安装 Git、CMake 和 C++ 编译环境(Visual Studio Build Tools)。

第二步:克隆并编译 llama.cpp

git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split

编译完成后,二进制文件会出现在 llama.cpp/build/bin/ 目录下,把 llama-* 系列文件复制到 llama.cpp 根目录方便调用。

第三步:选择并下载 GGUF 量化版本

Empero AI 官方仓库提供了多种量化规格,如果你不确定选哪个,Q4_K_M 是最推荐的起点——它是体积最小、同时质量损失可接受的量化版本。常见选项对比:

量化版本大致体积适用场景
Q4_K_M~5.9GB消费级显卡首选,质量与体积平衡最好
Q5_K_M~6.7GB显存充裕时,质量略优于Q4
Q6_K~7.6GB追求更高质量保真度
Q8_0~9.8GB几乎无损,显存充足时使用
BF16~18.4GB全精度,仅推荐多卡或大显存场景

如果你的显卡支持,还可以选择带 MTP(Multi-Token Prediction) 的变体,配合投机解码(speculative decoding)可以带来1.5-3倍的生成速度提升。

第四步:启动模型(命令行测试)

llama-cli -m Qwythos-9B-Claude-Mythos-5-1M-Q4_K_M.gguf --temp 0.6 --top-p 0.95 --top-k 20 -c 16384

第五步:启动 API 服务(供程序调用)

llama-server -m Qwythos-9B-Claude-Mythos-5-1M-Q4_K_M.gguf -c 16384 --port 8080

启动后即可用标准 OpenAI 兼容的 /v1/chat/completions 接口进行调用,方便接入现有的自动化脚本或Excel/AI集成工作流。

三、关于 1M 超长上下文的配置

Qwythos-9B 通过 YaRN rope-scaling 技术把原生 262k 上下文扩展到了 1,048,576 token。如果你要测试完整的 1M 窗口:

llama-cli -m Qwythos-9B-Claude-Mythos-5-1M-Q4_K_M.gguf -c 1010000

建议:不要一开始就直接拉满 1M。 先从 32k、64k、128k 逐步测试,确认显存和推理速度都稳定之后再往上加,避免一开始就因为显存不足或KV缓存爆炸而反复重启调试。

四、常见部署问题与调优建议

Q:生成内容出现重复循环,一直卡在同一句话? A:这是官方文档明确提示过的已知问题。Qwythos 是推理模型,如果使用贪婪解码(greedy decoding)或者过低的temperature(T≤0.3),在长推理生成时容易陷入重复循环。官方推荐参数是 temperature=0.6、top_p=0.95、top_k=20,按这个设置基本可以避免。

Q:模型回复前面多了一段 <think>...</think>,怎么去掉? A:Qwythos 是推理模型,默认会先输出思考过程再给最终答案。如果你要接入面向用户的产品,需要自己在应用层做后处理,把 <think> 块过滤掉,只展示最终回答部分。

Q:需要用到图像识别功能,怎么配置? A:需要额外加载对应的视觉投影文件(mmproj),使用 llama-mtmd-cli 而非普通的 llama-cli

llama-mtmd-cli -m Qwythos-9B-Claude-Mythos-5-1M-Q4_K_M.gguf --mmproj mmproj-Qwythos-9B-Claude-Mythos-5-1M-F16.gguf --image ./photo.jpg -p "描述这张图片" --temp 0.6 --top-p 0.95 --top-k 20 -c 16384

需要注意的是,这个模型的视觉能力完全继承自 Qwen3.5-9B 底座,并未针对视觉任务单独训练或评测过,实际效果以底座模型表现为准。

Q:function calling 怎么调用? A:模型原生支持 Qwen3.5 规范的函数调用格式,不需要额外的wrapper或专门微调,直接按 Qwen3.5 的tool calling格式传参即可。

五、写在最后

Qwythos-9B 作为一个9B级别的开源模型,長上下文和推理能力的组合确实有一定吸引力,适合做整仓库代码分析、多文档研究这类场景的实验测试。但正如前文提到的,它是一个”深度去审查”的模型,官方也明确说明不会做安全拦截,如果你打算把它用在任何面向真实用户的场景里,请务必自行加一层内容审核机制,不要假设它会像主流商业模型一样有内置的安全护栏。


发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部