看完图片、听懂语音、还能随时切换模型——用 Qwen 多模态 API + 模型路由代理,把你的 CLI 变成全能 AI 工作站。
"多模态"就是说 AI 不光能看文字,还能看图片、听语音、分析视频。不同的模型擅长不同的事情,我们可以让它们分工合作。
简单来说:DeepSeek 擅长写代码和推理,Qwen-VL 能看懂图片,Qwen-Omni 能听能说。我们的目标就是一个命令切换,让它们各展所长。
核心亮点:全自动!路由代理会自动检测你有没有发图片——发了就自动走 Qwen-VL(多模态),没发就走 DeepSeek(文本)。你完全不需要手动切,就像现在你发图给我、我自动识别一样。
核心思路:在 Claude Code 和真正的 AI 模型之间加一个"路由器",它会根据你用的模型名,自动把请求发到对应的后端。你只需要记住几条切换命令就行。
跟之前 DeepSeek 类似,你需要去阿里云的百炼平台(DashScope)注册,获取 Qwen 系列的 API Key。
去阿里云百炼平台,用手机号注册或登录。新用户有免费额度。
小提示:不需要另外设置 Claude Code 的环境变量——API Key 是写在路由代理配置文件里的,后面一步会说明。这一步你只需要把 Key 复制下来保存好就行。
模型路由代理是一个很小的程序,负责把请求"分发"到不同的 AI 模型上。你需要创建一个文件并启动它。
打开命令提示符(CMD),执行以下命令:
复制下面这整段代码,粘贴到终端(⌘V 或 Ctrl+V),然后按回车:
你的DeepSeekKey 和 你的阿里云百炼Key 要换成你自己的真实 Key。可以先粘贴后再去编辑这个文件。
粘贴完按回车后,再执行下面这行命令收尾(输入 ROUTEREOF 结束写入):
~/.claude/model-router.js,把上面那段代码复制进去。然后编辑你的 Key 就行。打开文件替换其中的 Key:
用键盘方向键移动光标,找到 你的DeepSeekKey 和 你的阿里云百炼Key,删掉它们改成你真正的 Key。
改完后按 Ctrl+X → 按 Y → 按 回车 保存退出。
先手动启动一次,看看能不能正常工作:
看到终端显示 🚀 模型路由代理启动 就说明成功了。
按 Ctrl+C 停止它,然后往下看——我们来设置开机自启。
不用每次手动启动!下面一步教会你设置开机自动运行,以后每次开机代理自己就启动了,完全不用管。
Windows 用 开机启动文件夹 实现。创建一个批处理脚本放进去即可。
在命令提示符里执行以下命令创建开机自启脚本:
这条命令会在开机启动文件夹创建一个快捷方式,让 Node.js 在后台静默运行路由代理。
然后现在先手动启动一次:
搞定!以后每次开机、重启,路由代理都会自动在后台悄悄运行。可以关掉这个命令提示符窗口了。用 call %USERPROFILE%\.claude\switch-model.bat status 随时检查运行状态。
路由代理已经跑起来了,现在创建一个简单的切换脚本,让你随时切换后端。
执行以下命令创建切换脚本:
复制下面整段代码,粘贴进去(⌘V / Ctrl+V),然后按 Ctrl+X → Y → 回车 保存:
给脚本添加执行权限:
在新终端窗口执行以下命令验证:
如果显示后端信息和当前模式,说明一切正常!现在你可以随时切换模型了。
路由部署好了、切换脚本有了。但最爽的是——你什么都不用切,直接发图,路由代理会自动识别并走 Qwen-VL。
保持默认的 deepseek 模式,路由代理会自动检测你发的内容中是否有图片。有图自动走 Qwen-VL,纯文本走 DeepSeek。
某些场景下你可能想强制用某个模型(比如知道接下来都要看图):
在终端执行:
启动 Claude Code:
启动后,你可以直接拖拽一张图片到终端窗口,Claude Code 会识别并询问你要做什么。
看完图了想切回写代码模式:
切换不影响当前对话:在 Claude Code 对话中切换模型,不需要退出重进,直接继续聊就行。模型会实时切换。
就像你现在跟我说话一样,在 Claude Code 的对话里,你可以直接打字告诉它你想换模型,比如:
跟聊天一样自然。Claude Code 会根据你的要求自动执行切换命令,你不需要记住命令语法。就像你现在跟我说"切到qwen-vl"一样。
| 路由指令/模型名 | 能力 | 适合场景 |
|---|---|---|
| 📝 文本模型(写代码、聊天、推理) | ||
qwen3.7-max | 最强推理+代码 | 复杂编程、数学推理、深度分析 |
qwen3.7-plus | 多模态+推理全能 | 日常使用,兼顾文本和图片(推荐默认) |
deepseek(切换脚本) | 代码专家 | 写代码、调试(教程默认) |
qwen3.6-flash | 快速便宜 | 简单问答、翻译、摘要,速度快 |
qwq-plus | 深度推理 | 数学题、逻辑题、需要"想很久"的问题 |
| 🖼️ 多模态·看图模型 | ||
qwen-vl(切换脚本) | 看图片、读截图 | 发图让它看(自动路由检测到图片时也会走这个) |
qwen3.7-plus | 最新多模态 Agent | 能看能推理,取代 qwen-vl 的新选择 |
qwen-vl-ocr | 文字识别专精 | 提取图片中的文字、扫描文档、翻译菜单 |
| 🎤 语音·多模态模型 | ||
qwen-omni(切换脚本) | 听、说、看、写 | 语音对话、视频分析、全能多模态任务 |
qwen3-omni-flash | 快速语音多模态 | 实时语音交互,速度快延迟低 |
最推荐的日常搭配:默认 DeepSeek 写代码,需要看图时说"切到qwen"——代理会自动检测图片走多模态。你也可以直接上 qwen3.7-plus,一个模型搞定文本+图片+推理,省去切换的麻烦。