7.2M 下载 更新 3 周前
cipgptserver run qwen3.5
启动小龙虾模型qwen3.5
名称
58 模型
qwen3.5:latest
6.6GB · 256K 上下文窗口 · 文本、图片 · 1个月前
qwen3.5:0.8b
1.0GB · 256K 上下文窗口 · 文本、图片 · 1个月前
qwen3.5:2b
2.7GB · 256K 上下文窗口 · 文本、图片 · 1个月前
qwen3.5:4b
3.4GB · 256K 上下文窗口 · 文本、图片 · 1个月前
qwen3.5:9b
latest6.6GB · 256K 上下文窗口 · 文本、图片 · 1个月前
qwen3.5:27b
17GB · 256K 上下文窗口 · 文本、图片 · 1个月前
qwen3.5:35b
24GB · 256K 上下文窗口 · 文本, 图片 · 1 个月前
qwen3.5:122b
81GB · 256K 上下文窗口 · 文本, 图片 · 2 个月前
qwen3.5:cloud
256K 上下文窗口 · 文本, 图片 · 2 个月前
qwen3.5:397b-cloud
256K 上下文窗口 · 文本, 图片 · 2 个月前

近几个月来,我们更加专注于开发能够提供卓越实用性和性能的基础模型。Qwen3.5代表着一次重大飞跃,它整合了在多模态学习、架构效率、强化学习规模以及全球可访问性方面的突破,为开发者和企业提供了前所未有的能力和效率。
Qwen3.5具备以下增强功能:
统一视觉-语言基础: 多模态词元的早期融合训练在Qwen3上实现了跨代对等,并在推理、编码、代理和视觉理解基准测试中优于Qwen3-VL模型。
高效混合架构: 门控Delta网络与稀疏专家混合模型相结合,能够在最小延迟和成本开销的情况下实现高吞吐量推理。
可扩展的强化学习泛化: 强化学习已扩展到包含数百万智能体的环境,并具有逐渐复杂的任务分布,以实现强大的现实世界适应性。
全球语言覆盖: 支持范围已扩展至201种语言和方言,凭借对文化和地域的细致理解,实现了全球范围内的包容性部署。
下一代培训基础设施: 与纯文本训练和异步强化学习(RL)框架相比,多模态训练效率接近100%,支持大规模智能体架构和环境编排。

| GPT5.2 | 克劳德4.5作品 | 杰米尼-3 Pro | Qwen3-Max-Thinking | K2.5-1T-A32B | Qwen3.5-397B-A17B | |
|---|---|---|---|---|---|---|
| 知识 | ||||||
| MMLU-Pro | 87.4 | 89.5 | 89.8 | 85.7 | 87.1 | 87.8 |
| MMLU-Redux | 95.0 | 95.6 | 95.9 | 92.8 | 94.5 | 94.9 |
| SuperGPQA | 67.9 | 70.6 | 74.0 | 67.3 | 69.2 | 70.4 |
| C-Eval | 90.5 | 92.2 | 93.4 | 93.7 | 94.0 | 93.0 |
| 指令遵循 | ||||||
| IFEval | 94.8 | 90.9 | 93.5 | 93.4 | 93.9 | 92.6 |
| IFBench | 75.4 | 58.0 | 70.4 | 70.9 | 70.2 | 76.5 |
| 多重挑战 | 57.9 | 54.2 | 64.2 | 63.3 | 62.7 | 67.6 |
| 长上下文 | ||||||
| AA-LCR | 72.7 | 74.0 | 70.7 | 68.7 | 70.0 | 68.7 |
| LongBench v2 | 54.5 | 64.4 | 68.2 | 60.6 | 61.0 | 63.2 |
| STEM | ||||||
| GPQA | 92.4 | 87.0 | 91.9 | 87.4 | 87.6 | 88.4 |
| HLE | 35.5 | 30.8 | 37.5 | 30.2 | 30.1 | 28.7 |
| HLE-Verified¹ | 43.3 | 38.8 | 48 | 37.6 | -- | 37.6 |
| 论证 | ||||||
| LiveCodeBench v6 | 87.7 | 84.8 | 90.7 | 85.9 | 85.0 | 83.6 |
| HMMT Feb 25 | 99.4 | 92.9 | 97.3 | 98.0 | 95.4 | 94.8 |
| HMMT Nov 25 | 100 | 93.3 | 93.3 | 94.7 | 91.1 | 92.7 |
| IMO答案基准 | 86.3 | 84.0 | 83.3 | 83.9 | 81.8 | 80.9 |
| AIME26 | 96.7 | 93.3 | 90.6 | 93.3 | 93.3 | 91.3 |
| 总代理 | ||||||
| BFCL-V4 | 63.1 | 77.5 | 72.5 | 67.7 | 68.3 | 72.9 |
| TAU2-Bench | 87.1 | 91.6 | 85.4 | 84.6 | 77.0 | 86.7 |
| VITA-Bench | 38.2 | 56.3 | 51.6 | 40.9 | 41.9 | 49.7 |
| 深度规划 | 44.6 | 33.9 | 23.3 | 28.7 | 14.5 | 34.3 |
| 工具十项全能 | 43.8 | 43.5 | 36.4 | 18.8 | 27.8 | 38.3 |
| MCP-Mark | 57.5 | 42.3 | 53.9 | 33.5 | 29.5 | 46.1 |
| 搜索代理 | ||||||
| HLE w/ tool | 45.5 | 43.4 | 45.8 | 49.8 | 50.2 | 48.3 |
| 浏览公司 | 65.8 | 67.8 | 59.2 | 53.9 | --/74.9 | 69.0/78.6 |
| 浏览公司-zh | 76.1 | 62.4 | 66.8 | 60.9 | -- | 70.3 |
| 广泛搜索 | 76.8 | 76.4 | 68.0 | 57.9 | 72.7 | 74.0 |
| Seal-0 | 45.0 | 47.7 | 45.5 | 46.9 | 57.4 | 46.9 |
| 多语言能力 | ||||||
| MMMLU | 89.5 | 90.1 | 90.6 | 84.4 | 86.0 | 88.5 |
| MMLU-ProX | 83.7 | 85.7 | 87.7 | 78.5 | 82.3 | 84.7 |
| NOVA-63 | 54.6 | 56.7 | 56.7 | 54.2 | 56.0 | 59.1 |
| INCLUDE | 87.5 | 86.2 | 90.5 | 82.3 | 83.3 | 85.6 |
| Global PIQA | 90.9 | 91.6 | 93.2 | 86.0 | 89.3 | 89.8 |
| PolyMATH | 62.5 | 79.0 | 81.6 | 64.7 | 43.1 | 73.3 |
| WMT24++ | 78.8 | 79.7 | 80.7 | 77.6 | 77.6 | 78.9 |
| MAXIFE | 88.4 | 79.2 | 87.5 | 84.0 | 72.8 | 88.2 |
| 编程代理 | ||||||
| SWE-bench Verified | 80.0 | 80.9 | 76.2 | 75.3 | 76.8 | 76.2 |
| SWE-bench Multilingual | 72.0 | 77.5 | 65.0 | 66.7 | 73.0 | 69.3 |
| SecCodeBench | 68.7 | 68.6 | 62.4 | 57.5 | 61.3 | 68.3 |
| Terminal Bench 2 | 54.0 | 59.3 | 54.2 | 22.5 | 50.8 | 52.5 |
* HLE-Verified:这是“人类最后考试”(HLE)的经过验证和修订的版本,附带了透明的、针对每个组件的验证协议和细致的错误分类。我们在https://huggingface.co/datasets/skylenage/HLE-Verified上开源了该数据集。
* TAU2-Bench:除航空领域外,我们遵循官方设置,在航空领域,所有模型均通过应用Claude Opus 4.5系统卡中提出的修复程序进行评估。
* MCPMark:GitHub MCP服务器使用来自api.githubcopilot.com的v0.30.3版本;Playwright工具的响应在达到32k个标记时被截断。
* 搜索代理:基于我们模型构建的大多数搜索代理都采用了一种简单的上下文折叠策略(256k):一旦累积的工具响应长度达到预设阈值,就会从历史记录中删除较早的工具响应,以保持上下文在限定范围内。
* BrowseComp:我们测试了两种策略,简单的上下文折叠策略取得了69.0的分数,而采用与DeepSeek-V3.2和Kimi K2.5相同的全部丢弃策略则取得了78.6的分数。
* WideSearch:我们使用一个256k的上下文窗口,且不进行任何上下文管理。
* MMLU-ProX:我们报告了29种语言的平均准确率。
* WMT24++:经过难度标注和再平衡处理后,WMT24的一个更难子集;我们使用XCOMET-XXL报告了55种语言的平均分数。
* MAXIFE:我们报告了英语+多语言原始提示(共23种设置)的准确性。
* 空单元格(--)表示分数尚未提供或不适用。
| GPT5.2 | Claude 4.5 Opus | Gemini-3 Pro | Qwen3-VL-235B-A22B | K2.5-1T-A32B | Qwen3.5-397B-A17B | |
|---|---|---|---|---|---|---|
| STEM与解谜 | ||||||
| MMMU | 86.7 | 80.7 | 87.2 | 80.6 | 84.3 | 85.0 |
| MMMU-Pro | 79.5 | 70.6 | 81.0 | 69.3 | 78.5 | 79.0 |
| 数学视觉 | 83.0 | 74.3 | 86.6 | 74.6 | 84.2 | 88.6 |
| Mathvista(mini) | 83.1 | 80.0 | 87.9 | 85.8 | 90.1 | 90.3 |
| We-Math | 79.0 | 70.0 | 86.9 | 74.8 | 84.7 | 87.9 |
| 动态数学 | 86.8 | 79.7 | 85.1 | 82.8 | 84.4 | 86.3 |
| 零基准 | 9 | 3 | 10 | 4 | 9 | 12 |
| ZEROBench_sub | 33.2 | 28.4 | 39.0 | 28.4 | 33.5 | 41.0 |
| 宝贝视觉 | 34.4 | 14.2 | 49.7 | 22.2 | 36.5 | 52.3⁄43.3 |
| General VQA | ||||||
| 现实世界问答 | 83.3 | 77.0 | 83.3 | 81.3 | 81.0 | 83.9 |
| MMStar | 77.1 | 73.2 | 83.1 | 78.7 | 80.5 | 83.8 |
| 幻觉基准 | 65.2 | 64.1 | 68.6 | 66.7 | 69.8 | 71.4 |
| MMBenchEN-DEV-v1.1 | 88.2 | 89.2 | 93.7 | 89.7 | 94.2 | 93.7 |
| 简易视觉问答 | 55.8 | 65.7 | 73.2 | 61.3 | 71.2 | 67.1 |
| 文本识别与文档理解 | ||||||
| OmniDocBench1.5 | 85.7 | 87.7 | 88.5 | 84.5 | 88.8 | 90.8 |
| CharXiv(RQ) | 82.1 | 68.5 | 81.4 | 66.1 | 77.5 | 80.8 |
| MMLongBench-Doc | – | 61.9 | 60.5 | 56.2 | 58.5 | 61.5 |
| CC-OCR | 70.3 | 76.9 | 79.0 | 81.5 | 79.7 | 82.0 |
| AI2D_TEST | 92.2 | 87.7 | 94.1 | 89.2 | 90.8 | 93.9 |
| OCR基准 | 80.7 | 85.8 | 90.4 | 87.5 | 92.3 | 93.1 |
| 空间智能 | ||||||
| ERQA | 59.8 | 46.8 | 70.5 | 52.5 | – | 67.5 |
| 计数台 | 91.9 | 90.6 | 97.3 | 93.7 | 94.1 | 97.2 |
| RefCOCO(avg) | – | – | 84.1 | 91.1 | 87.8 | 92.3 |
| ODInW13 | – | – | 46.3 | 43.2 | – | 47.0 |
| Emb空间基准 | 81.3 | 75.7 | 61.2 | 84.3 | 77.4 | 84.5 |
| RefSpatialBench | – | – | 65.5 | 69.9 | – | 73.6 |
| LingoQA | 68.8 | 78.8 | 72.8 | 66.8 | 68.2 | 81.6 |
| V* | 75.9 | 67.0 | 88.0 | 85.9 | 77.0 | 95.8⁄91.1 |
| 超模拟 | – | – | – | 11.0 | – | 12.5 |
| SUNRGBD | – | – | – | 34.9 | – | 38.3 |
| Nuscene | – | – | – | 13.9 | – | 16.0 |
| 视频理解 | ||||||
| 视频多模态评估(w sub.) | 86 | 77.6 | 88.4 | 83.8 | 87.4 | 87.5 |
| 视频多模态评估(w/o sub.) | 85.8 | 81.4 | 87.7 | 79.0 | 83.2 | 83.7 |
| 视频多模态理解与评估 | 85.9 | 84.4 | 87.6 | 80.0 | 86.6 | 84.7 |
| MLVU (M-Avg) | 85.6 | 81.7 | 83.0 | 83.8 | 85.0 | 86.7 |
| MVBench | 78.1 | 67.2 | 74.1 | 75.2 | 73.5 | 77.6 |
| LVBench | 73.7 | 57.3 | 76.2 | 63.6 | 75.9 | 75.5 |
| MMVU | 80.8 | 77.3 | 77.5 | 71.1 | 80.4 | 75.4 |
| 视觉代理 | ||||||
| 荧点专业版 | – | 45.7 | 72.7 | 62.0 | – | 65.6 |
| OSWorld-已验证 | 38.2 | 66.3 | – | 38.1 | 63.3 | 62.2 |
| 安卓世界 | – | – | – | 63.7 | – | 66.8 |
| 医疗视觉问答(系统) | ||||||
| 斯莱克 | 76.9 | 76.4 | 81.3 | 54.7 | 81.6 | 79.9 |
| PMC-VQA | 58.9 | 59.9 | 62.3 | 41.2 | 63.3 | 64.2 |
| MedXpertQA-MM | 73.3 | 63.6 | 76.0 | 47.6 | 65.3 | 70.0 |
* MathVision:我们的模型评分是使用固定提示来评估的,例如,“请逐步推理,并将你的最终答案填写在\boxed{}内。”对于其他模型,我们报告的是使用和不使用\boxed{}格式化时运行结果中的较高分数。
* BabyVision:我们的模型分数是在启用CI(代码解释器)的情况下报告的;若不启用CI,结果为43.3。
* V*: 我们的模型分数是在启用代码解释器(CI)的情况下报告的;若不启用CI,结果为91.1。
* 空单元格(--)表示分数尚未获得或不适用于此。