7.2M 3 周前

千问 3.5是一系列开源多模态模型,具有卓越的实用性和性能。

视野 工具 思考 0.8b 2b 4b 9b 27b 35b 122b
cipgptserver run qwen3.5

应用程序

OpenClaw
小龙虾 启动小龙虾模型qwen3.5

自述文件

近几个月来,我们更加专注于开发能够提供卓越实用性和性能的基础模型。Qwen3.5代表着一次重大飞跃,它整合了在多模态学习、架构效率、强化学习规模以及全球可访问性方面的突破,为开发者和企业提供了前所未有的能力和效率。

亮点

Qwen3.5具备以下增强功能:

  • 统一视觉-语言基础: 多模态词元的早期融合训练在Qwen3上实现了跨代对等,并在推理、编码、代理和视觉理解基准测试中优于Qwen3-VL模型。

  • 高效混合架构: 门控Delta网络与稀疏专家混合模型相结合,能够在最小延迟和成本开销的情况下实现高吞吐量推理。

  • 可扩展的强化学习泛化: 强化学习已扩展到包含数百万智能体的环境,并具有逐渐复杂的任务分布,以实现强大的现实世界适应性。

  • 全球语言覆盖: 支持范围已扩展至201种语言和方言,凭借对文化和地域的细致理解,实现了全球范围内的包容性部署。

  • 下一代培训基础设施: 与纯文本训练和异步强化学习(RL)框架相比,多模态训练效率接近100%,支持大规模智能体架构和环境编排。

Benchmarks

benchmark

Language

GPT5.2 克劳德4.5作品 杰米尼-3 Pro Qwen3-Max-Thinking K2.5-1T-A32B Qwen3.5-397B-A17B
知识
MMLU-Pro 87.4 89.5 89.8 85.7 87.1 87.8
MMLU-Redux 95.0 95.6 95.9 92.8 94.5 94.9
SuperGPQA 67.9 70.6 74.0 67.3 69.2 70.4
C-Eval 90.5 92.2 93.4 93.7 94.0 93.0
指令遵循
IFEval 94.8 90.9 93.5 93.4 93.9 92.6
IFBench 75.4 58.0 70.4 70.9 70.2 76.5
多重挑战 57.9 54.2 64.2 63.3 62.7 67.6
长上下文
AA-LCR 72.7 74.0 70.7 68.7 70.0 68.7
LongBench v2 54.5 64.4 68.2 60.6 61.0 63.2
STEM
GPQA 92.4 87.0 91.9 87.4 87.6 88.4
HLE 35.5 30.8 37.5 30.2 30.1 28.7
HLE-Verified¹ 43.3 38.8 48 37.6 -- 37.6
论证
LiveCodeBench v6 87.7 84.8 90.7 85.9 85.0 83.6
HMMT Feb 25 99.4 92.9 97.3 98.0 95.4 94.8
HMMT Nov 25 100 93.3 93.3 94.7 91.1 92.7
IMO答案基准 86.3 84.0 83.3 83.9 81.8 80.9
AIME26 96.7 93.3 90.6 93.3 93.3 91.3
总代理
BFCL-V4 63.1 77.5 72.5 67.7 68.3 72.9
TAU2-Bench 87.1 91.6 85.4 84.6 77.0 86.7
VITA-Bench 38.2 56.3 51.6 40.9 41.9 49.7
深度规划 44.6 33.9 23.3 28.7 14.5 34.3
工具十项全能 43.8 43.5 36.4 18.8 27.8 38.3
MCP-Mark 57.5 42.3 53.9 33.5 29.5 46.1
搜索代理
HLE w/ tool 45.5 43.4 45.8 49.8 50.2 48.3
浏览公司 65.8 67.8 59.2 53.9 --/74.9 69.0/78.6
浏览公司-zh 76.1 62.4 66.8 60.9 -- 70.3
广泛搜索 76.8 76.4 68.0 57.9 72.7 74.0
Seal-0 45.0 47.7 45.5 46.9 57.4 46.9
多语言能力
MMMLU 89.5 90.1 90.6 84.4 86.0 88.5
MMLU-ProX 83.7 85.7 87.7 78.5 82.3 84.7
NOVA-63 54.6 56.7 56.7 54.2 56.0 59.1
INCLUDE 87.5 86.2 90.5 82.3 83.3 85.6
Global PIQA 90.9 91.6 93.2 86.0 89.3 89.8
PolyMATH 62.5 79.0 81.6 64.7 43.1 73.3
WMT24++ 78.8 79.7 80.7 77.6 77.6 78.9
MAXIFE 88.4 79.2 87.5 84.0 72.8 88.2
编程代理
SWE-bench Verified 80.0 80.9 76.2 75.3 76.8 76.2
SWE-bench Multilingual 72.0 77.5 65.0 66.7 73.0 69.3
SecCodeBench 68.7 68.6 62.4 57.5 61.3 68.3
Terminal Bench 2 54.0 59.3 54.2 22.5 50.8 52.5

* HLE-Verified:这是“人类最后考试”(HLE)的经过验证和修订的版本,附带了透明的、针对每个组件的验证协议和细致的错误分类。我们在https://huggingface.co/datasets/skylenage/HLE-Verified上开源了该数据集。
* TAU2-Bench:除航空领域外,我们遵循官方设置,在航空领域,所有模型均通过应用Claude Opus 4.5系统卡中提出的修复程序进行评估。
* MCPMark:GitHub MCP服务器使用来自api.githubcopilot.com的v0.30.3版本;Playwright工具的响应在达到32k个标记时被截断。
* 搜索代理:基于我们模型构建的大多数搜索代理都采用了一种简单的上下文折叠策略(256k):一旦累积的工具响应长度达到预设阈值,就会从历史记录中删除较早的工具响应,以保持上下文在限定范围内。
* BrowseComp:我们测试了两种策略,简单的上下文折叠策略取得了69.0的分数,而采用与DeepSeek-V3.2和Kimi K2.5相同的全部丢弃策略则取得了78.6的分数。
* WideSearch:我们使用一个256k的上下文窗口,且不进行任何上下文管理。
* MMLU-ProX:我们报告了29种语言的平均准确率。
* WMT24++:经过难度标注和再平衡处理后,WMT24的一个更难子集;我们使用XCOMET-XXL报告了55种语言的平均分数。
* MAXIFE:我们报告了英语+多语言原始提示(共23种设置)的准确性。
* 空单元格(--)表示分数尚未提供或不适用。

视觉语言

GPT5.2 Claude 4.5 Opus Gemini-3 Pro Qwen3-VL-235B-A22B K2.5-1T-A32B Qwen3.5-397B-A17B
STEM与解谜
MMMU 86.7 80.7 87.2 80.6 84.3 85.0
MMMU-Pro 79.5 70.6 81.0 69.3 78.5 79.0
数学视觉 83.0 74.3 86.6 74.6 84.2 88.6
Mathvista(mini) 83.1 80.0 87.9 85.8 90.1 90.3
We-Math 79.0 70.0 86.9 74.8 84.7 87.9
动态数学 86.8 79.7 85.1 82.8 84.4 86.3
零基准 9 3 10 4 9 12
ZEROBench_sub 33.2 28.4 39.0 28.4 33.5 41.0
宝贝视觉 34.4 14.2 49.7 22.2 36.5 52.343.3
General VQA
现实世界问答 83.3 77.0 83.3 81.3 81.0 83.9
MMStar 77.1 73.2 83.1 78.7 80.5 83.8
幻觉基准 65.2 64.1 68.6 66.7 69.8 71.4
MMBenchEN-DEV-v1.1 88.2 89.2 93.7 89.7 94.2 93.7
简易视觉问答 55.8 65.7 73.2 61.3 71.2 67.1
文本识别与文档理解
OmniDocBench1.5 85.7 87.7 88.5 84.5 88.8 90.8
CharXiv(RQ) 82.1 68.5 81.4 66.1 77.5 80.8
MMLongBench-Doc 61.9 60.5 56.2 58.5 61.5
CC-OCR 70.3 76.9 79.0 81.5 79.7 82.0
AI2D_TEST 92.2 87.7 94.1 89.2 90.8 93.9
OCR基准 80.7 85.8 90.4 87.5 92.3 93.1
空间智能
ERQA 59.8 46.8 70.5 52.5 67.5
计数台 91.9 90.6 97.3 93.7 94.1 97.2
RefCOCO(avg) 84.1 91.1 87.8 92.3
ODInW13 46.3 43.2 47.0
Emb空间基准 81.3 75.7 61.2 84.3 77.4 84.5
RefSpatialBench 65.5 69.9 73.6
LingoQA 68.8 78.8 72.8 66.8 68.2 81.6
V* 75.9 67.0 88.0 85.9 77.0 95.891.1
超模拟 11.0 12.5
SUNRGBD 34.9 38.3
Nuscene 13.9 16.0
视频理解
视频多模态评估(w sub.) 86 77.6 88.4 83.8 87.4 87.5
视频多模态评估(w/o sub.) 85.8 81.4 87.7 79.0 83.2 83.7
视频多模态理解与评估 85.9 84.4 87.6 80.0 86.6 84.7
MLVU (M-Avg) 85.6 81.7 83.0 83.8 85.0 86.7
MVBench 78.1 67.2 74.1 75.2 73.5 77.6
LVBench 73.7 57.3 76.2 63.6 75.9 75.5
MMVU 80.8 77.3 77.5 71.1 80.4 75.4
视觉代理
荧点专业版 45.7 72.7 62.0 65.6
OSWorld-已验证 38.2 66.3 38.1 63.3 62.2
安卓世界 63.7 66.8
医疗视觉问答(系统)
斯莱克 76.9 76.4 81.3 54.7 81.6 79.9
PMC-VQA 58.9 59.9 62.3 41.2 63.3 64.2
MedXpertQA-MM 73.3 63.6 76.0 47.6 65.3 70.0

* MathVision:我们的模型评分是使用固定提示来评估的,例如,“请逐步推理,并将你的最终答案填写在\boxed{}内。”对于其他模型,我们报告的是使用和不使用\boxed{}格式化时运行结果中的较高分数。
* BabyVision:我们的模型分数是在启用CI(代码解释器)的情况下报告的;若不启用CI,结果为43.3。
* V*: 我们的模型分数是在启用代码解释器(CI)的情况下报告的;若不启用CI,结果为91.1。
* 空单元格(--)表示分数尚未获得或不适用于此。