qwen3.5

应用程序

小龙虾 启动小龙虾模型qwen3.5

近几个月来，我们更加专注于开发能够提供卓越实用性和性能的基础模型。Qwen3.5代表着一次重大飞跃，它整合了在多模态学习、架构效率、强化学习规模以及全球可访问性方面的突破，为开发者和企业提供了前所未有的能力和效率。

亮点

Qwen3.5具备以下增强功能：

统一视觉-语言基础: 多模态词元的早期融合训练在Qwen3上实现了跨代对等，并在推理、编码、代理和视觉理解基准测试中优于Qwen3-VL模型。
高效混合架构: 门控Delta网络与稀疏专家混合模型相结合，能够在最小延迟和成本开销的情况下实现高吞吐量推理。
可扩展的强化学习泛化: 强化学习已扩展到包含数百万智能体的环境，并具有逐渐复杂的任务分布，以实现强大的现实世界适应性。
全球语言覆盖: 支持范围已扩展至201种语言和方言，凭借对文化和地域的细致理解，实现了全球范围内的包容性部署。
下一代培训基础设施: 与纯文本训练和异步强化学习（RL）框架相比，多模态训练效率接近100%，支持大规模智能体架构和环境编排。

Benchmarks

Language

	GPT5.2	克劳德4.5作品	杰米尼-3 Pro	Qwen3-Max-Thinking	K2.5-1T-A32B	Qwen3.5-397B-A17B
知识
MMLU-Pro	87.4	89.5	89.8	85.7	87.1	87.8
MMLU-Redux	95.0	95.6	95.9	92.8	94.5	94.9
SuperGPQA	67.9	70.6	74.0	67.3	69.2	70.4
C-Eval	90.5	92.2	93.4	93.7	94.0	93.0
指令遵循
IFEval	94.8	90.9	93.5	93.4	93.9	92.6
IFBench	75.4	58.0	70.4	70.9	70.2	76.5
多重挑战	57.9	54.2	64.2	63.3	62.7	67.6
长上下文
AA-LCR	72.7	74.0	70.7	68.7	70.0	68.7
LongBench v2	54.5	64.4	68.2	60.6	61.0	63.2
STEM
GPQA	92.4	87.0	91.9	87.4	87.6	88.4
HLE	35.5	30.8	37.5	30.2	30.1	28.7
HLE-Verified¹	43.3	38.8	48	37.6	--	37.6
论证
LiveCodeBench v6	87.7	84.8	90.7	85.9	85.0	83.6
HMMT Feb 25	99.4	92.9	97.3	98.0	95.4	94.8
HMMT Nov 25	100	93.3	93.3	94.7	91.1	92.7
IMO答案基准	86.3	84.0	83.3	83.9	81.8	80.9
AIME26	96.7	93.3	90.6	93.3	93.3	91.3
总代理
BFCL-V4	63.1	77.5	72.5	67.7	68.3	72.9
TAU2-Bench	87.1	91.6	85.4	84.6	77.0	86.7
VITA-Bench	38.2	56.3	51.6	40.9	41.9	49.7
深度规划	44.6	33.9	23.3	28.7	14.5	34.3
工具十项全能	43.8	43.5	36.4	18.8	27.8	38.3
MCP-Mark	57.5	42.3	53.9	33.5	29.5	46.1
搜索代理
HLE w/ tool	45.5	43.4	45.8	49.8	50.2	48.3
浏览公司	65.8	67.8	59.2	53.9	--/74.9	69.0/78.6
浏览公司-zh	76.1	62.4	66.8	60.9	--	70.3
广泛搜索	76.8	76.4	68.0	57.9	72.7	74.0
Seal-0	45.0	47.7	45.5	46.9	57.4	46.9
多语言能力
MMMLU	89.5	90.1	90.6	84.4	86.0	88.5
MMLU-ProX	83.7	85.7	87.7	78.5	82.3	84.7
NOVA-63	54.6	56.7	56.7	54.2	56.0	59.1
INCLUDE	87.5	86.2	90.5	82.3	83.3	85.6
Global PIQA	90.9	91.6	93.2	86.0	89.3	89.8
PolyMATH	62.5	79.0	81.6	64.7	43.1	73.3
WMT24++	78.8	79.7	80.7	77.6	77.6	78.9
MAXIFE	88.4	79.2	87.5	84.0	72.8	88.2
编程代理
SWE-bench Verified	80.0	80.9	76.2	75.3	76.8	76.2
SWE-bench Multilingual	72.0	77.5	65.0	66.7	73.0	69.3
SecCodeBench	68.7	68.6	62.4	57.5	61.3	68.3
Terminal Bench 2	54.0	59.3	54.2	22.5	50.8	52.5

* HLE-Verified：这是“人类最后考试”（HLE）的经过验证和修订的版本，附带了透明的、针对每个组件的验证协议和细致的错误分类。我们在https://huggingface.co/datasets/skylenage/HLE-Verified上开源了该数据集。
* TAU2-Bench：除航空领域外，我们遵循官方设置，在航空领域，所有模型均通过应用Claude Opus 4.5系统卡中提出的修复程序进行评估。
* MCPMark：GitHub MCP服务器使用来自api.githubcopilot.com的v0.30.3版本；Playwright工具的响应在达到32k个标记时被截断。
* 搜索代理：基于我们模型构建的大多数搜索代理都采用了一种简单的上下文折叠策略（256k）：一旦累积的工具响应长度达到预设阈值，就会从历史记录中删除较早的工具响应，以保持上下文在限定范围内。
* BrowseComp：我们测试了两种策略，简单的上下文折叠策略取得了69.0的分数，而采用与DeepSeek-V3.2和Kimi K2.5相同的全部丢弃策略则取得了78.6的分数。
* WideSearch：我们使用一个256k的上下文窗口，且不进行任何上下文管理。
* MMLU-ProX：我们报告了29种语言的平均准确率。
* WMT24++：经过难度标注和再平衡处理后，WMT24的一个更难子集；我们使用XCOMET-XXL报告了55种语言的平均分数。
* MAXIFE：我们报告了英语+多语言原始提示（共23种设置）的准确性。
* 空单元格(--)表示分数尚未提供或不适用。

视觉语言

	GPT5.2	Claude 4.5 Opus	Gemini-3 Pro	Qwen3-VL-235B-A22B	K2.5-1T-A32B	Qwen3.5-397B-A17B
STEM与解谜
MMMU	86.7	80.7	87.2	80.6	84.3	85.0
MMMU-Pro	79.5	70.6	81.0	69.3	78.5	79.0
数学视觉	83.0	74.3	86.6	74.6	84.2	88.6
Mathvista(mini)	83.1	80.0	87.9	85.8	90.1	90.3
We-Math	79.0	70.0	86.9	74.8	84.7	87.9
动态数学	86.8	79.7	85.1	82.8	84.4	86.3
零基准	9	3	10	4	9	12
ZEROBench_sub	33.2	28.4	39.0	28.4	33.5	41.0
宝贝视觉	34.4	14.2	49.7	22.2	36.5	52.³⁄₄₃.3
General VQA
现实世界问答	83.3	77.0	83.3	81.3	81.0	83.9
MMStar	77.1	73.2	83.1	78.7	80.5	83.8
幻觉基准	65.2	64.1	68.6	66.7	69.8	71.4
MMBench_EN-DEV-v1.1	88.2	89.2	93.7	89.7	94.2	93.7
简易视觉问答	55.8	65.7	73.2	61.3	71.2	67.1
文本识别与文档理解
OmniDocBench1.5	85.7	87.7	88.5	84.5	88.8	90.8
CharXiv(RQ)	82.1	68.5	81.4	66.1	77.5	80.8
MMLongBench-Doc	–	61.9	60.5	56.2	58.5	61.5
CC-OCR	70.3	76.9	79.0	81.5	79.7	82.0
AI2D_TEST	92.2	87.7	94.1	89.2	90.8	93.9
OCR基准	80.7	85.8	90.4	87.5	92.3	93.1
空间智能
ERQA	59.8	46.8	70.5	52.5	–	67.5
计数台	91.9	90.6	97.3	93.7	94.1	97.2
RefCOCO(avg)	–	–	84.1	91.1	87.8	92.3
ODInW13	–	–	46.3	43.2	–	47.0
Emb空间基准	81.3	75.7	61.2	84.3	77.4	84.5
RefSpatialBench	–	–	65.5	69.9	–	73.6
LingoQA	68.8	78.8	72.8	66.8	68.2	81.6
V*	75.9	67.0	88.0	85.9	77.0	95.⁸⁄₉₁.1
超模拟	–	–	–	11.0	–	12.5
SUNRGBD	–	–	–	34.9	–	38.3
Nuscene	–	–	–	13.9	–	16.0
视频理解
视频多模态评估_{(w sub.)}	86	77.6	88.4	83.8	87.4	87.5
视频多模态评估_{(w/o sub.)}	85.8	81.4	87.7	79.0	83.2	83.7
视频多模态理解与评估	85.9	84.4	87.6	80.0	86.6	84.7
MLVU (M-Avg)	85.6	81.7	83.0	83.8	85.0	86.7
MVBench	78.1	67.2	74.1	75.2	73.5	77.6
LVBench	73.7	57.3	76.2	63.6	75.9	75.5
MMVU	80.8	77.3	77.5	71.1	80.4	75.4
视觉代理
荧点专业版	–	45.7	72.7	62.0	–	65.6
OSWorld-已验证	38.2	66.3	–	38.1	63.3	62.2
安卓世界	–	–	–	63.7	–	66.8
医疗视觉问答（系统）
斯莱克	76.9	76.4	81.3	54.7	81.6	79.9
PMC-VQA	58.9	59.9	62.3	41.2	63.3	64.2
MedXpertQA-MM	73.3	63.6	76.0	47.6	65.3	70.0

* MathVision：我们的模型评分是使用固定提示来评估的，例如，“请逐步推理，并将你的最终答案填写在\boxed{}内。”对于其他模型，我们报告的是使用和不使用\boxed{}格式化时运行结果中的较高分数。
* BabyVision：我们的模型分数是在启用CI（代码解释器）的情况下报告的；若不启用CI，结果为43.3。
* V*: 我们的模型分数是在启用代码解释器（CI）的情况下报告的；若不启用CI，结果为91.1。
* 空单元格(--)表示分数尚未获得或不适用于此。

千问 3.5是一系列开源多模态模型，具有卓越的实用性和性能。

应用程序

模型

自述文件

亮点

Benchmarks

Language

视觉语言