通义千问团队推出了Qwen3

小哪吒

2025 年 4 月 29 日，浙江。Qwen3 作为大型语言模型 Qwen 系列的新成员正式发布，备受瞩目。其旗舰模型 Qwen3 - 235B - A22B 在多项基准测试中表现优异，与诸多顶级模型相比毫不逊色。小型 MoE 模型 Qwen3 - 30B - A3B 激活参数数量仅为 QwQ - 32B 的 10%，性能却更胜一筹，连 Qwen3 - 4B 这样的小模型都能与 Qwen2.5 - 72B - Instruct 的性能相媲美。

此次还开源了多个模型权重，包括拥有 2350 多亿总参数和 220 多亿激活参数的大模型 Qwen3 - 235B - A22B，以及约 300 亿总参数和 30 亿激活参数的小型 MoE 模型 Qwen3 - 30B - A3B，六个 Dense 模型也在 Apache 2.0 许可下开源。这些模型在 Hugging Face、ModelScope 和 Kaggle 等平台开放使用，且有多种框架和工具可供部署和本地使用，方便用户集成到不同工作流程中。
Qwen3 支持思考模式和非思考模式，前者用于复杂问题的逐步推理，后者适用于简单问题的快速响应，用户可依任务控制思考程度，实现成本效益和推理质量的平衡。它还支持 119 种语言和方言，为国际应用提供了更多可能。预训练数据量达 36 万亿个 token，涵盖多种语言，在预训练阶段，模型进行了充分训练，提升了基本语言技能和通用知识等。后训练阶段，四步流程让模型兼具思考推理和快速响应能力。

此外，Qwen3 还提供了丰富的使用指南和示例代码，方便用户快速上手，无论是通过 Hugging Face transformers，还是使用 SGLang、vLLM 创建 API endpoint，亦或是在本地开发中使用 ollama、LMStudio、llama.cpp 和 KTransformers 等工具，都能轻松实现。