2025 年 4 月 29 日,浙江。Qwen3 作为大型语言模型 Qwen 系列的新成员正式发布,备受瞩目。其旗舰模型 Qwen3 - 235B - A22B 在多项基准测试中表现优异,与诸多顶级模型相比毫不逊色。小型 MoE 模型 Qwen3 - 30B - A3B 激活参数数量仅为 QwQ - 32B 的 10%,性能却更胜一筹,连 Qwen3 - 4B 这样的小模型都能与 Qwen2.5 - 72B - Instruct 的性能相媲美。
此次还开源了多个模型权重,包括拥有 2350 多亿总参数和 220 多亿激活参数的大模型 Qwen3 - 235B - A22B,以及约 300 亿总参数和 30 亿激活参数的小型 MoE 模型 Qwen3 - 30B - A3B,六个 Dense 模型也在 Apache 2.0 许可下开源。这些模型在 Hugging Face、ModelScope 和 Kaggle 等平台开放使用,且有多种框架和工具可供部署和本地使用,方便用户集成到不同工作流程中。
Qwen3 支持思考模式和非思考模式,前者用于复杂问题的逐步推理,后者适用于简单问题的快速响应,用户可依任务控制思考程度,实现成本效益和推理质量的平衡。它还支持 119 种语言和方言,为国际应用提供了更多可能。预训练数据量达 36 万亿个 token,涵盖多种语言,在预训练阶段,模型进行了充分训练,提升了基本语言技能和通用知识等。后训练阶段,四步流程让模型兼具思考推理和快速响应能力。
此外,Qwen3 还提供了丰富的使用指南和示例代码,方便用户快速上手,无论是通过 Hugging Face transformers,还是使用 SGLang、vLLM 创建 API endpoint,亦或是在本地开发中使用 ollama、LMStudio、llama.cpp 和 KTransformers 等工具,都能轻松实现。
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!