最新一期 LiveBench 榜单揭晓,Qwen3-235B2-A2B 荣登全球开源模型冠军宝座,而 Qwen3-32B 也凭借出色实力跻身全球开源模型前三。更为亮眼的是,千问3在指令遵循能力这一关键指标上,力压o3 High、o4-Mini High、Gemini 2.5 pro等一众顶级闭源模型,一举夺得全球第一,其卓越的语言理解和生成能力可见一斑。
LiveBench由图灵奖得主杨立昆(Yann LeCun)携手Abacus.AI、纽约大学发起,专注于AIGC领域模型能力评估。该榜单凭借独特的动态防污染机制,每月利用最新数据集、arXiv论文、新闻热点及IMDb电影梗概生成新问题,涵盖6大类18项任务,构建起不断更新的评估体系,被誉为全球首个难以被操纵的LLM基准测试。
千问3采用独特的混合推理架构,支持即时响应与深度推理双模式灵活切换,并配备 “思考预算” 机制,可满足不同性能与成本需求。此外,它能提供119种语言及方言支持,为全球化应用筑牢根基。更值得一提的是,千问3具备强大的Agent智能体能力,经优化编码效率与MCP支持后,可实现手机、电脑等设备上的高效操作及复杂任务处理。目前,千问3模型已在QwenChat及通义APP上线,供用户免费体验。
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!