2025 年 6 月 12 日,湖北 —— 近日,面壁智能宣布发布并开源 “面壁小钢炮” 端侧系列的最新成果 ——MiniCPM 4.0 模型,该模型实现了端侧可落地的系统级软硬件稀疏化高效创新。英特尔与面壁智能紧密合作,从模型开发阶段便开始协同工作,致力于提升长短文本多重推理效率,推动端侧 AI PC 在 Day 0 全面适配,并在 128K 长上下文窗口等方面实现了多方面突破。
双方开展了深度技术协作,基于英特尔硬件架构定制投机解码配置,采用硬件感知的草稿模型优化策略,结合英特尔加速套件与 KV Cache 内存增强技术,使端到端推理效率得以 2.2 倍提升,为行业带来了全新的模型创新和端侧性能体验。
此次推出的 MiniCPM 4.0 系列 LLM 模型,包含 8B、0.5B 两种参数规模。针对单一架构难以兼顾长、短文本不同场景的技术难题,MiniCPM 4.0-8B 采用 “高效双频换挡” 机制,根据任务特征自动切换注意力模式,在处理长文本、深度思考任务时启用稀疏注意力降低计算复杂度,在短文本场景下切换至稠密注意力确保精度,实现了长、短文本切换的高效响应。目前,英特尔酷睿 Ultra 处理器已迅速适配该模型,并借助 OpenVINO™工具套件为模型提供优化性能表现。英特尔还在 NPU 上为模型发布提供第零日(Day 0)支持,为不同参数量模型和应用场景提供更多样化、更有针对性的平台支持
在长上下文窗口的技术创新方面,英特尔依托分块稀疏注意力机制,结合深度算子融合与硬件驱动的算法优化,实现了长文本缓存的大幅锐减和推理效率的进一步提升。在英特尔锐炫™Pro B60 上,长上下文窗口首次扩展至 128K,相较于稠密模型,首 Token 延迟降低 38%,Token 速率提升 3.8 倍。经过优化,一整部 300 多页的《哈利波特》小说,可在 90 秒内完成阅读、分析和总结,极大地提升了 AI PC 的用户体验,为解锁更多端侧 AI 新应用奠定了基础。未来,英特尔将持续深化与面壁的合作,进一步提升长上下文窗口应用的性能。
➤ 参考链接: GitHub:🔗 https://github.com/openbmb/minicpmarVix:🔗 https://arxiv.org/pdf/2506.07900技术报告:🔗 https://github.com/OpenBMB/MiniCPM/blob/main/report/MiniCPM_4_Technical_Report.pdfHuggingFace:🔗 https://huggingface.co/collections/openbmb/minicpm-4-6841ab29d180257e940baa9bModelScope:🔗 https://www.modelscope.cn/collections/MiniCPM-4-ec015560e8c84d
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!