IBM近日宣布推出Granite 3.3版本,该版本在语音识别、推理能力以及RAG(检索增强生成)LoRA适配器方面均有显著提升。此次更新标志着IBM在多模态人工智能领域的进一步拓展,旨在为企业级应用提供更高效、更精准的语音处理和文本生成能力。
#### Granite Speech 3.3:精准转录与高效翻译
Granite Speech 3.3 8B 是一款专注于语音转文本(STT)的模型,优化了自动语音识别(ASR)和自动语音翻译(AST)功能。在多个公共数据集的测试中,该模型的转录准确性优于当前领先的开放和封闭模型。此外,Granite Speech 3.3 8B支持从英语到多种语言的自动翻译,涵盖法语、西班牙语、意大利语、德语、葡萄牙语、日语和普通话。其在IBM的AST性能测试中表现卓越,与OpenAI的GPT-4o和谷歌的Gemini 2.0 Flash等领先模型不相上下。
从架构上看,Granite Speech 3.3采用两遍设计:先将语音转录为文本,再对文本进行处理。这种设计避免了多模态模型常见的文本性能下降问题,确保其在处理文本查询时与基础模型(Granite 3.3 8B Instruct)表现一致。与传统的Whisper基模型不同,Granite Speech 3.3能够处理任意长度的音频输入,而非仅限于30秒的片段,这在处理长音频文件时更具优势。
#### Granite 3.3 Instruct:中间填充与推理增强
Granite 3.3 8B Instruct和2B Instruct模型新增了中间填充(FIM)功能,进一步完善了推理能力。传统的自回归语言模型在生成文本时只能从左到右预测下一个标记,而FIM功能使模型能够基于前缀和后缀预测中间的标记,这对于编程任务(如代码修复、重构和生成样板代码)具有重要意义。
此外,Granite 3.3 Instruct在数学推理方面也取得了显著进步。通过多阶段强化学习,该模型在复杂的技术基准测试中表现出色,其在MATH500基准测试中的表现优于多个知名模型,仅略低于Claude 3.5 Sonnet和OpenAI的GPT-4o Mini。
#### RAG LoRA适配器:提升检索增强生成能力
IBM还为Granite 3.2 8B Instruct发布了5个以RAG为重点的LoRA适配器,旨在增强现有应用并为下一代性能提升提供反馈。这些适配器包括RAG幻觉检测、查询重写、引用生成、可回答性预测和不确定性预测等功能。例如,查询重写适配器能够将非独立查询改写为完整的独立查询,从而显著提高模型响应的相关性。
IBM研究院还开发了一种名为“激活的LoRA(aLoRA)”的新型低秩自适应技术。与传统LoRA不同,aLoRA能够复用现有的键值缓存,避免重新计算上下文,从而在保持生成质量的同时显著提高运行效率和计算性能。
#### 未来展望与应用
IBM正在积极开发Granite 4.0,新一代模型将在速度、上下文长度和容量方面实现重大突破。此外,IBM计划在未来版本中引入多语言编码、更精细的数据配方、更早的模态融合和情感检测等功能,以进一步提升Granite系列的多模态能力。
Granite 3.3模型及相关工具已在Hugging Face上发布,Granite 3.3 Instruct 8B也可在IBM watsonx.ai上使用。IBM还提供了多种教程和指南,帮助开发者快速上手并充分利用这些模型的强大功能。
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!