多模态人工智能模型的进步通常侧重于增加规模和功能,但OmniVision-968M则采取了革命性的方法,专门为边缘设备进行了优化。仅拥有9.68亿参数,这款不到十亿参数的模型证明了强大的人工智能并不需要高计算密集度。本文将探讨OmniVision-968M是如何通过前沿的架构、训练方法和创新,成为世界上体积最小的视觉-语言模型。
哈哈!我的意思是说,我不把它弄得很难懂,以便能在顶级期刊上发表出去。
为什么我们需要紧凑的模型?边缘AI设备,如智能手机、物联网设备和AR/VR头显的增多需要轻量级的AI解决方案。传统的多模态模型虽然强大,但计算成本高,不适合这些环境。OmniVision-968M填补了这一空白,在资源受限的环境中保持高性能和多模态能力。
建筑的创新OmniVision-968M 采用了一种既紧凑又强大的架构,能够高效处理视觉和文本数据。让我们来看看它的几个关键部分:
1. 基本模型。- 语言处理器:模型使用的是Qwen 2.5,这是一个经过指令微调的稳健语言模型,专为基于上下文输入生成文本而设计。
- 视觉编码器:OmniVision(全视技术)使用的是SigLIP-400M,这是一个具有 14×14 补丁大小及 384 维度分辨率的视觉编码器,用于提取详细的图像特征。
其中一个最值得注意的创新是可以减少9倍的token。不同于其他类似架构(例如LLaVA,通常将图像特征扩展为729个token),这里将其压缩为81个token。这种优化减少了计算开销,同时保持了准确性。
3. 投影层一个多层感知器(MLP)将视觉编码器的嵌入向量与语言模型的token空间对齐以,从而确保视觉和文本模式平滑地结合。
训练流程OmniVision-968M 采用了一个三个阶段的训练流程,旨在提高性能和准确性,同时保证效率。
1. 预训练阶段- 专注于图像-文字对。
- 仅解冻投影层部分,确保基本的图像-文字对应。
- 在多样化的数据集上训练视觉问答和基于图像的对话模型。
- 通过让模型接触结构化的图像对话数据集来提高模型的上下文理解能力。
- 通过教师模型引入少量修改来优化输出。
- 确保改进的同时保持响应的原始意思不变。
OmniVision-968M已经在多个数据集上进行了测试,如下所示:
- MM-VET :医学数据中的视觉推理能力。
- ChartQA :理解并解读图表数据。
- ScienceQA :科学领域的复杂问题解答。
- POPE :物体检测与图像识别。
其结果显示出与较大模型相比具有竞争力或更优的准确度,这证明了小巧的体积并不影响其性能。
实际应用 1. 图片描述生成描述性的文字来帮助描述视觉内容,这对无障碍访问和搜索引擎来说都非常有用。
2. 图像问答支持像AR助手这样的应用程序和智能搜索功能。
3. 设备上的AI:其轻便的设计可以在移动设备上使用,从而实现离线多模态的AI功能。
部署与访问性OmniVision-968M 可在资源有限的设备上高效运行,
- 系统要求:988 MB 内存和 948 MB 存储空间用于 FP16。
- 部署:
- Nexa SDK:基于终端的接口,用于部署和测试 OmniVision 的工具。
- Streamlit 界面:一个用户友好的界面,用于本地测试。
开发人员可以在这些平台上使用OmniVision-968M,或通过Nexa的SDK进行集成。
多模态模型的将来OmniVision-968M 展示了紧凑型多模态模型在推动人工智能各行业普及方面的潜力。通过平衡准确度、计算效率和可访问性,它为边缘人工智能树立了新的标杆。
结尾OmniVision-968M 重新定义了多模态 AI 的可能性,将强大的功能集成于一个紧凑的框架中。不论是移动应用、AR 设备,还是 IoT 环境,这款模型为更智能、更高效的 AI 解决方案铺平了道路。
共同学习,写下你的评论
评论加载中...
作者其他优质文章