为了账号安全,请及时绑定邮箱和手机立即绑定

SAM 2 + GPT-4 — 通过视觉提示进行基础模型的级联 — 第二部分

我们向你展示如何用视觉提示把这些基础模型链接在一起!

网球运动员的分割标记,利用Segment Anything Model 2 (SAM 2)(简称SAM 2)创建

在我们Segment Anything Model 2 (SAM 2) 系列第二部分里,我们展示了如何使用基础模型(例如,GPT-4o、Claude Sonnet 3.5 和 YOLO-World)生成 SAM 2 的视觉输入,例如边界框。这种方法可能会颠覆我们熟悉的计算机视觉领域。

要是你没看到第一篇:

  • 第一部分: — 通过视觉提示的SAM 2和GPT-4o级联基础模型:

🔥了解更多关于多模态和基础模型的相关内容,请参阅我们在中国计算机视觉与模式识别大会CVPR 2024的系列。

目录
  1. 级联的基础模型
  2. 作为视觉提示工具的基础模型
  3. GPT-4o (或 Claude 3.5) + SAM 2
  4. YOLO-World + SAM 2
  5. 结论
1. 级联基础模型
1.1 第1部分的小结

在第一部分中,我们介绍了Segment Anything模型2(SAM 2)[1],这是一种用于图像和视频对象分割的模型:

  • SAM 2 使用内存来统一处理图像和视频。
  • 它支持根据用户输入进行视频分割提示,在不同帧之间进行预测和优化。
  • SAM 2 在大型 SA-V 数据集上进行训练,从而在视频分割领域达到了业界领先的表现。

图1. 在 Part 1 中,SAM 2 应用于自定义视频

图1展示了SAM 2的一个实际应用案例。我们的Jupyter Notebook提供了在您的机器上设置和运行SAM 2的具体步骤。

1.2 我们指的是什么样的连环基础模型呢?

级联基础模型的概念就是将模型串联起来,在这个过程中,将一个模型的输出用作下一个模型的输入。

你可以问,“但这种方法的新颖之处在哪里?” 🤔 答案在于基础模型的零样本(Zero-Shot)特点。这类模型,如GPT-4o或SAM 2,被称为零样本模型,这意味着它们无需预先训练即可进行推理。因此,这些模型可以从系统角度进行连接,如图2所示。

图2. 相互连接的零样本基础模型的管道

实际上,一些研究方法如CaFO [3] 将多个预训练的基础模型(CLIP,DINO,DALL-E,GPT-3)结合起来,通过利用多样的预训练知识和生成合成数据以增强训练,来提高少量样本的视觉识别能力。

2. 基础模型在视觉提示技术中的应用
2.1 计算机视觉管线2.0:一种新的范式

我们之前讨论过什么是视觉提示。它指的是使用这类视觉信息(如图片、框或点)作为提示输入给既能处理视觉又能处理文本信息的基础模型。

Tenyks(https://www.tenyks.ai/)的一个重要优势就是视觉搜索。我们每天处理成千上万的视觉查询。例如,如图3所示,你可以选择一个对象的边界框来查找数据中的细节

图3. 使用视觉提示技术搜索对象,比如校车,即使没有这类对象的类别定义

正如我们先前所论证的,在 Tenyks,我们相信视觉领域的传统管道正处于转型期。在此转型期中,管道中的多个阶段,如标注和训练,将被包含基础模型的模块所取代,这些模块将形成所谓的“计算机视觉管道2.0”。基础模型——计算机视觉管道2.0——

2.2 视觉提示技术作为基础模型的纽带所面临的挑战

现在,当你开始将基础模型连接在一起时,你马上就会发现,基于这种范例构建一个稳健的系统并非易事,与周末快速搭建一个原型是不一样的。

这里有一些你可能一开始就会遇到的主要挑战:

  1. 高性能和可扩展性 🚀📈
  • 确保系统能够实时高效地处理大量数据和请求。
  • 随着业务规模的扩大,保持数据的准确性和处理速度。

2. 整合与兼容 🔗🛠️

  • 将多模型系统无缝地集成到现有的基础设施中。
  • 确保与各种数据格式、API 以及旧系统之间的兼容性。

3. 可靠性和错误应对:🔄🛡️

  • 开发强大的错误检测和纠正机制。
  • 实施冗余以确保操作连续性。
3 GPT-4 + SAM 2
3.1 视觉提示流程

图4. 我们的配置:利用GPT-4o来提取视觉信息,作为SAM 2的输入。

如图4所示,这是一个简单流程,分为两个步骤。假定GPT-4o或Claude Sonnet 3.5足够强大来应对这样的提示:

“对于给定的这张图片,请提供三个(x,y)点的坐标”

,“对于给定的这张图片,请提供运动员的边界框位置”

图5展示了GPT-4o的结果,而图6展示了Claude Sonnet 3.5的结果。

图5. 查询(x,y)坐标时,GPT-4o给出的结果相当不准确

图6. 克劳德十四行诗3.5(Claude 3.5) 没有达到我们的预期,如图所示,未能提供视觉上的理解。

虽然GPT-4o通常提供错误的坐标,Claude Sonnet 3.5干脆不提供(x,y)坐标或边界框。

图7显示了GPT-4o在200次API请求中的行为模式是一致的。

图7显示,在使用GPT-4进行视觉理解来识别(x,y)坐标时,总共尝试了200次,只有5次是准确的,其余的都不正确。没有一个边界框结果是正确的。

所以,难道真的不能用 任何 较好的 基础模型 (到了 2024 年)作为 输入 来创建 另一个 基础模型? 😱

4. YOLO 世界版 + SAM 2.0
4.1 零样本学习在计算机视觉中的应用:YOLO-世界模型

尽管我们发现无论是GPT-4o还是Claude Sonnet 3.5都无法从图像中提供视觉答案,这些期望落空了,但我们找到了一个符合要求的专用模型:YOLO-World [4]。

如图7所示,给定文本输入(即类别标签),该模型能准确预测每个输入的边界框。

YOLO-World的词汇中甚至包括了单词‘体操运动员’!如图8右侧所示的0.93 mAP

图8. 基于一些文本输入(即类别名称)的YOLO-World预测结果

  • 🔥 剧透警报: 在接下来的文章里,我们将聊聊 YOLO-World(零样本)与 YOLO v8(微调)的区别!

YOLO-World 是一种零样本物体检测模型,无需针对特定对象类别进行预先训练即可检测并定位图像中的对象。

如图9所示,我们用YOLO-World为SAM 2提供了边界框。

图 9. 包括 YOLO-World 和 SAM 2 连接起来的最终流程

我们只需要为整个系统提供的唯一输入是 YOLO-World 词汇表的类定义,在这种情况下是“体操运动员”。这个词就足以让 YOLO-World 向 SAM 2 提供边界框坐标。

请参阅这个Jupyter Notebook文件以了解实现的详细信息。最后的结果请参见图8。

  1. 结论

在这一系列关于SAM 2的讨论中,我们描述并部署了Segment Anything Model 2 (SAM 2)。然后,我们用视觉提示,将两个基础模型进行级联使用,即将模型A的输出作为模型B的输入。

我们发现市场领先的两大 多模态大型语言模型(GPT-4o 和 Claude Sonnet 3.5)不太准确地提供给定图像中对象的坐标或边界框。相反,我们发现像 YOLO-World 这样的专门模型更适合完成这项工作。

构建一个原型是一回事,但实际上,即使是顶尖的ML团队也常常会遇到这些问题(例如,集成、可靠性以及在组合基础模型时的适应性)。

如何在降低维护成本的同时应对所有这些系统挑战?💸 ↘️ 。WellTenyks 已经花了时间构建视觉提示,用于连接的基础模型,这样你就可以省心了。如果你感兴趣,不妨试试看。如果你好奇,可以试一试。

正如我们之前所讨论的,一个新的计算机视觉范式已经到来:视觉处理流程中的某些传统阶段可能会被(zero-shot)基础模型所替代或直接简化,而这些基础模型将随着时间的推移不断优化。

还要等多久才能从即将发布的GPT家族新成员那里获得精确的边界框坐标数据? 可能不会等太久。

🔥 学习关于大规模语言模型(MLLM):
多模态大型语言模型:

参考资料

[1] 一个用于分割任何对象的模型2

[2] 一种极其简单的零样本学习方法

[3] 提示、生成,再缓存:基础模型的级联效应使少量样本学习者变得强大,缓存,

[4] YOLO-World: 实时开放词汇物体检测

作者 : 何塞·加布里埃尔·伊尔萨斯·蒙特罗,德米特里·卡兹丹

若想了解更多关于Tenyks的内容,可以试试这个sandbox

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消