当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] Meta发布SAM 2模型:计算机视觉的"GPT-4时刻"

WX20240730-230931@2x.png

Meta近日发布了名为SAM 2的新一代开源基础模型,这可能成为计算机视觉领域的重大突破。

SAM 2是"分割任何事物模型"(Segment Anything Model)的升级版。与仅针对图像分割的前代产品不同,SAM 2经过视频数据训练,能够同时处理图像和视频分割任务。Meta表示,即使在低质量视频或物体部分遮挡的情况下,SAM 2也能可靠地进行视频分割。

SAM 2在新的SA-V(Segment Anything Video)数据集上进行训练。该数据集包含50,900个视频,642,600个掩码注释,总计3550万个独立掩码,是迄今为止最大的公开可用视频分割数据集。

在架构上,SAM 2基于其前身的Transformer结构,并新增了一个记忆模块,可以跨视频帧存储对象信息和先前交互。这使得SAM 2能够在更长的序列中跟踪对象并响应用户输入。

实验表明,SAM 2在分割准确性方面表现出色,与之前的方法相比,仅需三分之一的交互次数。Meta称,新模型在既定的视频对象分割基准测试中超越了当前最先进水平。SAM 2在图像分割方面的表现也优于原始SAM模型,速度提高了6倍。

Meta将SAM 2模型、代码和权重以Apache 2.0许可开源,SA-V数据集则以CC-by-4.0许可发布。研究人员认为,SAM 2是机器视觉领域的重要进步,可能推动进一步的研究和应用,如更可靠的机器人交互或生成式AI视频模型中的视频效果。

尽管SAM 2在许多方面表现出色,但它仍存在一些局限性。例如,在场景切换或长时间遮挡后可能会丢失对象,难以分割非常细微的细节,以及在相似、移动的物体群中跟踪单个物体时可能出现问题。

总的来说,SAM 2的发布标志着计算机视觉领域的一个重要里程碑,有望推动该领域的进一步发展和创新。

声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海