Meta发布开源模型SAM 2，可实时分割视频对象

财经三易生活网 2024-07-31 11:40

日前，Meta方面发布Meta Segment Anything Model 2（SAM 2）开源模型。该模型能够分割包括视频在内的任何目标，并可在视频的所有帧中实时追踪目标镜头，从而为视频编辑以及混合现实开启新的可能性。

对此Meta方面强调，“我们相信，我们的数据、模型和见解，将成为视频分割和相关感知任务的重要里程碑”。

据了解，SAM 2能够精准、迅速地在视频或图像中选择、分割目标对象，并支持用户通过使用附加提示的方式，选择和优化视频帧中的对象。同时该模型还可以分割未见过的对象和视觉域（零样本泛化），这表明其能够在没有特定训练数据的情况下处理新的视觉内容，因此在实际应用中或具有广泛的适用性。

需要注意的是，SAM 2使用了transformer架构设计，具有用于实时视频处理的流式内存、以实现高效的视频处理。在性能指标方面，SAM 2的视频帧处理速度达到了44帧/秒，并在视频分割注释中较手动每帧注释快8.4倍。

在相关测试中显示，SAM 2与此前的模型在视频分割方面相比，前者交互次数减少了3倍。在图像分割方面，SAM 2不仅更准确，还比前代SAM 1的处理速度提高了6倍。

对此Meta方面表示，SAM 1模型已经被用于海洋科学领域，来分割声呐图像和分析珊瑚礁，以及在医疗领域用于分割细胞图像和帮助检测皮肤癌。而此次推出的SAM 2的应用场景将更加广泛，例如视频编辑和特效制作、自动驾驶和机器人技术、医学研究和医疗应用、动物行为研究和环境监测、实时安全监控，以及内容创建与娱乐等。

值得一提的是，Meta方面还宣布将以Apache 2.0许可发布SAM 2，以便于所有人都可以探索其新功能。此外Meta方面还以CC BY 4.0许可共享了用于训练SAM 2的SA-V数据集，该数据集中包含从47个国家收集的51000个真实世界的视频，覆盖多种地理位置和场景。

【以上内容转自“三易生活网”，不代表本网站观点。如需转载请取得三易生活网许可，如有侵权请联系删除。】