日前,Meta方面发布Meta Segment Anything Model 2(SAM 2)开源模型。该模型能够分割包括视频在内的任何目标,并可在视频的所有帧中实时追踪目标镜头,从而为视频编辑以及混合现实开启新的可能性。
对此Meta方面强调,“我们相信,我们的数据、模型和见解,将成为视频分割和相关感知任务的重要里程碑”。
据了解,SAM 2能够精准、迅速地在视频或图像中选择、分割目标对象,并支持用户通过使用附加提示的方式,选择和优化视频帧中的对象。同时该模型还可以分割未见过的对象和视觉域(零样本泛化),这表明其能够在没有特定训练数据的情况下处理新的视觉内容,因此在实际应用中或具有广泛的适用性。
需要注意的是,SAM 2使用了transformer架构设计,具有用于实时视频处理的流式内存、以实现高效的视频处理。在性能指标方面,SAM 2的视频帧处理速度达到了44帧/秒,并在视频分割注释中较手动每帧注释快8.4倍。
在相关测试中显示,SAM 2与此前的模型在视频分割方面相比,前者交互次数减少了3倍。在图像分割方面,SAM 2不仅更准确,还比前代SAM 1的处理速度提高了6倍。
对此Meta方面表示,SAM 1模型已经被用于海洋科学领域,来分割声呐图像和分析珊瑚礁,以及在医疗领域用于分割细胞图像和帮助检测皮肤癌。而此次推出的SAM 2的应用场景将更加广泛,例如视频编辑和特效制作、自动驾驶和机器人技术、医学研究和医疗应用、动物行为研究和环境监测、实时安全监控,以及内容创建与娱乐等。
值得一提的是,Meta方面还宣布将以Apache 2.0许可发布SAM 2,以便于所有人都可以探索其新功能。此外Meta方面还以CC BY 4.0许可共享了用于训练SAM 2的SA-V数据集,该数据集中包含从47个国家收集的51000个真实世界的视频,覆盖多种地理位置和场景。
【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】
延伸阅读: