本月初,港科工等D根Meta推出的技南据何一款可以「分割一切」的模型Segment Anything Model (SAM) 已经引起了广泛的关注。今天,洋理我们向大家介绍一款名为「Segment Any RGBD(SAD)」的开源机器学习模型。与以往所有使用SAM的信息工具的不同之处在于,SAD读入的图像图片可以是经过渲染之后的深度图,让SAM直接根据几何信息来分割图像。分割分割该项目是切深由Visual Intelligence Lab@HKUST, HUST, MMLab@NTU, Smiles Lab@XJTU和NUS的同学完成的。如果大家觉得这个项目有意思的度图话,请大家多多star~
演示程序链接:https://huggingface.co/spaces/jcenaa/Semantic_Segment_AnyRGBD
代码链接:https://github.com/Jun-CEN/SegmentAnyRGBD
人类可以从深度图的港科工等D根可视化中自然地识别物体,所以研究人员首先通过颜色映射函数将深度图([H,技南据何W])映射到RGB空间([H,洋理W,3]),然后将渲染的深度图像输入 SAM。
与RGB图像相比,渲染后的深度图像忽略了纹理信息,而侧重于几何信息。
以往基于 SAM 的项目里SAM 的输入图像都是 RGB 图像, 该团队是第一个使用 SAM 直接利用渲染后的深度图提取几何信息的。
下图显示了具有不同颜色图函数的深度图具有不同的 SAM 结果。
模型流程图如下图所示,作者提供了两种选择,包括将 RGB 图像或渲染的深度图像输入到 SAM进行分割,在每种模式下,用户都可以获得Semantic Mask(一种颜色代表一个类别)和带有类别的 SAM Mask。
以输入为深度图为例子进行说明。首先通过颜色映射函数将深度图([H,W])映射到RGB空间([H,W,3]),然后将渲染后的深度图送入SAM进行分割。
同时使用OVSeg对RGB图进行zero-shot语义分割,只需要输入一系列候选类别的名称即可完成类别识别。然后每一个SAM的mask的类别会根据当前mask里面的点的语义分割结果进行投票,选择点数最多的类别当成当前mask的类别。
最终输出可视化有两种形式,一种是Semantic mask,即一种颜色对应一种类别;另一种是SAM mask with classes,即输出的mask仍然是SAM的mask,并且每一个mask都有类别。并且可以根据深度图将2D的结果投影到3D space进行可视化。
作者将RGB送入SAM进行分割与将渲染后的深度图送入SAM进行分割进行了对比。
作者表示,希望SAD模型能够带来更多的启发和创新,也期待着反馈和建议。让我们一起探索这个神奇的机器学习世界吧!
责任编辑:张燕妮 来源: 新智元 模型AI(责任编辑:焦点)
南京银行(601009.SH)拟发行不超400亿元金融债券 一次或分次申报
“双11”全国快件量达47.76亿件 11日当天共处理快件6.96亿件
前7个月证券交易印花税突破千亿元 A股投资者首次突破1.7亿大关