隐式三维建图
在三维重建和场景理解方面具有很多特性和优势,嘉宾在SLAM,三维重建,表征等方面都有很多的paper
iMap使用隐式表征的实时重建系统
一个场景的计算资源,把物体都框出来,让资源专注到物体上
系统可以将每个物体分割并且重建出来,多个物体可以被并行地优化
系统没有3D先验,之前有别的kiloNerf是有先验的
每个nerf占用的空间很小,可以并行地优化多个物体,这种优化可以比单一的MLP更高效地建模整个场景
很多模型都是一个视角的示图输入,但是这个模型可以随意地拍摄任意张图片,然后传入去生成图像
将任意的没有pose的图片输入,就可以生成点云这样子,第一个前向过去,很快
得到物体级别的表征,任意角度的输入,可以恢复真实尺度,可以得到更完整的mesh,将真实世界的观测和重建,做online的 policy训练,将policy直接部署到真实世界当中
和世界模型
未来是不是生成式模型,生成式模型能够带来足够的重建,帮助现有的重建和生成,因为现在的SLAM系统都是能够将观测的部分给重建出来,不能像人类一样将其背面的内容给重建出来
提出的方法可以直接建立STL格式的图档吗,STL需要更精细的mesh网格,但是现在有一个公司能做到,3D重建的结果
提出来的方法可以在线的优化和重建,在家了foundation model和difussion model之后,还能继续重建吗
目前还不太行
理想的地图表示
点云地图
训练一个神经网络去fit SDF,省内存,连续可微
神经网络做的是一个回归任务
单一的神经网络没有办法fit罗马
通过回环可以让神经点云一致
在Apollo数据集上,32km 2.2m RSME
GS的问题,在几何上可能会有一些cheating
SLAM算法现在不是实时的,既可以做rendering,同时做一个mesh的表面重建VLA
加入一个场景的memory,提高VLA
的效果
隐式表达省内存,但是消耗算力,这个怎么考虑?
更关注室内场景,不是很偏重Nerf或者GS
两个图片之间的相机位姿?
两个图片的一个平面如何进行关联?
总结和展望:结构化几何表征
补全和生成有什么区别,用difussion来做可行吗
补全来做就是一种无中生有的感觉
difussion可能是用在很多更general的task上
3D的真值的问题,3D的真值是怎么得到的,深度图像的ESDF,做ransank
数据集的做法是将比较差的平面去掉,留下好的结果
圆桌讨论
对隐式的三维表征还不是特别一样
Nerf是,但是GS是不是?
三维的隐式表征的定义是什么?
孔:
未来的趋势,大模型提供先验,表征提供pipeline master slam,有一个很好的先验给一个很强的初始化,我们的报告中的nerf都是没有先验的从random初始化的根据观测进行重建的过程,需要一个很好的先验模型,先验还是很重要,结合大模型
潘越; 纯forward的版本,不需要先验啥的,纯forawrd的版本的质量上比起做优化还是会差一些,能增量式做一些construction还是比较少
结合大模型,推理其实还好,VGGT,100张图的推理只有几秒钟,不管是隐式还是显式的点云的表征,未来可能都是会有一些比较好的初始化,还是会有后面的一些优化存在,但是现在的feed forward的还是不能长期优化,还是要有后端BA,很重要,模型会给你一个比较好的初始值,但是模型后面的后端优化还是很重要
和下游的导航和大模型结合的问题,未来的三维重建和下游的大模型,VLM,如何结合,有哪些比较好的结合点?
3D视觉就是给机器人解决方案,但是很多工作train一个VLA模型就很好,不需要一个中间的3D表达,但3D视觉更像是一个中间的grounding,假设你的系统是能够实现一个3D操作,但是3D视觉能够实现中间的监督和验证部分,直接端到端短期由于数据部分,但是作为一个组件,2D和3D视觉能够比较好的作为一个pipeline,接到下游的导航这样子
隐式的优势是他更容易结合网络,用神经网络的方式调参
把隐式的表征和导航/操作来结合