空间理解模型SpatialLM
8000多个小时,有笔误
打标的方式,笔刷先刷面
然后再框BOX
怎么看真实性:
应该在一起和不在一起的东西在不在一起,看热力图的数据
支持大约60种类别物体的输出
⚠️upload failed, check dev console
训练一个VLM,把图片的编码变成一个3d点云的编码,不是很复杂,这样通过
interior net的数据集也是一个很大的数据集,数据来源都是酷家乐设计师的一个来源
能够转成各种各样的数据,数据获取方式有一点不同
重建点云的时候,用一些离线建模的方法会不会更准一些?
CoMap + MVS,
点云重建的算法
想到饿了么的那个比赛是不是可以先重建一下,但是是单帧的
输入是一个点云,输出是一个Box
训练时间和训练的卡数
Spatial Verse里面也有一些重力,碰撞检测等等
Spatial和SpaceVerse结合生成更真实的物理模型
先冻结LLM模型,先调整VLM LLM Projector
然后更进一步再放开,调整LLM模型,提高模型输出的精度
思路和Qwen VL非常像
SLAM方法的误差大致是多少
室外自动驾驶就已经比较成熟了
室内的这些家具可以更好地用规则的BOX来解释
室外有一座山,通过一个BOX很困难
语义这样子的成分
快递的包裹一般是四四方方的BOX
跳过点云和重建的这一步,比较困难,但是有可能
场景与机器人运动规划算法对接是否会提供标准化的API接口?
很有挑战,不足以支持实时输出
模型能否解决现实场景中光照变化,模糊视频对重建精度的影响?
用RL做增强推理感知和检测精度的办法?
用RL提高检测精度,BOX的Reward非常的直接
RL去做后续的优化是一个可以尝试的方向
Deepseek很火的一些训练策略是可以尝试提升的
可以去学习deepseek Think of thought的过程
有1B和0.5B的版本,选LLM的一个好处就是社区的环境非常成熟
实现物体边界框的定向标注,比如朝向的判断
预测的物体的框是带朝向的