智猩猩 - AI与硬科技知识分享社区

陈博士您好,请问MinD-Vis可以用到3D的图像数据生成上吗?在cross attention上和在time embedding上加的条件分别有什么作用呢?除了在cross attention上和在time embedding上加条件之外,还有什么地方可以加条件呢?
2023年12月07日 15:26:42

那首先在首先说3D的数据图像数据上来说,就要求我们收集到的数据本身它有3D的信息,也就是说我们要求说这个被试有看3D的图像这样子。我们才可以对这些数据集进行微调。另外就是在cross atte... 阅读全文〉
一个场景中针对不同小物体的单独MLP网络怎么结合起来的?这跟直接用一个大的MLP网络来代表整个场景相比为什么会占用更小的memory?
2023年12月07日 15:26:42

首先就是一个点,你可以看一下 kilo nerf,因为小的 MLP 的表达就是这个表达能力可能会多个m,小的 MLP 可能会比一个整体的大 MLP 的表达能力会更强。当然这个是没有进行,就是进一步地探... 阅读全文〉
NeRF目前非常火爆,最近也有很多工作把NeRF应用到SLAM。相比于传统的SLAM,NeRF-based SLAM的优势在哪?未来的发展方向又是怎样的呢?
2023年12月07日 15:26:42

对,这个问题很好,传统的 SLAM 的话,比如说大家更多的是用的一种显式的表达,比如说TSDF, Voxel 这种。那么 NERF 表达的一是它的重建质量可以很高,因为现在大家看到像 Instant ... 阅读全文〉
slam在文章中的体现在哪呢,感觉更像是object nerf
2023年12月07日 15:26:42

对,首先 SLAM 的话我们认为它是一个实时的系统,那么 object NERF 的它就是一个离线的这样一个优化,然后 SLAM 其实主要是两部分, simultaneous类和localizatio... 阅读全文〉
请问对于music2dance,或者dance2music任务,最核心的问题/挑战是什么呢?(相比于text2image,text2video)后续可以做的方向还有哪些呢?
2023年12月07日 15:26:42

OK,非常good, thanks for the question。我觉得非常有意思,就是你这两个任务确实是一个,嗯,就是反方向。 From dance music to dance Yiji. ... 阅读全文〉