VR普及化曙光!AI把2D画面变3D全景,DeepMind再

VR普及化曙光!AI把2D画面变3D全景,DeepMind再

继 DeepStack 之后,Google 旗下 DeepMind 又再度登上 《科学》 期刊,这次的论文是 用 GQN神经网路,把 2D 画面重建成 3D 场景 ,而且可以利用「想像力」从各个视角呈现该场景。更进一步来说,若将这项技术成功普及并应用于 VR 内容製作,可望一举解决 VR 360 度环境大量建模所耗费的成本。

应用与目的解说

根据 DeepMind 官方部落格,人类理解虚拟场景背后可不只是看一眼这幺简单,我们的大脑利用过去的经验来延伸解读,最后建构并超越了视网膜接收到的视觉资讯。举例来说,就算你只在图片中看到一张三只脚的桌子,也会脑补第四支脚刚好被挡住;就算你只看到房间一隅,也能描绘并想像出整个房间的格局,甚至从不同角度看起来会是怎样。

随着科技进步,我们更需要机器看懂周遭环境,让机器人能够找到地方坐、判断产品材质,或者找到电灯开关。但是对人类来说很简单的这些环境资讯,却很难让 AI 学会,现在训练 AI 需要靠人工针对人类一个空间的每个角度照相并「贴标籤」让机器去记忆与学习,非常旷日费时。

而这项 GQN 技术,让机器自己在环境中收集资讯,并且自己去理解,就像动物和婴儿一样自己透过探索来学习,不再需要一个口令一个动作。

GQN 原理解说

GQN 模型分为两大部分,分别为代表网路及生成网路,代表网路将观察到的输入资料製作成向量几何物件,并且再由生成网路去想像表面上没看见的视角看起来会是怎样。

虽然目前 GQN 和传统方法相比也是存有不少限制,而且只有用于虚拟场景,不过 DeepMind 的团队已经準备要导入更高解析的真实场景训练,甚至导入时间元素,让 AI 理解时间与空间的关係,进一步判断物理运动状态,因此不只是建模,还能让它动起来。对于建构 VR 虚拟实境内容方面可望有更多帮助。

更多技术细节与应用可以参考 DeepMind 部落格及论文。