[15TOG]SemanticPaint: Interactive 3D Labeling and Lear ning at your Finger tips

microsoft-scanning-2015-07-01-01

  • SemanticPaint: Interactive 3D Labeling and Lear ning at your Finger tips. Julien Valentin, Vibhav Vineet, Ming-Ming Cheng, David Kim, Jamie Shotton, Pushmeet Kohli, Matthias Nießner, Antonio Criminisi, Shahram Izadi, Philip Torr, ACM TOG, 2015. [pdf] [project page] [bib] [C++&CUDA]

在解决视觉信息识别问题的过程中,通常有2个问题让我们非常头疼:i) 高质量标注数据的采集非常困难,ii) 二维图像中的物体尺度、遮挡等不确定性和干扰给识别带来很大困难。为了解决这一问题,牛津大学和微软剑桥研究院合作开发了SemanticPaint系统,实现了实时3D场景重建与交互式语义标注。通过该系统,用户仅需要穿戴一个深度摄像头和虚拟现实眼镜,就可以实时地3D重构所在场景,并通过物理的触摸及语音命令对场景中的物体进行语义标注。这些存在于3D数据中的语义标注为在线学习技术提供了强有力的支持(通过不同的视角渲染即可得到传统意义上一组图像语义分割标注,而且3D数据中还蕴含着更重要的大小,角度等丰富信息)。通过这些标注信息在线学习的模型可以被用于对所在场景进行实时识别。同时,用户可以实时获得识别反馈,并更正识别错误。

以上过程是不是特别像大人教小孩子呢?我们不是通过给小孩子一堆照片来教他们认识不同的东西,而是在实际生活的场景中告诉他们那个是狗,那个是桌子。孩子们听到我们教的,同时从颜色,大小,相互关系等不同视角观察被学习的物体。孩子们可能会犯错并在大人发现之后被纠正。你可以想象仅从一堆图像和标签就能让自己的孩子学习和认识这个世界是一件多么困难的事情吗?我们在设计视觉识别系统时,是不是也该考虑到这种身临其境,和不断学习的模式呢?

发帖人:程明明

(Visited 656 times, 1 visits today)