听声辨位过时了!这个AI系统仅凭光回声就能得到3D图像

【听声辨位过时了!这个AI系统仅凭光回声就能得到3D图像】
机器之心报道
编辑:魔王、蛋酱
借助光回声获得时间信息 , 利用机器学习从看似噪声的信息中挖掘模式 。 这项研究登上光学期刊 Optica 。 ?
听声辨位过时了!这个AI系统仅凭光回声就能得到3D图像
本文插图
利用光回声和机器学习制作 3D 影像(左) , 右图来自 3D 相机 。 左图分辨率低于右图 , 但它仅基于光回声执行 , 且能够展示人物的形状 。
想象一下 , 你闭着眼睛朝一只动物大吼 , 然后根据回声就能判断这只动物是猫是狗 。 听起来是不是很不可思议?
来自英国格拉斯哥大学计算科学学院的研究者最近就做了一项类似的成像技术 。 他们通过计算光反射到一个简单探测器所需的时间 , 来获得场景的 3D 图像 。 当然 , 仅仅依靠光提供的信息是不够的 , 这项被称为「时域成像」(temporal imaging)的新技术还借助机器学习方法 , 从噪声中挖掘模式 。
加州大学伯克利分校计算机科学家 Laura Waller 评论道:「这个系统竟然可以获得图像 , 这令我感到震惊 , 因为它提取到的信息远远不够 。 这展示了机器学习在解决看似无解问题上的能力 。 」Laura Waller 并未参与此项研究 。
在传统摄影中 , 环境光从物体上反射 , 镜头将其聚焦在一个由微型感光元素或像素组成的屏幕上 。 这幅图像是由反射光所形成的亮点和暗点的集合 。 相比之下 , 一种名为「飞行时间相机(time-of-flight camera , ToF camera)」的设备可以为图像加上深度信息 , 通过计算物体反射回来的一束光到达不同像素的精确时间来生成 3D 图像 。
最近几十年来 , 研究人员创造了很多精妙的方式 , 来使用单像素检测器捕捉图像 。 为此 , 他们不把物体置于均匀照明中 , 而是置于不同光模式的光束中 , 这有点类似于外包装上的条形码 。 每个模式反射物体的不同部分 , 这样像素度量到的光强度随着模式的变化而变化 。 通过追踪这些变化 , 研究人员能够成功重建物体的图像 。
现在 , 来自英国格拉斯哥大学的数据科学家 Alex Turpin、物理学家 Daniele Faccio 及其同事提出了一种使用单个像素生成 3D 图像的新方式 , 但它不需要具备模式的光 。
利用快如闪电般的单光子检测器 , 他们描述了具备统一光的场景 , 并度量其反射时间 。 该检测器可以精确到 1/4 纳秒 , 计算光子数量随着时间的变化情况 。 仅基于这一信息 , 研究人员即可重建该场景的图像 。
Waller 认为 , 这一结果令人吃惊 , 因为原则上场景中的物体陈设和时间信息之间不存在一对一关系 。 例如 , 当检测器距离任意表面 3 米远时 , 反射该表面的光子将在 10 纳秒内到达 , 不管它位于表面的什么方向 。 乍一看 , 这种模糊性似乎使问题无解 。 「我第一次听到『单像素成像』的概念时 , 想的是『这应该奏效』 。 而对于这个 , 我想的是『应该不会有用』 。 」
为了解决这一问题 , Turpin 及其同事使用神经网络 , 来检测输入和输出之间的微妙关联 。 研究人员使用光束和检测器 , 录制一两个人在固定、不对称的背景场景前移动的数据 。 同时 , 他们还使用 ToF 相机记录场景的真实 3D 图像 。
上周 , 研究人员在光学期刊 Optica 上发表了这篇论文 , 表明在使用以上两个数据集训练神经网络之后 , 神经网络能够自行对场景中移动的人建模 。 与 ToF 相机拍摄的图像相比 , 时域图像比较模糊 , 且缺乏细节 。 但是 , 它们能够清晰地展示人物的形状 。
该神经网络能够解码模糊信号 , 这要感谢训练过程 , 该网络尝试回忆与训练过程中见过的场景和物体类似的事物 。 不过这意味着该系统存在缺陷:它必须在将要观察的场景中进行训练 。


推荐阅读