新闻动态 你的位置:168飞艇是什么 > 新闻动态 > 异化双目编码光学助力高质量RGBD成像 | 前沿进展_图像_信息_深度
异化双目编码光学助力高质量RGBD成像 | 前沿进展_图像_信息_深度

发布日期:2025-06-25 23:18    点击次数:54


现实、自动驾驶、机器人导航等应用领域对3D视觉感知能力需求的提升,如何准确地从二维图像中提取三维信息(RGBD,即彩色图像与深度图像)成为视觉计算的研究热点之一。传统立体成像技术易于实现且不依赖主动照明,在许多场景下得到了广泛应用,但受限于物理相机的光学性能以及立体匹配算法的不足,在高频细节还原、高分辨率深度图重建等方面仍存在提升空间。

鉴于此,香港大学与阿卜杜拉国王科技大学联合提出了一种基于软硬件协同优化的双目编码光学(Binocular-Encoding Optics)RGBD成像系统。通过结合了立体视觉(stereo)与聚焦(focus)信息,利用可学习衍射光学元件(DOE)在光学层面实现双目图像的差异化高频编码,再配合立体匹配和图像重建网络,实现了在较大深度范围内的高精度、高细节RGBD图像采集。该研究成果近期接收于领域内顶会IEEE/CVF CVPR 2025 (oral)。

展开剩余88%

图1 差异化双目编码光学系统原理示意

以下视频来源于

IntelligentOptics

技术路线

技术实现上主要包括以下三个步骤:

一、差异化DOE光学设计

该研究设计了一对基于低秩(rank-2)参数化的衍射光学元件(DOE),分别安装于双目相机的左、右镜头。这种DOE具有微米级精度的表面轮廓,通过衍射效应对入射光进行精细的相位调制。特别地,左右两个DOE通过巧妙的设计实现了相互垂直方向的高频信息编码,保证左右相机所采集的信息具有显著的互补性与差异性,其编码方法与优化结果如图2所示。

图2 DOE编码原理及优化结果示意

具体来看,通过优化DOE的相位分布,使其能够选择性地增强特定空间频率方向的高频信息,同时仍保持足够的光强和图像对比度。这种设计方式有效扩大了光学系统对空间频率的采样范围(MTF),明显提升了系统对高频细节的捕捉能力,如图3所示。

图3 双目差异化编码DOE与传统透镜的空间频率的采样范围比较

二、基于IGEV的立体匹配神经网络设计

在软件层面,该研究采用了最新的立体匹配网络结构 IGEV,并将其与重建网络UNet进行融合,并结合卷积循环神经网络(ConvGRU)的优势,能高效提取立体图像对中的几何和纹理信息。

立体匹配网络IGEV首先通过多尺度特征提取模块获取左右视图中的丰富特征,然后构建了联合几何编码体积(Combined Geometry Encoding Volume, CGEV),将几何约束信息和所有可能的像素对相关性信息整合在一起。随后,通过迭代的ConvGRU结构对视差图(disparity map)进行精细迭代优化。这种设计使网络能够在保持较高深度图分辨率与准确度的同时,具有相对低的计算复杂度,非常适合实际应用。

图4 基于IGEV-UNet的立体匹配网络架构

三、RGBD图像精细重构与跨视图融合

在获得初步的立体匹配深度估计之后,该研究进一步设计了专门的RGBD重构网络,以显著提高RGB图像质量和深度图的分辨率。该网络首先使用IGEV估计的深度信息进行右图像到左图像的空间扭曲(warping),随后再使用一种跨视图信息融合机制,将左右两个通道通过DOE编码后的图像信息高效整合。在编码-解码过程中充分发挥了不同尺度下的特征互补性。网络通过特征相似性损失函数和深度预测损失函数的共同优化,实现了RGB图像的高精度重建和深度图的进一步细化。

研究还通过与其他无差异化光学编码的现有深度光学方法对比,发现DOE差异化编码所捕获的高频信息有效提升了神经网络在图像复原时的效果,减少了传统立体视觉成像系统与单目系统中常见的模糊、扭曲等现象,如图4所示。提出的具有差异化编码的RGBD重构网络在图像与深度估计质量的量化指标上均具有提升。

图4 提出的方法与其他具有一致光学编码、使用非融合重构网络的深度光学方法对比

原型机搭建与实验结果:

通过上述三个关键步骤,该研究搭建了一套完整的软硬件协同优化框架,并进一步实现了实验性的立体相机原型,如图5所示。原型机中装配的DOE通过光刻和反应离子刻蚀(Reactive-Ion Etching)工艺,在熔融石英晶圆上进行微结构加工,形成16级的精细相位轮廓。

图5 装配双目差异化编码DOE的相机原型

在0.67米至8米的大深度范围仿真测试中,这种全新的编码光学成像系统与传统立体成像方案相比,RGB图像PSNR提高约2.96 dB,深度图估计的平均像素误差(EPE)减少0.28 px,如表1所示。用相机原型进行室内外大范围实际拍摄结果如图6所示。

表1 不同模型与光学编码方式与该研究提出的模型的量化指标比较

图6 使用提出的立体相机原型机室内外实验拍摄结果与传统双目相机的RGBD结果对比

技术小结

该研究提出的双目RGBD成像框架为3D视觉应用提供了更高质量的数据支持,并在理论和实际场景中验证了多相机软硬件联合优化方法的潜力与实际价值。该技术路线还有望进一步推广到更复杂的应用场景,例如低光照、动态环境及其他特殊成像需求,为实现更加精准和鲁棒的三维视觉感知提供关键支撑。

论文信息:

Yuhui Liu, Liangxun Ou, Qiang Fu, Hadi Amata, Wolfgang Heidrich, Yifan Peng. Learned Binocular-Encoding Optics for RGBD Imaging Using Joint Stereo and Focus Cues, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2025.

技术详见:

*该技术分享所涉及文字及图片源于发表论文和网络公开素材,不做任何商业用途。

来源:IntelligentOptics

如有光学论文写作/实验笔记经验、绘图工具介绍,或其他优质稿件,欢迎投稿至ioptics@clp.ac.cn。

字数控制在2000-3000字为佳,

稿件一经录用,我们将提供具有竞争力的稿酬。

期待你的来稿!

发布于:上海市

Powered by 168飞艇是什么 @2013-2022 RSS地图 HTML地图