您现在的位置是：首页 > 生活 > 正文

利用模型驱动深度学习实现高保真4K彩色全息显示

发布时间：2023-02-22 10:15:20编辑：来源：

2009年，IMAX立体(3D)阿凡达风靡全球电影市场。几年后，初音未来3D演唱会吸引了所有动漫迷的目光。而最近 AR/VR 3D 头戴设备导致元宇宙的蓬勃发展。3D显示领域的每一次进步都带来了本质的社会关注和经济效益。

为了获得更逼真的视觉体验，主流的商业3D显示解决方案大多基于双目视觉原理。

然而，与观察真实的 3D 物体不同的是，观看者佩戴设备获取 3D 信息时，视觉焦点的深度保持不变。这种聚散度调节冲突使观看者容易出现视觉疲劳和眩晕，从而限制了用户体验。

计算机生成全息术(CGH)可以从源头上避免聚散调节冲突的产生。实验装置简单紧凑。CGH 受到了学术界和工业界的极大关注。它被视为3D显示的未来形式。

原则上，CGH基于衍射计算将 3D 对象编码为数字二维 (2D) 全息图。然后将二维全息图上传到由平面波照明的空间光调制器 (SLM)。在一定距离处获得 3D 物体的光学重建。CGH 在广泛的 3D 显示器中具有潜在的应用，例如头戴式显示器、平视显示器和投影显示器。

如何高速、高质量地生成二维全息图是目前该领域的一个关键问题和重要研究方向。

最近，清华大学Hololab提出了一种模型驱动的深度学习神经网络，称为4K-DMDNet。实现高质量高速全息图生成，实现高保真4K彩色全息显示。

由于 SLM 的局限性，计算出的全息平面上的复振幅分布需要转换为仅振幅全息图或仅相位全息图 (POH)。其中，POH生成过程是典型的不适定逆问题。它面临的挑战是解决方案可能不是唯一的、稳定的或现有的。

迭代算法可以将 POH 生成过程转化为优化问题。可以获得具有良好收敛性的数值解。然而，这些算法面临计算速度和重建质量之间的权衡。

深度学习强大的并行处理能力为解决优化问题带来了革命性的进步。深度学习对CGH也产生了深远的影响。

预先获得3D物体的训练数据集和对应的全息图数据集，作为神经网络的输入和输出。训练神经网络学习它们之间的映射关系。经过训练的网络可以实现对训练数据集之外的显示目标输入的快速预测。有望同时实现高速和高质量的全息图生成。

利用神经网络进行全息图生成的想法早在1998年就由日本研究人员提出，但受限于当时计算机的软硬件性能，仅取得了初步的成果。

随着GPU和卷积神经网络(CNN)的广泛应用，当前的硬件和软件性能更符合CGH的数学特性。基于学习的CGH发展迅速。

2021 年，麻省理工学院的研究人员提出了一种 Tensor 全息网络，可以在智能手机上实时生成 2K 全息图。

为了获得准确的网络预测，训练数据集和相应的全息图数据集需要一个耗时的生成过程。此外，由于网络只是学习输入和输出之间的映射，全息图数据集的质量限制了训练结果的上限。

为了突破数据驱动深度学习的上述局限性，提出了基于模型驱动深度学习的全息图生成方案。

网络不是预先生成全息图数据集，而是通过使用逆问题的正向物理模型作为模型驱动方法中的约束来训练网络。网络因此可以学习如何自主编码全息图，突破全息图数据集大小和质量的限制。

然而，传统的模型驱动的深度学习网络需要在显示目标上进行迁移学习才能获得更好的性能。额外的时间成本限制了模型驱动深度学习的实际应用。

本工作中提出的 4K-DMDNet 使用残差U-Net神经网络框架。菲涅尔衍射模型作为训练过程的约束。它能够在没有迁移学习的情况下生成高保真 4K 全息图。

标签：