Ozcan团队 Light | 强化学习加速光学AI系统无模型训练

Banner

本文由论文作者团队撰稿

导读

光学计算利用光传播的天然并行性，有望实现超高速、低功耗的信息处理。其中，衍射光学网络通过被动相位结构即可完成复杂计算，被认为是未来光学人工智能硬件的重要方向。然而，传统训练方法通常依赖数值仿真模型，在真实系统中往往因模型误差、噪声和器件不完美而性能下降。

近期，美国加州大学洛杉矶分校Aydogan Ozcan团队提出一种基于强化学习的模型自由实时训练框架，使光学处理器能够直接通过实验测量进行自主学习和优化。相关成果以“Model-Free In Situ Optimization of Diffractive Optical Processors Using Proximal Policy Optimization” 为题发表于Light: Science & Applications。

衍射光学网络通过多层相位调制结构实现光场计算，在光学推理、成像和信息处理等领域展现出重要潜力。传统方法通常先在计算机中建立系统模型并完成训练，再将设计结果转移到实际硬件。然而，真实实验系统中不可避免存在器件误差、环境扰动和系统噪声，这些因素难以精确建模，导致模型驱动设计在实验中性能下降。因此，发展无需精确物理模型、能够直接在实验系统中完成优化的无模型实时训练方法，成为实现高性能光学计算硬件的重要研究方向。

本文针对衍射光学网络在实际应用中难以精确物理建模的挑战，提出了一种基于近端策略优化（PPO）算法的无模型实时强化学习框架。该策略直接在物理硬件上运行，通过测量反馈的奖励信号自主训练，无需任何先验系统知识，从而有效弥合了仿真模型与真实硬件之间的性能差距。

为了解决实时物理测量数据获取缓慢且成本高昂的问题，该架构引入了PPO 的数据重用机制，允许利用单次实时测量的样本进行多次数字策略更新，显著提升了数据利用效率（图1）。同时，通过截断代理目标限制了策略更新的幅度，确保了在实验噪声干扰下的稳定收敛。模拟结果表明，在全光学图像分类任务中，该方法的收敛速度比传统策略梯度算法快 3.2 倍。

图1：基于近端策略优化（PPO）算法的无模型实时光学强化学习框架

研究团队通过一系列复杂任务验证了该方法的普适性。在目标能量聚焦实验中，即使在光路中引入未知的随机散射体，系统仍能实现精准调控。在全息图像生成中，PPO 相比传统方法获得了更高的峰值信噪比和更清晰的细节。此外，该框架还展示了出色的实时像差校正能力，通过对光学生成模型进行自适应优化，显著补偿了物理硬件的对准偏差并提升了合成图像质量。

最后，实验成功实现了基于单层衍射神经网络的全光学MNIST 图像分类（图2），证明了该无模型方案在处理高维复杂变换任务时的有效性。这一进展不仅为物理神经网络的部署提供了稳健、高效的路径，也为自适应光学、非线性光子学等难以建模的复杂物理系统的自主演进开辟了通用框架。

图2：全光学衍射图像分类器实时强化学习的实验验证

总结与展望

该研究实现了衍射光学处理器在真实硬件中的模型自由实时学习，使光学计算系统能够直接从实验反馈中自主优化和适应复杂环境。该方法不仅适用于衍射光学网络，也可推广至纳米光子器件、光学加速器和自适应成像系统等多种可调光学硬件平台，为未来智能物理计算系统的发展提供了新的技术路径。

论文信息

Li, Y., Chen, S., Gong, T.et al. Model-free optical processors using in situ reinforcement learning with proximal policy optimization. Light Sci Appl 15, 32 (2026).

https://doi.org/10.1038/s41377-025-02148-7

Banner

编辑：赵阳

审核：丁帅

高被引文章统计

如下数据来自Web of Science，Light: Science & Applications的高被引文章数量在国内同类期刊中稳居领军地位。截至目前：

超过3000次引用的文章有1篇

https://doi.org/10.1038/lsa.2014.99

超过2000次引用的文章有2篇

https://doi.org/10.1038/s41377-019-0194-2

超过1000次引用的文章有8篇

https://doi.org/10.1038/lsa.2014.30

https://doi.org/10.1038/s41377-020-0341-9

https://doi.org/10.1038/lsa.2016.133

https://doi.org/10.1038/lsa.2017.168

https://doi.org/10.1038/lsa.2017.141

https://doi.org/10.1038/s41377-021-00658-8

超过800次引用的文章有9篇

https://doi.org/10.1038/lsa.2014.48

超过700次引用的文章有15篇

https://doi.org/10.1038/s41377-018-0078-x

https://doi.org/10.1038/lsa.2013.28

https://doi.org/10.1038/s41377-020-0326-8

https://doi.org/10.1038/s41377-022-00714-x

https://doi.org/10.1038/s41377-020-0264-5

https://doi.org/10.1038/s41377-018-0060-7

超过600次引用的文章有22篇

‍https://doi.org/10.1038/lsa.2015.30

https://doi.org/10.1038/lsa.2015.67

https://doi.org/10.1038/s41377-020-0268-1

https://doi.org/10.1038/lsa.2014.46

https://doi.org/10.1038/lsa.2014.60

https://doi.org/10.1038/lsa.2017.146

https://doi.org/10.1038/lsa.2017.39

超过500次引用的文章有39篇

https://doi.org/10.1038/lsa.2015.131

https://doi.org/10.1038/s41377-022-00897-3

https://doi.org/10.1038/s41377-020-00421-5

https://doi.org/10.1038/s41377-021-00639-x

https://doi.org/10.1038/lsa.2013.26

https://doi.org/10.1038/lsa.2016.17

https://doi.org/10.1038/lsa.2014.94

https://doi.org/10.1038/lsa.2014.42

https://doi.org/10.1038/lsa.2015.97

https://doi.org/10.1038/s41377-019-0148-8

https://doi.org/10.1038/lsa.2016.76

https://doi.org/10.1038/s41377-018-0091-0

https://doi.org/10.1038/s41377-021-00501-0

https://doi.org/10.1038/lsa.2017.134

https://doi.org/10.1038/lsa.2014.58

https://doi.org/10.1038/s41377-022-00717-8

https://doi.org/10.1038/lsa.2012.1

超过400次引用的文章有63篇

https://doi.org/10.1038/s41377-020-00353-0

https://doi.org/10.1038/s41377-021-00497-7

https://doi.org/10.1038/s41377-019-0201-7

https://doi.org/10.1038/s41377-020-0331-y

https://doi.org/10.1038/lsa.2015.59

https://doi.org/10.1038/s41377-021-00527-4

https://doi.org/10.1038/s41377-018-0013-1

https://doi.org/10.1038/s41377-019-0191-5

https://doi.org/10.1038/s41377-021-00551-4

https://doi.org/10.1038/lsa.2014.22

https://doi.org/10.1038/lsa.2015.137

https://doi.org/10.1038/s41377-022-00851-3

https://doi.org/10.1038/s41377-018-0038-5

https://doi.org/10.1038/s41377-020-00367-8

https://doi.org/10.1038/s41377-019-0205-3

https://doi.org/10.1038/s41377-018-0090-1

https://doi.org/10.1038/s41377-021-00655-x

https://doi.org/10.1038/lsa.2016.243

https://doi.org/10.1038/s41377-021-00469-x

https://doi.org/10.1038/s41377-021-00500-1

https://doi.org/10.1038/s41377-020-0246-7

https://doi.org/10.1038/lsa.2016.144

https://doi.org/10.1038/lsa.2017.16

https://doi.org/10.1038/lsa.2013.6

超过300次引用的文章有127篇

超过200次引用的文章有228篇

超过100次引用的文章有560篇

超过50次引用的文章有1092篇

欢迎课题组投宣传稿

请扫码联系值班编辑

菜单

分享

Ozcan团队 Light | 强化学习加速光学AI系统无模型训练

中国智能驾驶技术行业发展现状及前景研究报告

盐城市大丰区招商局朱金瑜局长一行来访五度易链，聚焦大数据精准招商

中国智能座舱行业市场现状及发展趋势研究报告

2021厦门投洽会 | “五度易链”创始人金永顺博士：数据驱动产业高质量发展！

2026年中国汽车芯片行业市场现状与发展前景研究报告

Y12T110 广州港科大：偏振无关角度无关的垂直耦合光栅

心梗猝死来临前的6个求救信号别忽视！记住这些关键时刻能救命

中国新能源汽车行业市场现状与未来发展趋势研究报告

“笃威尔数字技术”受邀出席2024 H-Tech Data创新情报论坛！

喜报 | “北京笃威尔数字技术有限公司”获评2024年国家高新技术企业