如今,机器学习无处不在,但多数机器学习系统是隐形的:它们在「黑箱」里优化音频或识别图像中的人脸。但最近 UCLA 的研究人员研发出了一个 3D 打印 AI 分析系统。这一系统不仅看得见,还摸得着。与以往通过调节数字进行分析的系统不同,该系统通过光线的衍射来分析人工智能。这一新奇、独特的研究成果表明:这些「人工智能」系统可以看起来非常简单。
我们通常将机器学习系统看作人工智能的一种形式,其核心是对一组数据进行的一系列运算,每一次运算都基于上一次运算或馈送到一个循环中。运算本身并不太复杂——尽管也没有简单到可以用纸笔计算的程度。最终,这些简单的数学运算会得出一个概率,即输入的数据与系统「学会」识别的各种模式相匹配。
通常,机器学习系统进行每一次参数更新或推断时所需的运算需要在 CPU 或 GPU 上进行。由于当前的深度学习需要大量并行计算,GPU 成了更广泛的选择。但即使最先进的 GPU 也是用硅和铜制成的,信息需要沿着错综复杂的电路以脉冲的形式传播。这就意味着,不论是执行新的计算还是重复的计算,传统 GPU 都会产生能耗。
因此,当深度学习中的这些「层」已经完成训练,并且所有参数的值都确定下来,它还会一次次地重复计算与耗能。这意味着 3D 打印 AI 分析系统在训练完它的「层」后,还可以被优化,不会占用太大空间或 CPU 功率。来自 UCLA 的研究人员表示,它确实可以固化,这些层本身就是由透明材料制成的 3D 打印层,印有复杂的衍射图案,这些图案可以对光线进行处理。
图 2:3D 打印的衍射深度神经网络测试实验。如果这样描述让你觉得有点头疼,不妨想想机械计算器。如今,数字计算都是在计算机逻辑中以数字形式完成的。但是过去,计算器需要移动实际的机械零件才能进行计算——数字加到 10 都会造成零件位置变换。从某种程度上来说,这种「衍射深度神经网络」与之相仿:它使用并操纵数字的物理表示,而不是电子表示。这就代表着,如果将模型的预测过程固化为物理表示,那么它在实际预测过程中就能大大降低能耗。
正如研究人员所说:
给定层上的每个点传输或反射入射波,该入射波相当于通过光学衍射连接到下一层其它神经元的人工神经元。通过改变相位和振幅,每个「神经元」都是可调的。
「我们的全光深度学习框架能够以光速执行各种复杂任务,基于计算机的神经网络也可以实现这些任务。」研究人员在论文中描述其系统时写道。
为了证明这一点,他们训练了一个深度学习模型来识别写手写数字。完成之后,他们会把矩阵数学层转化为一系列的光学变换。例如,一个层可能会通过将两者的光线重新聚焦到下一层的单个区域来增加值——实际计算比这要复杂得多,此处只做概述。
图 3:衍射深度神经网络实现手写数字识别。通过在印刷版上布置数百万个微型转换,光从一端输入并从另一个结构中输出,因此系统能以超过 90% 的准确率判断它是否为 1、2 和 3 等。
读者可能会疑问这到底有什么用,因为最简单的三层感知机在识别手写数字时都能轻松达到 95% 以上的准确率,而卷积网络可以实现 99% 以上的准确率。这一形式目前确实没什么实际用处,但是神经网络是非常灵活的工具,系统完全有可能识别字母而不是仅限于数字。因此可以令光学字符识别系统在硬件中运行,且基本上不需要能耗或计算。
真正的局限在于制造工艺:打造一个能实现按需处理任务的超高精度衍射板非常困难。毕竟,如果需要精确到小数点后七位,而印刷版却只能精确到第三位的话,那就相当麻烦了。
这只是一个概念的证明——对大型数字识别机器并没有迫切需求——但这个想法十分有趣。该想法可能会对摄像机和机器学习技术产生影响——在物质世界而非虚拟世界里构造光与数据。看起来像是倒退,但也许只是钟摆在向后摆动。
深度学习已经提高了我们使用计算机执行高级推理任务的能力。我们在本文中引入了一种物理机制来执行机器学习,这是一种全光衍射深度神经网络(D^2NN)架构,可以按照基于深度学习设计的、集体工作的被动衍射层来实现多种函数。为此,研究人员构建了 3D 打印的 D^2NN 来实现手写数字和时尚产品的图像分类,以及成像镜头在太赫兹光谱的函数。我们的全光深度学习框架能以光速计算多种基于传统计算机的神经网络也可以实现的复杂函数,并将在全光图像分析、特征检测和目标分类中开发新的应用,此外它还允许设计新的摄像头和光学器件,以利用 D^2NN 执行独特的任务。