线性函数与多层神经元

SANIKKI2025年4月12日大约 8 分钟

本文章的内容和知识为作者学习期间总结且部分内容借助AI理解，可能存在一定错误与误区，期待各位读者指正。
本文章中的部分例子仅用于生动解释相关概念，切勿结合实际过度解读。
语雀链接：《神经网络概述》
部分内容来源：B站：李哥考研
本章内容已经更新完成，如有不足之处，不妨评论区一叙

线性函数与多层神经元

多层神经元

上次我们通过构建一个线性函数进行预测，但线性函数显然是有局限性的，我们仅依靠一个线性函数是无法找到想要的结果，它太简单了，就像你无法找到一个 $y = a x + b$ 使其拟合于 $y = x^{2}$ ，一个神经元（线性函数）无法完成任务，我们需要更为复杂的神经网络。

下图是一个典型的人工神经网络（Artificial Neural Network，ANN）的结构，可分为输入、隐藏、输出三层。

输入层（INPUT LAYER）：图中用橙色表示。输入层的神经元负责接收外部数据，这些数据是网络进行处理的原始信息。

隐藏层（HIDDEN LAYERS）：图中用绿色表示，位于输入层和输出层之间。隐藏层的神经元不直接与外部交互，它们对输入数据进行内部处理和转换。一个神经网络可以有多个隐藏层，每个隐藏层都在前一层的基础上进一步提取和处理特征。

输出层（OUTPUT LAYER）：图中用红色表示，位于最右侧。输出层的神经元负责产生网络的最终输出，这个输出可以是分类结果、预测值等，取决于网络的应用场景。

图中每一个圆圈代表着一个神经元，神经元之间的连线代表权重连接，这些连接上的权重决定了信息从一个神经元传递到另一个神经元时的强度和方向。虽然这个图片看起来复杂，但其内部仍是线性关系。

就像人类的大脑神经一样，当你面前有一盘麻婆豆腐时，你会从色、香、味多个角度，用眼、鼻、舌多个器官去判断这是不是一盘美味佳肴。与之类似，神经网络是由多个神经元同时接收信息，共同做出决断，这样的多层神经元相比之前单一的神经元是不是作用更强了呢？

神经元与矩阵

显然，多个神经元的模型更为复杂，单个神经元的模型为 $y = w x + b$ ，而此时由于有多个输入值，因此需要根据其不同权重进行加和，从而得出新模型为 $r_{1} = b_{1} + w_{11} x_{1} + w_{12} x_{2} + w_{13} x_{3} + w_{14} x_{4}$

如果我们把所有的公式都写出来：

\begin{aligned} r_{1} & = b_{1} + w_{11} x_{1} + w_{12} x_{2} + w_{13} x_{3} + w_{14} x_{4} \\ r_{2} & = b_{2} + w_{21} x_{1} + w_{22} x_{2} + w_{23} x_{3} + w_{24} x_{4} \\ r_{3} & = b_{3} + w_{31} x_{1} + w_{32} x_{2} + w_{33} x_{3} + w_{34} x_{4} \end{aligned}

仔细观察，这些公式可以用线性代数中的矩阵来表示。

输入层 => 隐藏层： $r = b + w x$

[\begin{matrix} r_{1} \\ r_{2} \\ r_{3} \end{matrix}] = [\begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix}] + [\begin{matrix} w_{11} & w_{12} & w_{13} & w_{14} \\ w_{21} & w_{22} & w_{23} & w_{24} \\ w_{31} & w_{32} & w_{33} & w_{34} \end{matrix}] [\begin{matrix} x_{1} \\ x_{2} \\ x_{3} \\ x_{4} \end{matrix}]

隐藏层 => 输出层： $y_{0} = b_{0} + C^{T} r = b + C^{T} (b + w x)$

y_{0} = b_{0} + [\begin{matrix} c_{1} & c_{2} & c_{3} \end{matrix}] [\begin{matrix} r_{1} \\ r_{2} \\ r_{3} \end{matrix}]

请注意，我们用 $b_{0}$ 来表示单一数字，用 $b$ 来表示矩阵 $[\begin{matrix} b_{1} \\ b_{2} \\ b_{3} \end{matrix}]$

神经元的串联

可是，无论我们增加多少层，串联多少神经元，似乎只起到了传递的作用，这样的一根神经元和多层神经网络好像没有本质上的区别。以下图为例：

\begin{aligned} r_{1} & = b_{1} + w_{11} x_{1} + w_{12} x_{2} \\ r_{2} & = b_{2} + w_{21} x_{1} + w_{22} x_{2} \\ z_{1} & = b + w_{1} r_{1} + w_{2} r_{2} \\ = b + w_{1} (b_{1} + w_{11} x_{1} + w_{12} x_{2}) + w_{2} (b_{2} + w_{21} x_{1} + w_{22} x_{2}) \\ = (b + w_{1} b_{1} + w_{2} b_{2}) + (w_{1} w_{11} + w_{2} w_{21}) x_{1} + (w_{1} w_{12} + w_{2} w_{22}) x_{2} \end{aligned}

虽然模型变得更为复杂，但也很难摆脱线性函数的本质，此时我们就需要借助下一个函数——激活函数。

激活函数与非线性因素

激活函数是神经网络中非常重要的组成部分。它是一种非线性函数，用于对神经元的输入进行处理，从而给神经网络引入非线性因素。如果没有激活函数，多层神经网络就等同于一个线性模型。因为多个线性变换的组合仍然是线性变换，这样神经网络就无法处理复杂的非线性问题。引入激活函数之后，由于激活函数都是非线性的，这样就给神经元引入了非线性元素，使得神经网络可以逼近任何非线性函数，这样使得神经网络应用到更多非线性模型中。

常见的激活函数有：